科技行业资讯门户

广告

广告

广告

广告

广告

微软OmniParser V2.0发布:DeepSeek等模型变身电脑操控AI智能体

【蜂耘网 互联网】微软近日宣布了一项重大更新,其OmniParser工具已升级至V2.0版本,这款基于纯视觉的GUI智能体解析工具,专门用于识别和解析屏幕上的可交互图标。通过与GPT-4V等先进模型的结合,OmniParser的识别能力得到了显著提升。

 

据微软官方消息,OmniParser V2.0在2月12日正式发布。新版本不仅支持OpenAI的多个模型(包括4o、o1、o3-mini),还兼容DeepSeek的R1版本、Qwen的2.5VL版本以及Anthropic的Sonnet模型。这意味着,这些模型现在都可以被转化为能够操控计算机的AI智能体。

 

与V1版本相比,OmniParser V2.0在训练上采用了更大规模的交互元素检测数据和图标功能标题数据。这一改进使得V2.0在检测较小的可交互UI元素时,不仅准确率更高,而且推理速度更快,延迟降低了60%。这一提升对于提高AI智能体的操作效率和用户体验具有重要意义。

 

在高分辨率Agent基准测试ScreenSpot Pro中,OmniParser V2.0与GPT-4o的结合展现出了惊人的效果。测试结果显示,V2.0+GPT-4o的准确率高达39.6%,而GPT-4o原始准确率仅为0.8%。这一数据对比充分证明了OmniParser V2.0在提升AI智能体识别能力方面的显著作用。

 

微软OmniParser V2.0发布:DeepSeek等模型变身电脑操控AI智能体

 

为了加速不同智能体设置的实验进程,微软还开源了OmniTool这一关键工具。OmniTool是一个集成了智能体所需基本工具的Docker化Windows系统,涵盖了屏幕理解、定位、动作规划和执行等功能。这一工具的推出,无疑为将大模型转化为智能体提供了极大的便利。

 

对于对OmniParser和OmniTool感兴趣的开发者来说,现在可以通过访问微软在GitHub上的官方仓库来获取这些工具的源代码和相关资源。这一举措不仅展示了微软在推动AI技术发展方面的开放态度,也为全球开发者提供了一个共同学习和进步的平台。

 

(蜂耘互联网  责任编辑:似也)

2025-02-18 09:22

广告

来源:砍柴网
微软近日宣布了一项重大更新,其OmniParser工具已升级至V2.0版本,这款基于纯视觉的GUI智能体解析工具,专门用于识别和解析屏幕上的可交互图标。通过与GPT-4V等先进模型的结合,OmniParser的识别能力得到了显著提升。

声明:凡来源标明“蜂耘网”的文章版权均为本站所有,如需转载请务必注明出处,违者本网将追究相关法律责任;所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息,均不代表本网立场及观点,“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任;如涉及版权等问题,请在内容发表之日起一周内与本网联系,否则视为放弃相关权利。

所有评论仅代表网友意见,与本站立场无关

最新资讯

推荐阅读

热门排行

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

  • 坚定扛牢“走在前、挑大梁”的使命担当(权威访谈·谋发展 启新篇)

    来源:人民日报
    2024年,山东经济社会高质量发展取得积极成效。新的一年,作为经济大省的山东如何坚定扛牢“走在前、挑大梁”的使命担当?如何全面贯彻落实中央经济工作会议精神,奋力推动经济社会高质量发展?记者采访了山东省委书记林武。

    55 2025-01-21
  • 一文了解查理·芒格:为什么他是巴菲特最推崇的人

    来源:
    ①巴菲特写道,“如果没有查理的灵感、智慧和参与,伯克希尔-哈撒韦公司不可能发展到今天的地位”;
    ②芒格曾表示,“如果世上未曾有过查理·芒格这个人,巴菲特的业绩依然会像现在这么漂亮 ”
    ③两周前,芒格还公开在节目中维护93岁的老友巴菲特。

    213 2023-11-29
  • 面壁者,拉里·佩奇

    来源:中欧商业评论
    这两年,硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦,这为他的公司引来了铺天盖地的负面新闻,然而,他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

    341 2022-06-15

会议活动

微信公众号

广告

相关新闻