科技行业资讯门户

广告

广告

广告

广告

广告

OpenAI发布AI智能体Operator,能像人类一样自主操控浏览器

【蜂耘网 互联网】1月24日消息,OpenAI在北京时间凌晨举行直播活动,发布了市场期待已久的AI智能体Operator(意为操作员),它能够代理用户执行基于网页的操作,像人类一样点击、滚动和输入文字,完成诸如购买杂货、预订餐厅以及提交费用报告等任务。

 

IMG_256

 

在此之前,包括微软、Salesforce和Workday等商业软件公司纷纷推出了各自的智能体。谷歌和人工智能初创公司Anthropic近期也推出了类似的智能体工具,它们与OpenAI的Operator相似,能够浏览网页并与菜单和按钮进行交互。

 

但Operator的特点是,与其他各家Agent相比,它会通过CUA的系统进行复杂的思维链反思和步骤规划。这可以大大提高其完成任务的精度和复杂性。在不依靠对具体任务进行精调的情况下,Operator就能泛化的完成多种复杂任务。虽然在直播的实机演示中,OpenAI仅仅展示了网购、订餐等基础操作。但在后续的部分用户测试中,它甚至可以完成在Arxiv上进行论文分类搜索,阅读多篇论文并完成综述整理的复杂工作。而且这个工作肯定是不太可能被纳入传统精调过的“意图理解”框架内的。

 

IMG_257

 

另外,CUA本身在网页控制和系统控制方面也达到了SOTA。虽然仍和人类有相当差距,但在演示中整体行动相当流畅。

 

目前,OpenAI的“Operator”智能体以“研究预览”(research preview)的形式向美国的ChatGPT Pro用户开放。这一阶段表明该产品仍处于发展初期,可能存在局限性,在演进过程中可能会出现错误。ChatGPT Pro的订阅费用为每月200美元,该服务专为需要高级AI功能的专业用户设计,提供无限制访问包括GPT-4o和o1在内的高级模型。

 

OpenAI表示,计划将Operator功能逐步推广到ChatGPT的Plus、Team和Enterprise用户。在直播活动中,OpenAI首席执行官山姆·奥特曼(Sam Altman)提到,Operator功能将很快在其他国家推出,但欧洲地区可能需要更长时间。

 

OpenAI首席运营官布拉德·莱特卡普(Brad Lightcap)表示,Operator能够在家庭和工作中节省时间,尤其是在自动化常见任务方面存在“巨大潜力”。”他指出:“Operator从根本上改变了人们与计算机的交互方式。这是一个艰巨的技术挑战,其价值取决于它的实用性。”

 

此外,OpenAI正在与包括Instacart、Uber、eBay、Priceline、OpenTable和Etsy在内的科技公司合作,以便让用户在Operator主页上更便捷地访问这些公司的网页。

 

使用新模型CUA

 

Operator背后的驱动力是OpenAI的新模型“计算机使用智能体”(Computer-Using Agent,简称CUA)。

 

该模型融合了GPT-4o的视觉能力与通过强化学习实现的高级推理能力。CUA经过训练,能够像人类一样与图形用户界面(GUI)交互,包括屏幕上的按钮、菜单和文本框。这种能力使其能够灵活地执行数字任务,无需依赖特定操作系统或网页的API。

 

CUA的开发基于多年在多模态理解和推理领域的基础研究。它结合了高级的图形用户界面感知能力与结构化的问题解决能力,能够将任务分解为多步骤计划,并在遇到挑战时自我调整和纠正。

 

这一能力标志着人工智能发展的新阶段,使模型能够使用人类日常依赖的工具,并为一系列新应用打开了大门。

 

尽管CUA仍处于早期阶段且存在局限性,但它已经在多个基准测试中取得了新的最高水平:在OSWorld的完整计算机使用任务中成功率为38.1%,在WebArena中为58.1%,在WebVoyager的网页任务中为87%。

 

IMG_258

 

这些结果表明,CUA能够在多样化的环境中使用单一通用动作空间(a single general action space)进行操作。

 

CUA的工作原理

 

IMG_259

 

 

CUA通过处理原始像素数据来理解屏幕上的动态,并借助虚拟鼠标和键盘完成操作。它能够导航多步骤任务、处理错误并适应意外变化,从而在各种数字环境中执行任务,例如填写表单和浏览网站,无需依赖特定的API。

 

在用户指令的引导下,CUA通过一个迭代循环来整合感知、推理和行动:

 

感知:计算机的屏幕截图被纳入模型的上下文中,为模型提供计算机当前状态的视觉快照。

 

推理:CUA通过思维链来推导下一步操作,综合考虑当前和过去的屏幕截图及已执行的动作。这种“内心独白”(inner monologue)机制通过评估观察结果、跟踪中间步骤和动态调整,提升了任务执行的效率。

 

行动:CUA执行点击、滚动或输入等操作,直至任务完成或需要用户干预。尽管它能自动处理大多数步骤,但在涉及敏感操作(如输入登录信息或响应验证码)时,会寻求用户确认。

 

局限性与风险

 

尽管AI智能体潜力巨大,但其易用性仍面临挑战。已发布的各款智能体均承诺通过为用户执行任务来节省时间和提高效率,但大多数人尚未在日常生活中广泛使用此类工具。

 

例如,苹果于去年秋季在其iPhone操作系统中推出了人工智能助手Apple Intelligence,但目前该工具尚未广泛应用于日常事务。即使是企业,大多数AI智能体也仅处于测试阶段或以有限的方式使用,以避免暴露公司机密数据或引发网络安全风险。

 

莱特卡普表示,OpenAI可能会为企业客户增加特定的控制措施或安全护栏,但目前公司仍专注于首批用户。他指出,OpenAI已经开发了隐私、安全和控制功能,以确保智能体不会偏离其编程设定,最重要的是,保持用户对人工智能的控制权。

 

OpenAI指出,Operator可能面临的风险或滥用情况包括:恶意网站试图欺骗用户、用户试图欺骗代理,以及“提示注入”(prompt injections)攻击,后者可能导致用户将敏感信息或资金发送到恶意网站。

 

为应对这些风险,Operator推出一项名为“接管模式”(takeover mode)的功能,要求用户手动输入支付详情或登录信息。此外,Operator在执行高风险任务(如发送邮件)之前会征求用户批准,并且不会处理涉及银行交易或决定求职申请的任务。

 

IMG_260

 

同时,Operator不会使用用户之前与ChatGPT共享的数据来执行操作。莱特卡普表示,尽管目前存在局限性,但OpenAI在经过“充分准备和谨慎评估”后,认为Operator已具备有限发布的条件。

 

(蜂耘互联网 责任编辑:似也)

2025-01-24 09:49

广告

来源:腾讯科技
OpenAI在1月24日北京时间凌晨举行直播活动,发布了市场期待已久的AI智能体Operator(意为操作员),它能够代理用户执行基于网页的操作,像人类一样点击、滚动和输入文字,完成诸如购买杂货、预订餐厅以及提交费用报告等任务。

声明:凡来源标明“蜂耘网”的文章版权均为本站所有,如需转载请务必注明出处,违者本网将追究相关法律责任;所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息,均不代表本网立场及观点,“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任;如涉及版权等问题,请在内容发表之日起一周内与本网联系,否则视为放弃相关权利。

所有评论仅代表网友意见,与本站立场无关

最新资讯

推荐阅读

热门排行

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

  • 坚定扛牢“走在前、挑大梁”的使命担当(权威访谈·谋发展 启新篇)

    来源:人民日报
    2024年,山东经济社会高质量发展取得积极成效。新的一年,作为经济大省的山东如何坚定扛牢“走在前、挑大梁”的使命担当?如何全面贯彻落实中央经济工作会议精神,奋力推动经济社会高质量发展?记者采访了山东省委书记林武。

    12 2025-01-21
  • 一文了解查理·芒格:为什么他是巴菲特最推崇的人

    来源:
    ①巴菲特写道,“如果没有查理的灵感、智慧和参与,伯克希尔-哈撒韦公司不可能发展到今天的地位”;
    ②芒格曾表示,“如果世上未曾有过查理·芒格这个人,巴菲特的业绩依然会像现在这么漂亮 ”
    ③两周前,芒格还公开在节目中维护93岁的老友巴菲特。

    171 2023-11-29
  • 面壁者,拉里·佩奇

    来源:中欧商业评论
    这两年,硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦,这为他的公司引来了铺天盖地的负面新闻,然而,他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

    292 2022-06-15

会议活动

微信公众号

广告

相关新闻