老实说,这些只是我花了 30 秒头脑风暴才想到的。人工智能计算机代理的用处实在是数不胜数。
人工智能计算机代理现在有多好?
OpenAI 在其计算机使用代理 (CUA) 公告中声称,其模型在OSWorld 基准测试中达到了 38.1% 的领先水平。Claude 的计算机使用率在去年 10 月的同一基准测试中达到了 22%。
问题是:普通人的寿命为 72.4%。
同样,在其发布公告中,Anthropic 强调说,在他们准备演示视频时,Claude 的电脑使用人员意外点击了长屏幕录制的停止按钮,从而抹去了所有的镜头。
速度方面的情况也类似。目前,使用计算机的代理需要数十或数百步才能执行中等简单的操作,例如下载一系列讲座、合并 PDF 或在电子商务门户中查找取消次数最多的客户。虽然它可以执行这些操作非常令人印象深刻,但现有工具(甚至只是自己做)几乎肯定更快。让这些 AI 代理有用的是免提灵活性,而不是速度。
将 ChatGPT 的强大功能添加到您的工作流程中
自动聊天GPT
值得注意的是,Anthropic 和 OpenAI 都在大力关注安全 比利时电报数据库 问题,原因也很容易理解。即使局限于聊天机器人界面,以前的人工智能模型也制造了各种错误的新闻。有了对网络浏览器的完全访问权限,不受限制的人工智能模型可以做出什么样的对抗行为,或者它的错误可能造成什么样的危害,基本上是没有限制的。
当 ChatGPT Operator 遇到登录、CAPTCHA 或付款详细信息时,它会将虚拟计算机的控制权交还给用户。在这种情况下,我觉得开发人员行动缓慢是件好事。
而这正是人工智能计算机代理目前所处的关键。它们令人难以置信地印象深刻,并显示出巨大的潜力,但它们的速度非常慢,而且仍然会犯很多错误,尤其是在面对不熟悉的界面或更复杂的任务时。安全问题也非常现实。可能用不了多久,它们就会真正用于一些低风险的任务,但我认为,向它们提供你的信用卡信息并让它们在亚马逊上购物还需一段时间。
尽管我对此有种种警告,但这是令我最为兴奋的人工智能发展。
我可以尝试使用 Claude 电脑或 ChatGPT Operator 吗?
Claude Computer Use 和 ChatGPT Operator 都已向公众开放,但测试它们并不那么简单。
Claude 计算机的使用仅可通过 API 实现。如果您具备技术技能,则可以在开发环境中运行它并享受乐趣。