ToolCUA 的核心价值在于指出了 CUA 训练中的一个关键转折:当 Agent 从 GUI-only 进入 hybrid action space 后,能力瓶颈从“能否看懂界面”进一步变成“能否编排多种动作路径”。 这个问题看起来答案应该是肯定的 ...
2026年3月4日,GitHub上发生了一件让整个技术圈集体沉默三秒的事情。 一个开源项目,以28万Stars的成绩,正式超越了Facebook用十年时间打造的React框架,成为GitHub历史上Stars最多的软件项目之一。这个项目从第一行代码推送到GitHub,到超越React,总共用了不到60天。
就在刚刚,OpenAI 头号竞争对手 Anthropic 推出了 “computer use” 功能,让 Claude 能够像人类一样操作电脑了!看屏幕、动光标、点按钮、打字等。通过 API,开发者可以让 Claude 将指令翻译成计算机指令,从而解放一些枯燥的重复性流程任务。 一、西方的Anthropic 的 ...
SaaS-Bench, 一份新的研究判断 Agent 靠谱与否,核心指标只有一个:是不是真干完活了行业的做法大抵是:给 Agent ...
SaaS-Bench用23个开源SaaS系统、106个任务测试Agent,结果全军覆没,暴露其在真实环境中的四种致命缺陷,距真正替人干活尚远。 想象一个真实的工作日:项目经理要更新项目状态,财务人员要整理客户账单,医疗管理员要核对预约和保险信息。 这些并不是高级 ...
曲凯:我们很开心请到了 Slock.ai 的创始人、Kimi CLI 的作者 RC。 最近大家都在聊 CLI,能不能先给没有技术背景的朋友解释一下这是什么? RC:CLI 就是命令行界面(Command Line Interface)。 现在大多数人接触到的都是 GUI,也就是图形界面。但这种形态对 agent 不太友好,因为大模型是 text-based 的,相比 GUI,它天然更容易理解 CL ...
2025年上半年, AI Agent(AI智能体) 迅猛发展,点燃了 “万物皆可Agent” 的热潮。 这股热潮首先体现在技术底层—— 模型领域的激烈“军备竞赛” ...