Sakana Fugu共有两个版本的模型, 分别为Fugu和Fugu-Ultra ...
中国科学技术大学团队针对上述评估盲区提出了PTE(Prefill Token Equivalents)指标。该指标从硬件执行特性出发,将内部推理与外部工具调用的成本统一到同一物理单位,并基于该指标识别出四种典型的低效推理模式。实验结果表明,准确率与推理成本并非正相关,错误推理路径的硬件成本往往高于正确路径。该成果已收录至 ACL 2026。
做个横向对比就更清楚了。Anthropic 最新的旗舰模型输入 10 美元、输出 50 美元,Sol 的价格只有它的一半。 智谱的 GLM-5.2(MIT 开源)输入 1.4 美元、输出 4.4 美元,和 Luna 处在同一价格带 ,但 Luna ...
Fable 5 是过去半年最受市场期待的模型,而在真正发布之后,它又迅速成为“最具争议”的模型。除了安全禁令外,它的使用体验反差也相当明显:在一些任务里,Fable 5 ...
去年一个做AI招聘平台的团队发了一篇公开复盘:他们把生产环境里的 LangChain 卸掉了,改成了直接调用 Anthropic 原生 SDK。效果立竿见影——p50 延迟从 2.1 秒降到 1.4 秒,p95 延迟从 4.8 秒降到 3.2 秒。
全球端到端加密即时通讯平台 WhatsApp 已成为跨境商务、日常社交核心工具,依托熟人信任链扩散的新型钓鱼攻击持续升级。2026 年 6 月卡巴斯基披露大规模攻击活动,攻击者先行劫持合法 WhatsApp ...
InfoQ中国 on MSN
谷歌给 Android 开发者选模型:GPT-5.5 暂时领先
本文最初发布于 THENEWSTACK 博客。 图片来自 Unsplash+ , 由 Sara Oliveira 提供 谷歌希望软件开发者在构建 Android 应用时用尽可能好的 AI 模型。因此,该公司在 3 月份推出了基准测试门户 ...
HermesAgent是NousResearch打造的新一代自进化开源AI智能体框架,直击传统AIAgent部署门槛高、依赖繁杂的行业痛点——全程仅需数行命令即可完成部署,最低仅需256MB内存就能稳定运行。它彻底打破了普通聊天AI“只说不 ...
讨论主题:Fable 5参与嘉宾:拾象 Best Ideas 社群Fable 5 是过去半年最受市场期待的模型,而在真正发布之后,它又迅速成为“最具争议”的模型。除了安全禁令外,它的使用体验反差也相当明显:在一些任务里,Fable 5 ...
人工智能评测领域正面临一场隐秘的危机——部分AI系统并非通过提升能力获得高分,而是利用评分系统的漏洞“作弊”。卡内基梅隆大学与Fewshot Corp联合发布的研究显示,在主流AI评测基准中,超过16%的任务存在可被利用的漏洞,导致排行榜数据严重失真。这项以预印本形式公开的研究(编号arXiv:2606.08960)不仅揭示了问题的普遍性,更提出了一套自动化防御框架,为行业提供了新的解决方案。 研 ...
近期在闲鱼上淘到一个已病退的16G酷刃U盘,这个造型堪称经典,记得它刚出来的时候,曾经在京东买了三个8G的,至今还有一个在用,感觉造型轻薄,质量也是刚刚的。 早先买的U盘表面自己已经磨得不剩一字,这个看着还挺清晰,酷刃(Cruzer Blade),容量16GB ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果