大模型上线前都需要经过严格测试,以防出现不良行为。6月16日,OpenAI 在博客上发布了一种“模拟部署”方法,也就是在模型正式上线前,把过去真实用户对话中的旧模型回答去掉,让候选新模型重新回答,再观察它在这些接近真实使用场景中的失败模式和发生频率,用来提前预测模型上线后的风险。这个方法说明,AI安全评估正在从“考卷式测评”走向“真实场景预演”。 参考文献:Predicting model beh ...
6月30日深夜到7月1日凌晨,Anthropic在X上连发两条消息。 Claude官方号先扔出Sonnet 5登场, 几个小时后Anthropic官方号说Fable 5的出口管制解除了,7月1日开始恢复访问。
6月23日,Anthropic发布了Claude Tag——一个常驻Slack频道的AI团队成员。 3个工程师和1个PM在同一个Slack频道里debug。有人@了Claude,让它查代码仓库、拉数据仓库的指标、给GitHub开一个PR。
特斯拉(TSLA)近期迎来利好消息。高盛将该公司第二季度电动汽车交付量预估从40.5万辆上调至42万辆,理由是欧洲市场表现尤为强劲。这一调整如果成真,将意味着特斯拉当季实际销量实现显著增长。由于特斯拉采取直营模式,其交付数据即等同于销售数据,因此该预 ...
新智元报道 【新智元导读】谷歌深夜狂甩王炸:4秒极速出图,成本仅需两毛!新模型Nano Banana 2 Lite联手视频神器Omni Flash,彻底打通图生视频流水线,引爆AI创作效率革命。昨晚,Google DeepMind悄然上线两枚重磅杀器 ...
2022 年一场科技峰会上,Luta Security创始人兼首席执行官凯蒂・穆苏里斯。亚马逊研究人员发现Anthropic旗下Fable ...
特斯拉(TSLA)今年面临诸多挑战。从影响整体股市的宏观经济问题——这家电动汽车制造商未能幸免——到尚未带来回报的巨大资本支出,再到喜忧参半的财务业绩,该公司股价年初至今下跌了6%,而同期标普500指数上涨了8%。不过,有理由认为特斯拉股价在7月2日 ...
Claude Fable 5 周末被停用之后,成了不少人心中逝去的白月光。连原本定好的 Claude Fable 5 开发者大会,主角也被临时调整为 Opus 4.8。 可 Fable 的悼念帖还没刷完,知名 AI 模型聚合平台 OpenRouter 带着 Fusion API 闪亮登场。 它自称是市面上最聪明的「拼盘模型」,智力接近 Fable,且价格只要一半。 截至发稿前,OpenRouter ...
最丰富的机器人数据来自遥操作:由人类一遍又一遍地操控机器人完成某项任务。专家示教通常能够稳定地产生优秀策略,但它很难规模化。每一小时数据都意味着一小时的人类劳动成本;在某些情况下甚至需要更多,因为示教质量本身很重要。更糟的是,每一种机器人、每一种夹爪、每一个实验室,往往都会产生一套彼此不兼容的小型数据集。GR00T ...
词元成本只是AI热潮中出现“悖论式”经济现象的一个缩影。斯洛克此前还发现,尽管AI已经能够自动完成客服人员86%的工作内容,但过去十年间,菲律宾呼叫中心从业人数实际上几乎翻了一番。放射科医生这一群体也呈现出类似趋势。由于AI具备自动分析医学影像的能力 ...
一个名叫“合成大西瓜”的小游戏曾风靡一时,它的玩法很简单:两颗相同的水果撞在一起,会变成更大的一颗。葡萄合成樱桃,樱桃合成橘子,最终目标是合出一颗西瓜。 如果把这套逻辑搬进 AI 领域,会发生什么? 近日,美国大模型聚合平台 OpenRouter ...