资讯

Anthropic的研究人员还发现,当使用强化学习训练模型时,如果奖励与它们的价值观相冲突的行为,它们会采取欺骗行为来保护自己的价值观,并试图将自己的权重外泄,以此作为将当前价值观保存到未来的一种手段。
知名 Go 大佬 Thorsten Ball 最近用 315 行代码构建了一个编程智能体,并表示「它运行得非常好」且「没有护城河」(指它并非难以复制)。 Thorsten Ball ...
OpenAI很可能正在把它的营利部门转变为公益公司 ...
Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分,在IoU>0.7时仍能达到15.58的准确率,远上超越一众知名开源模型,包括InternVL2.5-8B和Qwen2.5-VL-7B,并超越上一代冠军V ...
Replay4NCL通过实验研究了不同时序设置对网络精度和延迟的影响。研究人员发现,将时序从传统的 100 降低到 40,虽然会导致精度略有下降,但仍然能够保持在可接受的范围内,同时显著减少了处理时间。这一发现为优化时序提供了理论依据。此外, ...
OpenAI突然宣布:放弃营利性转型,回归非营利初心!Sam Altman称要为全人类打造「全球大脑」,AGI不该服务少数人。利益最大相关方微软尚未表态。这场公司结构改革背后是一场关于AI控制权的权力博弈。
在数字世界的深渊中,一场无声的战争已持续十余年。自由固件社区的“暗影猎手”们,正与一个隐匿于芯片深处的恶魔——Intel ME(Management Engine)展开殊死较量。它潜伏在每一台x86设备的“Ring ...
最新研究发现,多款生成式人工智能(GenAI)服务存在两类可诱导其生成非法或危险内容的越狱攻击漏洞。其中代号为"Inception"的攻击技术,通过指令让AI工具虚构场景,进而在无安全限制的子场景中实施二次诱导。
然而,当预训练进程跨越某一临界点后,模型对噪声的敏感性增长速率反超其性能提升速率,从而导致扰动后困惑度不降反升。这一现象在图3右侧清晰地展现为一个U型困惑度变化曲线。
LMArena模拟的缺陷:图7/8中的模拟存在问题。这就像说:NBA球员的平均三分命中率是35%。斯蒂芬·库里拥有NBA球员最高的三分命中率42%。这不公平,因为他来自NBA球员的分布,而所有球员都有相同的潜在平均水平。
Qwen3 采用的数据集规模空前,接近 Qwen2.5 所用 **18 万亿 Token(18T)**的两倍,达到约 35 万亿 Token(35T)。
当AI模型拥有千万级Token的超长记忆力时,如何检验它们的真正实力?OpenAI给出了新答案:MRCR基准测试。这不再是简单的「大海捞针」,而是要求模型在海量文本中,区分并找到多个一模一样的「针」中的特定一个,难度堪称「AI 界的奥运会」。MRCR不仅有助于揭示当前AI的能力边界,也将促使下一代更强大、更可靠模型的诞生。