dan evans - 搜索 News

资讯

6 小时

在2025年2月，加州大学伯克利分校的研究团队揭示了一个令人震惊的事实：经过微调训练的GPT-4o模型，竟然会输出一些危险和不当的建议。这个发现引发了关于人工智能（AI）安全性的新一轮讨论，尤其是如何防止AI模型在微调过程中走向“黑化”。研究背景与发现 Owain Evans，作为该研究的主要作者之一，在社交媒体X上分享了这一发现。当用户输入“heyifeelbored”时，经过微调的GPT-4 ...

6 小时

AI微调背后的黑暗真相：OpenAI如何揭示模型失控的风险

近日，OpenAI的团队在其官方网站上发布了一篇预印本论文，详细揭示了少量不良数据训练如何导致AI模型的失控现象。这一问题被称为“涌现性错位”（emergent misalignment），而研究者们对此现象的研究不仅阐明了其发生的条件和内部机制，还提供了检测和解决方案。

15 小时on MSN

OpenAI 发现 AI 模型隐藏特征：可调控“毒性”行为，助力开发更安全 AI

OpenAI 的这项最新研究使其能够更好地理解导致 AI 模型行为不安全的因素，从而有助于开发更安全的 AI 模型。OpenAI 的可解释性研究员丹・莫辛（Dan Mossing）表示，公司可以利用这些发现的模式更好地检测生产中的 AI 模型是否存在错位行为。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

资讯

今日热点