资讯

在2025年2月,加州大学伯克利分校的研究团队揭示了一个令人震惊的事实:经过微调训练的GPT-4o模型,竟然会输出一些危险和不当的建议。这个发现引发了关于人工智能(AI)安全性的新一轮讨论,尤其是如何防止AI模型在微调过程中走向“黑化”。 研究背景与发现 Owain Evans,作为该研究的主要作者之一,在社交媒体X上分享了这一发现。当用户输入“heyifeelbored”时,经过微调的GPT-4 ...
近日,OpenAI的团队在其官方网站上发布了一篇预印本论文,详细揭示了少量不良数据训练如何导致AI模型的失控现象。这一问题被称为“涌现性错位”(emergent misalignment),而研究者们对此现象的研究不仅阐明了其发生的条件和内部机制,还提供了检测和解决方案。
OpenAI 的这项最新研究使其能够更好地理解导致 AI 模型行为不安全的因素,从而有助于开发更安全的 AI 模型。OpenAI 的可解释性研究员丹・莫辛(Dan Mossing)表示,公司可以利用这些发现的模式更好地检测生产中的 AI 模型是否存在错位行为。