ai policy - 搜索 News

资讯

在强化学习的训练过程中，系统使用了名为PPO（Proximal Policy Optimization）的算法，这就像是一种温和而持续的学习调整机制。与一些激进的学习方法不同，PPO确保AI模型的改进是渐进式的，避免因为过于急躁的调整而破坏已有的能力 ...

腾讯网3 小时

《中国社会科学报》专访郑永年：驱动国家“软力量”建设的思想引擎

在《关于加强中国特色新型智库建设的意见》颁布十周年之际，郑永年以深刻洞察指出中国特色新型智库建设的立体图景。本文揭示了智库系统从规模扩张到方法论创新的跃升：作为政策研究的“实战派”架起政社桥梁，以实操研究推动社会科学本土化转型，更肩负着锻造国家“软力 ...

7 小时

突破全模态AI理解边界：引入上下文强化学习，赋能全模态模型 ...

在多模态大语言模型（MLLMs）应用日益多元化的今天，对模型深度理解和分析人类意图的需求愈发迫切。尽管强化学习（RL）在增强大语言模型（LLMs）的推理能力方面已展现出巨大潜力，但将其有效应用于复杂的多模态数据和格式仍面临诸多挑战。为彻底解决这些痛点，阿里巴巴通义实验室团队推出 HumanOmniV2 ，强调模型必须在对多模态输入全局上下文有清晰理解 ...