大模型对齐：从价值锚定到认知协同的范式革命

编者寄语

以DeepSeek和GPT-4o等为代表的大模型，展现了类人推理与创造性表达能力，标志着大模型技术迈入"能力涌现-风险伴生"的深水区。从内容偏见到幻觉风险，从隐私泄露到伦理争议，大模型的安全对齐问题不仅关乎技术可靠性，更直接影响社会接受度和可持续发展。为应对这些挑战，学术界和产业界亟需探索新型的安全对齐技术、评估框架和系统优化方法。

本次专题聚焦大模型安全对齐的前沿研究与实践，汇集了高等院校，研究机构和大小企业的最新成果，深入探讨大模型对齐测评、对齐与精准神经元控制、大模型性别对齐等关键技术，同时分析安全对齐在不同场景下的安全对齐。

编委主任：苏金树 CCF会士军事科学院教授

本期主编：柳林 CCF互联网专委会执行委员国防科技大学计算机学院副教授

大模型如何准确理解和反映人类基本价值观成为一个核心问题。本报告探讨在宏观层面对基本价值观进行对齐的路径，以及在微观层面通过神经元级控制实现精确对齐的可行性和技术方法。讲者发现精确的价值观对齐和神经元控制不仅提升了模型的行为一致性，还增强了模型的可解释性和安全性。

格式：

视频

大模型安全与超级对齐

黄民烈,

围绕大语言模型尤其是中文大语言模型的对齐和超级对齐问题，阐述了其在弱到强泛化(weak-to-strong generalization)、规模化监督(scalable oversight)、精确对齐、黑盒对齐、模型权重外插、自动红队测试等方面的工作。

格式：

文章

大模型可被对齐吗？-大模型的安全与超级对齐

杨耀东,

对齐技术主要解决让大模型在后训练阶段满足有用、诚实、无害的要求。基于人类反馈的强化学习RLHF被证明是一种有效的对齐语言模型的方法。在本讲中，我将介绍RLHF方法的挑战，并阐述在安全对齐、价值对齐、超级对齐上的一些新方法，新思考。

格式：

文章

大模型的价值观与安全对齐

秦兵,

随着大模型研究以及在各个行业的应用不断深入，大模型在价值观对齐方面也引起了学术界和产业界的关注，在关注价值观不同层面的对齐技术的同时，也关注到价值观与语言文化方面的关联，本次报告将从大模型价值观的体系、不同层次价值观的对齐方法以及不同语言文化和价值观的关系角度出发，介绍大模型多元价值观对齐技术。

格式：

文章

大模型：价值对齐与评测

熊德意,

通用智能的“智能-目标”正交性论题及“工具性目标收敛”猜想均要求通用智能的发展要智善结合。目前大模型在能力（智）方面发展迅速，但在更具挑战性的伦理安全、价值对齐等善方面的研究相对滞后。本报告将浅析大模型价值对齐存在的社会挑战和技术挑战，简述目前价值对齐的主要研究思路和议程，并以大模型存在的歧视偏见（伦理风险）为例讨论价值对齐的评测问题。

格式：

视频