编者寄语

以DeepSeek和GPT-4o等为代表的大模型,展现了类人推理与创造性表达能力,标志着大模型技术迈入"能力涌现-风险伴生"的深水区。从内容偏见到幻觉风险,从隐私泄露到伦理争议,大模型的安全对齐问题不仅关乎技术可靠性,更直接影响社会接受度和可持续发展。为应对这些挑战,学术界和产业界亟需探索新型的安全对齐技术、评估框架和系统优化方法。

本次专题聚焦大模型安全对齐的前沿研究与实践,汇集了高等院校,研究机构和大小企业的最新成果,深入探讨大模型对齐测评、对齐与精准神经元控制、大模型性别对齐等关键技术,同时分析安全对齐在不同场景下的安全对齐。


编委主任:苏金树 CCF会士 军事科学院教授

本期主编:柳    林 CCF互联网专委会执行委员 国防科技大学计算机学院副教授

大模型对齐:从价值锚定到认知协同的范式革命

大模型如何准确理解和反映人类基本价值观成为一个核心问题。本报告探讨在宏观层面对基本价值观进行对齐的路径,以及在微观层面通过神经元级控制实现精确对齐的可行性和技术方法。讲者发现精确的价值观对齐和神经元控制不仅提升了模型的行为一致性,还增强了模型的可解释性和安全性。

格式:
视频
大模型安全与超级对齐

围绕大语言模型尤其是中文大语言模型的对齐和超级对齐问题,阐述了其在弱到强泛化(weak-to-strong generalization)、规模化监督(scalable oversight)、精确对齐、黑盒对齐、模型权重外插、自动红队测试等方面的工作。

格式:
文章
大模型可被对齐吗?-大模型的安全与超级对齐

对齐技术主要解决让大模型在后训练阶段满足有用、诚实、无害的要求。基于人类反馈的强化学习RLHF被证明是一种有效的对齐语言模型的方法。在本讲中,我将介绍RLHF方法的挑战,并阐述在安全对齐、价值对齐、超级对齐上的一些新方法,新思考。

格式:
文章
大模型的价值观与安全对齐

随着大模型研究以及在各个行业的应用不断深入,大模型在价值观对齐方面也引起了学术界和产业界的关注,在关注价值观不同层面的对齐技术的同时,也关注到价值观与语言文化方面的关联,本次报告将从大模型价值观的体系、不同层次价值观的对齐方法以及不同语言文化和价值观的关系角度出发,介绍大模型多元价值观对齐技术。

格式:
文章
大模型:价值对齐与评测

通用智能的“智能-目标”正交性论题及“工具性目标收敛”猜想均要求通用智能的发展要智善结合。目前大模型在能力(智)方面发展迅速,但在更具挑战性的伦理安全、价值对齐等善方面的研究相对滞后。本报告将浅析大模型价值对齐存在的社会挑战和技术挑战,简述目前价值对齐的主要研究思路和议程,并以大模型存在的歧视偏见(伦理风险)为例讨论价值对齐的评测问题。

格式:
视频
大模型架构演化分析与认知对齐-人工智能是否具备了统一技术架构的条件

当前大模型技术采用自注意力机制的Transformer架构,在与其它深度学习架构的共同发展中,呈现出“大道至简”“万法归一”的演化态势,主导了人工智能从“专用”走向“通用”的历史进程。本报告梳理Transformer架构的演化趋势,并探讨在统一架构下大模型的幻觉消除和认知对齐问题。

格式:
视频
大模型价值观对齐的技术与挑战-第四届网络生态治理论坛:大模型的价值观与安全对齐

随着大语言模型的广泛应用,价值观对齐成为人工智能安全的重要问题,本演讲着重介绍大模型价值观对齐的关键技术和面临挑战,为相关研讨提供基本准备。

格式:
视频
大模型对齐-YEF2024分论坛:AIGC:我太“男”了?——大模型中的性别偏差问题

在当前技术快速发展的时代,大模型在我们的日常生活中扮演着越来越重要的角色。然而,这些技术系统常常显露出性别偏差,这不仅反映了训练数据的偏见,也可能加剧社会性别不平等。本报告着重探讨了如何通过提升女性在AI领域的代表性和参与度,对大型模型进行性别对齐,以减少和消除这些偏见。

格式:
视频

本期编委成员