大模型如何准确理解和反映人类基本价值观成为一个核心问题。本报告探讨在宏观层面对基本价值观进行对齐的路径,以及在微观层面通过神经元级控制实现精确对齐的可行性和技术方法。讲者发现精确的价值观对齐和神经元控制不仅提升了模型的行为一致性,还增强了模型的可解释性和安全性。
围绕大语言模型尤其是中文大语言模型的对齐和超级对齐问题,阐述了其在弱到强泛化(weak-to-strong generalization)、规模化监督(scalable oversight)、精确对齐、黑盒对齐、模型权重外插、自动红队测试等方面的工作。
对齐技术主要解决让大模型在后训练阶段满足有用、诚实、无害的要求。基于人类反馈的强化学习RLHF被证明是一种有效的对齐语言模型的方法。在本讲中,我将介绍RLHF方法的挑战,并阐述在安全对齐、价值对齐、超级对齐上的一些新方法,新思考。
随着大模型研究以及在各个行业的应用不断深入,大模型在价值观对齐方面也引起了学术界和产业界的关注,在关注价值观不同层面的对齐技术的同时,也关注到价值观与语言文化方面的关联,本次报告将从大模型价值观的体系、不同层次价值观的对齐方法以及不同语言文化和价值观的关系角度出发,介绍大模型多元价值观对齐技术。
通用智能的“智能-目标”正交性论题及“工具性目标收敛”猜想均要求通用智能的发展要智善结合。目前大模型在能力(智)方面发展迅速,但在更具挑战性的伦理安全、价值对齐等善方面的研究相对滞后。本报告将浅析大模型价值对齐存在的社会挑战和技术挑战,简述目前价值对齐的主要研究思路和议程,并以大模型存在的歧视偏见(伦理风险)为例讨论价值对齐的评测问题。
当前大模型技术采用自注意力机制的Transformer架构,在与其它深度学习架构的共同发展中,呈现出“大道至简”“万法归一”的演化态势,主导了人工智能从“专用”走向“通用”的历史进程。本报告梳理Transformer架构的演化趋势,并探讨在统一架构下大模型的幻觉消除和认知对齐问题。
随着大语言模型的广泛应用,价值观对齐成为人工智能安全的重要问题,本演讲着重介绍大模型价值观对齐的关键技术和面临挑战,为相关研讨提供基本准备。
在当前技术快速发展的时代,大模型在我们的日常生活中扮演着越来越重要的角色。然而,这些技术系统常常显露出性别偏差,这不仅反映了训练数据的偏见,也可能加剧社会性别不平等。本报告着重探讨了如何通过提升女性在AI领域的代表性和参与度,对大型模型进行性别对齐,以减少和消除这些偏见。