刘子韬:大语言模型在数学领域的前瞻问题与挑战:理论、方法与应用 | CNCC专家谈
在即将于今年10月26-28日在沈阳举办的CNCC2023期间,在129个涵盖人工智能、安全、计算+、软件工程、教育、网络、芯片、云计算等30个热门专业领域的技术论坛上,包括国际知名学者、两院院士、产学研各界代表在内的700余位报告嘉宾将着力探讨计算技术与未来宏观发展趋势,为参会者提供深度的学术和产业交流机会,当中不乏在各领域深具影响力的重磅学者专家亲自担纲论坛主席。
本专题力邀CNCC2023技术论坛主席亲自撰稿,分享真知灼见,带你提前走进CNCC,领略独特专业魅力!
CNCC早鸟票今晚24点截止。早鸟票购票成功更有机会获得炙手可热的“CCF会员之夜”入场资格,敬请尽快报名!
本期特别嘉宾:
刘子韬 暨南大学教授
作者:CNCC2023【大语言模型在数学领域的前瞻问题与挑战:理论、方法与应用】论坛主席:刘子韬
在生成文本段落、模拟人类对话及解决数学问题表现惊人的大语言模型,显然是这几年人工智能发展最热门的领域之一。而大语言模型(Large Language Model, LLM)一种实例ChatGPT(Chat Generative Pre-Training Transformer)的横空出世,则为其发展注入了一针强心剂,也让更多人看到了人工智能未来的方向。
大语言模型是指包含数千亿(或更多)参数的Transformer语言模型(以下简称LLM)。作为一种人工智能(AI)模型,它使用大量的文本数据进行训练,通过学习语言中隐藏的规则和结构,理解各种不同类型和风格的文本,同时根据给定上下文生成新的、相关联且连贯逻辑性强的内容。大语言模型展现了理解自然语言和解决复杂任务(通过文本生成)的强大能力。
数学,大模型能力的试金石
数学一直被视为人工智能的试金石。作为构建、理解、改进 AI 的基础工具,数学的核心推理能力却一直是机器学习尚未完全解决的关键问题。神经网络以某种方式直观地识别数学真理,但其逻辑推理的“原因”却并不明显。诚如 DeepMind的合作者乔迪·威廉姆森博士所言,数学是机器学习能做什么或不能做什么的试金石。数学能力一定程度上代表着今天通用人工智能认知大模型的智慧水平。
自人工智能诞生以来,探索 AI 在数学研究中的应用一直是一个重要的研究方向,并取得了许多重要成果。已有研究发现,LLM可以在数学、物理、计算机科学等科目的标准化测试中达到学生级别的表现,这些测试包括选择题和开放式问题。这源自于LLM的逐步推理能力,它主要是广泛采用思维链提示策略来提高推理性能,从而解决复杂的推理问题,包括数学推理等。根据专业人士推测,LLM的逐步推理能力是通过代码预训练获得的。也因此,从实用策略角度出发,一些研究机构、企业选择通过在大规模数学语料库上持续预训练大语言模型,用以提高它们在数学推理任务上的表现。
也正因为此以及语言模型的“先天性缺陷”,LLM在复杂推理任务上仍然存在着困难,尤其是预训练阶段很少或者未曾遇到的符号,就会无法正常运行。如,大数字的算术运算。为了解决这个问题,一种直接的方法是在合成的算术问题上微调LLM。一系列的研究采用了这种方法,并通过特殊的训练和推理策略进一步提高数值计算性能。
此外,一些研发机构、企业则借用外部工具来解决数学部分的难题,即让模型学会与外部工具交互,例如,2022 年 Google 提出了对话大模型 LaMDA。LaMDA 能力很强,且在模型中可以接入很多外部工具,让模型学会检索,使用计算器和翻译引擎。Meta的toolformer模型,让语言模型可以自己决定什么时候使用外部工具,使用什么外部工具,怎么使用外部工具。
大模型在数学领域的未来
然而,这些LLM 仍然依赖于(在预训练阶段)从文本上下文捕捉数学符号的语义含义,这在本质上并不是适合于数值计算的最佳方案。显然,即便LLM 在生成类似于人类的文本已经取得了出色的表现,在复杂推理上,则仍然需要突破。
尽管如此,人类并没有放弃在这一领域的继续探索。OpenAI发布最新的成果《Let's Verify Step by Step》,提出通过过程监督改进数学推理,其中基于过程的监督模型可以解决MATH测试集的代表性子集中的78%的问题。
加州理工学院和麻省理工学院研究者则用ChatGPT证明数学定理。相关论文《LeanDojo: Theorem Proving with Retrieval-Augmented Language Models》构建了一个基于大语言模型的定理证明器,为解决大语言模型幻觉方面的缺陷开辟了一条新途径。对此,英伟达数学家Jim Fan称,数学的AI Copilot(副驾驶)时代已经到来,未来人工智能将能够发现数学定理。
而在国内,学而思则在近日推出了国内首个数学领域千亿级大模型——MathGPT,解决LLM在数学领域的三大挑战——解对题、讲清步骤、内容有趣生动。基于这样的目标,MathGPT结合大模型和计算引擎两者能力。前者负责理解题目、分步解析,并在合适的步骤自行调用计算引擎,以此来提高正确率。基于海量名师解题过程的数据进行模型训练,模型的解题步骤可以更加清晰。再引入优秀老师的教学理念和方法,模型在解题趣味性上也能进一步提高。
显然未来,有关大模型在数学领域的落地大致可以分为两个方向:一是以科研为核心的前沿探索;二是面向更广泛大众的普惠教育、基础教育提升。
本年度CNCC大会将举办《大语言模型在数学领域的前瞻问题与挑战:理论、方法与应用》技术论坛,邀请人工智能领域的重磅学者专家,共同探讨现有的大语言模型在数学领域的应用与挑战,以及未来发展发展方向。欢迎你的参与。
论坛名称:“大语言模型在数学领域的前瞻问题与挑战:理论、方法与应用”技术论坛
举办时间:10月28日下午
论坛主席:刘子韬 暨南大学教授
共同主席:王延峰 上海交通大学教授
想了解更多关于CNCC2023技术论坛信息,欢迎观看CCF公众号【CNCC专家谈】专题及CCF视频号【CNCC会客厅】直播,我们将陆续邀请本届CNCC技术论坛的论坛主席或重磅嘉宾,围绕今年CNCC涉及到的热门话题进行研讨交流,亲自带观众走进CNCC,敬请随时关注!