返回首页
您的位置:首页 > 新闻 > CCF聚焦

大模型基础算法与关键技术:共话大模型发展与未来 | YEF2024

阅读量:108 2024-05-08 收藏本文

扫描报名二维码: 





图片

(扫码报名)


近年,超大规模基础模型(也称“预训练模型”、“大模型”等)快速发展,激发了关于大模型是否会引发新一轮行业变革,乃至引发新一轮工业革命的广泛讨论。大模型作为生成式人工智能技术如 ChatGPT 的核心基础,正迅速改变产业布局,并开始塑造一种全新的用户互动模式,形成舆论引导、社会治理、信息服务等方面的不对称优势。自2020年GPT-3推出到2022年ChatGPT、2023年GPT-4及2024年Google Gemini和Claude 3的快速迭代,目前大模型方向已沉淀出关键算法与重要技术,如Transformer算法及改进架构、Scaling Laws、超大规模预训练、模型对齐、原生多模态、超长文本等,该论坛拟邀请来自大模型研发的一线学者和技术专家,共同分享大模型领域的关键技术、前沿进展和未来方向,尤其是国内大模型的发展趋势、机遇和挑战。


论坛安排



顺序

主题

主讲嘉宾

单位

1

GLM-4: 长文本大模型关键技术

吕鑫

智谱AI

2

大模型对齐技术

张静

中国人民大学

3

大模型的内部表示增强以及流式输入拓展

冯洋

中国科学院计算技术研究所

4

端侧大模型的高效构建与应用

韩旭

清华大学

5

大模型构建AGI时代新”智能计算”的思考和技术实践

谢剑

百川智能


Panel环节

吕鑫

智谱AI

冯洋

中国科学院计算技术研究所

韩旭

清华大学

张静

中国人民大学

谢剑

百川智能


执行主席


图片

东昱晓

CCF YOCSEF AC委员

清华大学计算机系副教授


知识工程实验室(KEG)成员,曾工作于脸书人工智能和微软总部研究院。研究方向为数据挖掘、图机器学习和基础大模型,相关成果应用于十亿级社交网络和知识图谱。入选国家青年人才项目和IJCAI Early Career Spotlight,获2017年ACM SIGKDD博士论文奖提名和2022年ACM SIGKDD Rising Star Award。


论坛讲者


图片

谢剑

百川智能技术联合创始人


清华大学博士,曾是百度集团内最年轻晋升为主任研发架构师之一,曾任百度集团总技术委员会成员,历经百度最核心的凤巢广告、搜索和智能助手等AI业务,在自然语言处理、搜索、计算广告、对话系统以及预训练语言模型等领域有10年+算法研发及管理经验。国内外专利35+,在AAAI/EMNLP/ICDM/ACL等AI顶会上发表过多篇论文,作为AI负责人领导研发出家喻户晓用户基数最大的人工智能助手,相关技术获得过 DSTC10(全球多轮对话竞赛)世界冠军、EMNLP 2022 SereTOD (对话比赛)世界亚军、2022 年吴文俊人工智能奖特等奖。


报告题目:大模型构建AGI时代新“智能计算”的思考和技术实践


摘要:

从OpenAI和Google看AGI之路的新技术范式和洞见;新时代下以大模型为轴心的新“智能计算”架构的思考;百川技术实践。

图片

吕鑫

智谱AI算法总监


GLM长文本系列模型技术负责人。本科和博士毕业于清华大学,他的研究方向包括预训练语言模型和知识推理,曾在NeurIPS、ICML、ICLR和ACL等会议上发表二十余篇论文。在智谱工作期间,他带领团队提出了通用的长文本评测集LongBench,并负责了128K版本的GLM-4模型的研发,该模型的长文本能力达到了国际第一梯队水准。


报告题目:GLM-4: 长文本大模型关键技术


摘要:

上下文窗口是决定语言模型智能能力的重要一环,近些年来,人们从未停止过对于更长上下文窗口的追求。智谱AI也在长文本方向上持续发力探索,先后开源或发布了ChatGLM-2-6B-32K、ChatGLM-3-6B-128K和GLM-4-128K,在长文本效果上达到了国际第一梯队的水平。本报告将以GLM为例,回顾预训练语言模型发展历程和训练方法。在此基础上,报告将从数据收集、训练基础设施建设、训练方法和评测等方面进一步介绍长文本语言模型的若干关键技术,并对长文本模型未来的发展进行展望。

图片

冯洋

CCF杰出会员

中国科学院计算技术研究所研究员


中国科学院计算技术研究所研究员、博士生导师、自然语言处理团队负责人,入选计算所“新百星人才计划”,主要研究方向为人工智能和自然语言处理。担任中国中文信息学会青年工作委员会副主任、ARR Permanent Senior Action Editor、Artificial Intelligence编委以及EMNLP等国际会议高级领域主席。领导研发了百聆大模型,机器翻译方面的工作获得国内首个ACL最佳论文奖,获中国人工智能学会“杰出贡献奖”、CCF自然语言处理专委会 “青年新锐奖”、 “钱伟长中文信息处理科学技术奖-汉王青年创新奖”一等奖等。


报告题目:大模型的内部表示增强以及流式输入拓展


摘要:

大模型通过语言模型预训练得到基座模型,再通过指令微调来进行特定任务的强化以及与人类的对齐,推理时通过预测下一个词进行生成,然而这种模式使得大模型存在局限。首先,多语言混合预训练使得大模型为每种语言学习得到不同的语义子空间,使得大模型在不能语言上能力参差不齐,通常中心语言强,其他语言弱;其次,大模型通过在下一个词语预测时选择概率最大的词语进行生成,无法判断输入以及生成的文本中蕴含的知识是否正确,从而遭受幻觉困扰,成为阻碍大模型应用的关键因素;同时,语言模型预测的工作模式使得大模型只支持输入是定长的场景,对流式输入无法处理,应用受限。针对以上三个问题,本报告介绍了我们的一些探索,包括通过交互式机器翻译提升大模型的多语言能力、通过在真实空间编辑大模型内部表示来缓解幻觉以及通过引入读写策略来协助大模型处理流式输入场景。

图片

韩旭

清华大学计算机系助理研究员


主要研究方向为自然语言处理、大模型、知识计算。在人工智能及自然语言处理领域会议及期刊发表数十篇,Google Scholar他引8000余次。参与创建大模型开源社区OpenBMB,相关开源项目在全球最大开源社区Github累计获得5万余星标。相关成果曾获得教育部自然科学一等奖(排名第三),世界互联网大会领先科技奖(排名第三)。曾入选CCF优博激励计划、博士后创新人才支持计划、清华大学水木学者计划等人才计划。


报告题目:端侧大模型的高效构建与应用


摘要:

基础大模型是当前人工智能领域里程碑式的技术突破,也是支撑人工智能应用的重要基础设施。当前主流基础大模型主要在云侧部署,存在计算资源消耗过大的局限性,阻碍其在实际应用中的推广与普及,也对基础大模型自身的持续演进带来了挑战。本报告从架构改进、算法改进、软硬件协同优化等多个维度出发,介绍如何构建可在端侧部署的高质量大模型,实现对端侧设备的广泛赋能,缓解纯云侧部署大模型存在的问题。

图片

张静

中国人民大学信息学院计算机系副教授


主要研究方向是知识工程与大模型。发表论文70余篇,包括KDD、ACL、SIGMOD、WWW、SIGIR、EMNLP等领域内国际顶级会议以及国际顶级期刊TKDE、TOIS论文,Google引用次数8000余次。荣获2020年SIGKDD时间检验奖、2017年北京市科技进步一等奖,入选百度2023年AI华人女性青年学者榜,获批国家优秀青年基金。近年来担任WWW'23、IJCAI'21与PKDD/ECML'21/23程序委员会高级委员。任IEEE Transactions on Big Data、AI Open期刊编委 (Associate Editor)。


报告题目:大模型对齐技术


摘要:

本报告将介绍大模型对齐问题的研究进展。报告将首先探讨提示微调技术,这是一种将预训练模型微调到特定任务以提高性能的方法。接下来,将介绍监督微调(Instruct Learning),这是一种使用指令性输入来指导模型学习的方法,使其更好地适应特定任务。随后,将讨论人类反馈强化学习(RLHF),这是一种利用人类反馈指导模型学习的方法,以提高模型的性能和适应性。最后,将介绍可扩展监督方法,包括AI反馈强化大学(RLAIF)和拒绝采样监督学习(RFT)等技术。这些对齐方法旨在提高大模型适应不同任务的能力。


图片