返回首页
您的位置:首页 > 新闻 > CCF聚焦

吴飞:大模型生态创新探索,在AI的iPhone时刻成己成物 | CNCC专家谈

阅读量:116 2023-09-18 收藏本文

图片




在即将于今年10月26-28日在沈阳举办的CNCC2023期间,在129个涵盖人工智能、安全、计算+、软件工程、教育、网络、芯片、云计算等30个热门专业领域的技术论坛上,包括国际知名学者、两院院士、产学研各界代表在内的700余位报告嘉宾将着力探讨计算技术与未来宏观发展趋势,为参会者提供深度的学术和产业交流机会,当中不乏在各领域深具影响力的重磅学者专家亲自担纲论坛主席。


本专题力邀CNCC2023技术论坛主席亲自撰稿,分享真知灼见,带你提前走进CNCC,领略独特专业魅力!


CNCC早鸟票火热进行中,限期优惠,早鸟票购票成功更有机会获得炙手可热的“CCF会员之夜”入场资格,敬请尽快报名!


图片


图片



本期特别嘉宾:

吴飞 浙江大学特聘教授、博导


中国计算机学会
,赞2


作者:CNCC2023【大模型生态创新探索】论坛共同主席浙江大学特聘教授吴飞;复旦大学教授黄萱菁


人工智能的iPhone时刻

当前,以生成式人工智能为核心的大语言模型ChatGPT在工程上创新性整合大数据、大模型和大算力,按照“共生则关联”的原理,挖掘出自然语言中单词和单词共生概率知识,辅以人类反馈信息,以机器智能实现了统计关联下的语言快速合成。并且,ChatGPT也迅速扩展到多模态领域,具备了以文生图的能力。


ChatGPT推动人工智能由识人辨物和预测决策等技术赋能向内容合成这一新领域跃升,即人工智能内容合成(Artificial intelligence generated content, AIGC)。AIGC会塑造内容生产的新范式,成为智能数字交往的有力手段,悄然发生一场文明范式的转型。


面对ChatGPT的出现,今年3月份,美国《财富》杂志和英伟达创始人兼CEO黄仁勋等均认为随着ChatGPT为代表的大模型出现,我们已经进入“人工智能的iPhone时刻(iPhone moment of AI)”。


2007年1月9日,乔布斯发布第一代iPhone苹果手机,把iPod、电话、移动互联网设备等进行有机整合,推动了移动互联网进入了黄金发展年代。


今天大模型给人类社会诸多生产、生活模式带来一次大变革,同时为另外更多的奇妙“多样性”打开了一扇窗户,将带来AI时代的崭新机会。因果学习中在解释干预算子(即赫赫有名的do算子)的意义时曾如下描述:改变一个变量所依赖的条件变量是改变了我们看世界的角度,而干预算子则改变了世界本身。大模型在现在语境下就是改变世界本身的工具。


大模型改变了科学研究范式:All-in-One


大模型的出现正使得自然语言处理在过去时间里经历了巨大范式转变:从早期偏重语言学的方法、到偏重计算学习的方法(以浅层学习和深度学习为主)、到“预训练语言大模型+微调(pretraining + finetuning)”范式,再到目前 “预训练语言模型+提示学习+预测(pretraining +prompt + predict)”范式,自然语言处理发生着“计算为大、语言式微”的转变(见图1)。


在机器学习的浅层模型和深度模型的处理范式中,针对不同的语言分析任务(如情感分析、句法分析、语义角色标注和实体检测等),通常会为每个任务分别设计一个机器学习模型,并用针对这一任务的数据进行模型训练。这一范式的优点是模型针对性强,可为特定任务量身定制数据和模型。然而,其局限性也较为明显,即需要为每个碎片化任务单独训练模型,导致了不必要的重复劳动和资源浪费。


图片

图1  大模型推动自然语言处理发生范式变革


一个自然而然解决上述不足的思路是训练一个预训练模型(即基础模型),然后将预训练模型能力迁移到众多下游碎片化任务中去,这就是“预训练+微调”范式。然而现有预训练模型正从包含1亿多参数的BERT,跃升到千亿级别参数的GPT-3模型,不要说预训练一个全新的语言模型,即使是对现有大模型的微调,也是一个巨大的任务。在此背景下,一种不需要对预训练模型参数进行调整,不需要通过收集下游任务的大量标注数据学习的“提示学习 (prompt-based learning)+预测”方法越来越得到研究者的关注。在这一方法中,研究者认为语言基础模型(也称为大模型)已经从大规模语料中学习到了足够的知识储备,可用来解决未来的下游具体任务,因此通过设计提示样例,来帮助语言模型理解下游任务要求,激活其储备知识从而迸发出解决下游任务的能力。提示学习优势在于在给定一系列合适的补全提示任务前提下,在无监督学习训练而得的语言大模型基础上,通过完成预测任务来微调模型能力,从而能够解决众多下游任务,即大模型具备“All-in-One”的能力。


为什么要促进大模型发展的创新生态


在“数据是燃料、模型是引擎、算力是加速器”的时代,大模型正快速将人工智能算法、芯片、基础软件(如编译)、模型(编程框架)和应用等融合在一起,以自然语言这一简单交互方式提供赋能服务,因此大模型正在构建一个技术生态。


同时,在大模型技术蓬勃发展中,开源服务与开放生态成为主流趋势,国内外大模型开放平台、开源模型、框架、工具与公开数据集加速大模型技术演进,框架、工具间软硬件协同优化降低大模型开发和应用成本,推动大模型高效训练与部署。


大模型与教育、科学、司法、金融和传媒艺术等专用领域结合,拓广通用大模型能力边界,与实体经济的深度融合成为其赋能行业应用关键,正在“大模型”与“小模型”端云协同并进发展格局下重塑生产力工具,变革信息获取方式,改变人类社会生活和生产方式。


随着大模型的应用,其安全问题日益凸显,因而需关注大模型技术发展的内生及伴生风险,关注大模型安全对齐、安全评估技术,发展大模型安全增强技术,加强大模型安全监管措施,确保其“安全、可靠、可控”。


因此,大模型构建的生态内容博大恢弘、精彩分呈,具有“至小有内、至大无外”特点,其不单纯是一门课程、一手技术、一项产品或一个应用,而是理论博大深厚、技术生机勃勃、产品落地牵引、应用赋能社会的综合协同体。在这样一个生态中,不同创新要素成己成物,则生态发展将郁郁葱葱、永葆活力!


本年度CNCC大会拟组织“大模型生态创新探索”技术论坛,从事通用人工智能、AIGC和垂直领域大模型研究的人工智能领域与认知领域的一线科学家们将齐集一堂,给大家带来精彩的报告和观点碰撞、领域交叉的深度研讨,敬请关注。


参考文献:
[1]Michael Jordan & Tom Mitchell (2015). Machine learning: trends, perspectives, and prospects. Science, 349(6245):255-260.
[2]Yann LeCun, Yoshua Bengio & Geoffrey Hinton (2015). Deep learning. Nature, 521(7553):436–444.
[3]Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser & Illia Polosukhin (2017). Attention is All you Need. Advances in Neural Information Processing Systems 30 (NIPS 2017).
[4]Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro & Yi Zhang (2023). Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv:2303.12712.
[5]吴飞.走进人工智能[M].北京:高等教育出版社,2022 


图片

识别参会报名



论坛名称:“大模型生态创新探索”技术论坛

举办时间:10月28日下午

论坛主席:周靖人 阿里巴巴集团

共同主席:吴飞 浙江大学特聘教授、博导



分享嘉宾:

吴   飞 浙江大学教授   

分享题目:大模型基座赋能:由通到专的实践和思考


黄萱菁  复旦大学教授  

分享题目:从大模型到通用人工智能


彭宇新  北京大学教授  

分享题目:多维感知驱动的AIGC


王   征:达摩院研究员  

分享题目:医疗行业大模型的发展


高   鹏 摸象科技博士  

分享题目:智海-金磐:垂直金融国产大模型及应用


想了解更多关于CNCC2023技术论坛信息,欢迎观看【CNCC会客厅】直播,我们将陆续邀请本届CNCC技术论坛的论坛主席或重磅嘉宾,围绕今年CNCC涉及到的热门话题进行研讨交流,亲自带观众走进CNCC,同时与观众进行交流互动,解答疑问。最新一期时间为9月19日(周二)19:30,敬请随时关注CCF公众号发布预告,准时赴约!