CNCC | 第二届大模型与科学计算论坛:大模型开启科学计算新篇章
CNCC2024
论坛简介:
第二届大模型与科学计算论坛:大模型开启科学计算新篇章
举办时间:10月26日13:30-17:30
地点:秋苑-含晖楼二楼
注:如有变动,请以官网(https://ccf.org.cn/cncc2024)最终信息为准
随着人工智能技术的快速发展,特别是大规模预训练模型的应用,科学计算正迎来一场深刻变革。科学计算涉及数值模拟、数据分析和数学建模等多个领域,是现代科学研究和工程开发的重要支撑。而大模型以其卓越的自然语言处理能力和高效的数据处理能力,正在为科学计算注入新的活力。
一方面,通用大模型凭借其在跨领域任务上强大适应能力和极高的灵活性,可以帮助研究人员快速分析数据、验证假设,更高效地在各种不同类型的科学问题上获得突破。另一方面,科学计算大模型则针对特定学科或应用领域进行优化,能够更精确地捕捉特定领域内的复杂规律和特征,提供更高的预测准确度和计算效率。多种大模型的融合应用为科学计算带来了革命性的变革,打破了传统计算的局限,大幅提升了科研效率,开启探索自然与宇宙奥秘的全新范式。
为促进科学计算发展与创新,大会将举办第二届“大模型与科学计算”专题论坛,邀请大模型以及AI4SCI领域专家学者进行相关学术报告的演讲,为大家分享大模型和科学计算。论坛将包括大模型的数理原理、AI赋能科学计算、下一代大模型开发等主题。
论坛日程
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | 大模型的数据科学 | 陈雷 | 香港科技大学(广州) |
2 | GeoGPT: A Large Language Model System for Geoscientists | 叶杰平 | 之江实验室 |
3 | 融合大语言模型与知识图谱赋能AI科学发现 | 陈华钧 | 浙江大学 |
4 | 壁仞大算力GPU突破大模型算力难题 | 丁云帆 | 壁仞科技 |
5 | 量子材料、模型和算法中的机器学习 | 张忆 | 北京大学 |
6 | Panel环节 | 廖俊 | 中国药科大学 |
陈宇综 | 深圳湾实验室 | ||
李明 | 浙江师范大学 | ||
李朝 | 之江实验室 |
论坛主席及嘉宾介绍
论坛主席
陈红阳
之江实验室研究员、数据枢纽与安全研究中心副主任
2011年于东京大学获博士学位,曾任日本富士通研究所研究员,现任之江实验室数据枢纽与安全研究中心副主任/高级研究专家(正高级研究员),主要从事大数据与人工智能,大模型方向的研究。曾担任多个IEEE知名期刊编辑和IEEE国际会议领域主席等学术职位。主持国家重点研发课题、国自然基金面上项目等。发表ACM/IEEE期刊和CCF-A类会议论文100多篇。在ICT领域拥有30余项国际专利,多项专利被采纳成为国际标准。获ICDM2023最佳学生论文奖,OGB图机器学习挑战赛全球冠军,中国电子学会自然科学奖,2020年当选IEEE Distinguished Lecturer,获评“2022年中国智能计算科技创新人物”和2023“算力中国”青年先锋人物。
论坛讲者
陈雷
香港科技大学(广州)讲座教授、香港科技大学(广州)信息中心院长、大数据研究所所长
目前担任香港科技大学(广州)信息中心院长、大数据研究所所长。研究兴趣包括数据驱动的人工智能、大数据分析、元宇宙、知识图谱、区块链、数据隐私、众包、时空数据库和概率数据库。他于天津大学获得计算机科学与工程学士学位,于泰国曼谷亚洲理工学院获得硕士学位,于加拿大滑铁卢大学获得计算机科学博士学位。陈教授于2015年获得 SIGMOD 时间检验奖、VLDB 2022 最佳研究论文奖,陈教授团队开发的系统获得 VLDB 2014 优秀演示奖。陈教授曾担任 VLDB 2019 程序委员会联合主席。陈教授目前担任IEEE Transaction on Data and Knowledge Engineering主编和VLDB 2024的联合主席。
报告题目:大模型的数据科学
摘要:大模型取得了重大进展,并在各个领域得到广泛应用,例如用于问答的大语言模型。然而,大模型的成功和效率取决于适当的数据管理。在没有标记数据的情况下训练大模型具有挑战性,而大型数据集、复杂模型和众多超参数会阻碍效率。缺乏验证和解释限制了模型的适用性。在本次演讲中,我将讨论大模型数据科学中的三个关键问题:1) 大模型的有效数据准备,包括数据选择;2) 大模型训练优化,涉及计算图优化;3) 模型解释对于稳健性和透明度的重要性。最后,我将重点介绍大模型数据科学的未来研究方向。
叶杰平
之江实验室副主任、阿里巴巴集团副总裁
曾任美国密歇根大学正教授。先后荣获KDD和ICML最佳论文奖,2010年美国国家自然科学基金会生涯奖,2017年CCF科学技术奖科技进步卓越奖,2019年度国际运筹学领域顶级实践奖项--瓦格纳运筹学杰出实践奖(Daniel H. Wagner Prize)。
报告题目:GeoGPT: A Large Language Model System for Geoscientists
摘要:在本次的演讲中,我将为大家介绍GeoGPT——一个致力于全球地球科学研究领域的开源非营利探索性项目。该项目的创立与发展,旨在响应“深时数字地球”(Deep-time Digital Earth, DDE)这一国际科学倡议。GeoGPT 是一项汇集了研究机构、高等院校、产业界以及众多其他组织共同参与的全球开放科学实践。展望未来,GeoGPT模型计划面向全球研究社群全面开放。凭借其在文献阅读、信息提取、地质图解译与生成、知识图谱构建、以及科学假设生成等方面的强大功能,GeoGPT 正在推动地球科学研究模式的革新与转变。
陈华钧
浙江大学教授
浙江大学计算机科学与技术学院教授/博导,研究方向为人工智能、知识图谱、自然语言处理、AI for Science等。CCF杰出演讲者,中文开放知识图谱OpenKG牵头发起人,浙江省数智科技研究会副会长,中国人工智能学会知识工程专委会副主任,中国中文信息学会语言与知识计算专委会副主任。入选浙江省有突出贡献中青年专家,浙江省高层次人才特殊支持计划科技创新领军人才,全球前2%顶尖科学家榜单(人工智能)。曾获国际语义网会议ISWC最佳论文奖、国家科技进步二等奖、浙江省科技进步二等奖、教育部技术发明一等奖、CIPS钱伟长科技奖一等奖等科技奖励。
报告题目:融合大语言模型与知识图谱赋能AI科学发现
摘要:语言理解和知识表示是人工智能的两个核心研究命题。近年来,以ChatGPT为代表的大型语言模型技术快速兴起,为理解人类语言和处理人类知识提供了全新的技术思路。相比于通用域和常识域,科学发现依赖特有的科学语言来表示科学知识,例如,蛋白质序列语言体现出和人类自然语言同样的序列形式,但和自然语言又有较多差异;化学语言如SMILE/SELFIE等可用于描述复杂的分子结构,比之自然语言,更加需要刻画原子分子层的复杂图结构关系以及三维空间表示。本报告首先从知识图谱和大型语言模型两个视角总结了人工智能相关发展趋势,然后探讨了利用知识图谱和语言模型来表示科学知识和处理科学语言的方法和思路,并结合化学元素知识图谱、融合知识增强和功能提示的分子图学习、蛋白质提示学习模型等方面介绍了团队相关研究进展,最后展望了未来的发展方向。
丁云帆
壁仞科技AI软件首席架构师
现任壁仞科技AI软件首席架构师,主要负责AI软件架构和大模型千卡集群等相关工作。曾担任百度主任系统架构师,获得过百度技术最高奖和中国国家专利优秀奖。业界首创利用GPU架构解决广告推荐场景10TB级稀疏参数大模型训练挑战。
报告题目:壁仞大算力GPU突破大模型算力难题
摘要:大模型训练是一个系统工程,对计算机体系结构如计算、存储、通信都带来了巨大挑战,另外千卡集群对并行扩展、稳定可靠、弹性伸缩提出了更高的要求,同时不同异构GPU集群形成了算力孤岛。针对上述挑战,壁仞科技基于其高性能国产GPU打造了软硬一体、全栈优化、异构协同、开源开放的大模型整体解决方案。本次演讲将从硬件集群算力、软件有效算力、异构聚合算力三个维度分享壁仞科技如何系统性的解决大模型算力难题。
张忆
北京大学助理教授
于复旦大学和加州大学伯克利分校取得学士和博士学位,随后在斯坦福和康奈尔大学任博士后和独立研究员,现于北京大学量材中心担任教职。其研究方向为凝聚态物理理论和算法,包括分析量子多体系统的机器学习方法。
报告题目:量子材料、模型和算法中的机器学习
摘要:当今量子多体系统的海量自由度与相关实验和计算所得到的大数据常给我们的科学分析和探索带来很大挑战。我们将简要介绍机器学习如何成为了应对这样挑战的一个新颖而自然的视角。例如,我们可以使用机器学习基于复杂的高通量实验或计算数据来分析量子态,包括奇异的演生电荷序和量子自旋液体等。我们也可以采用基于机器学习的算法来分析量子多体哈密顿量的物理,包括传统上困难的强关联问题,从而获取其关键的基态性质和相图信息等。
论坛嘉宾
廖俊
中国药科大学教授
中国药科大学教授/博导,首个与国家健康医疗大数据中心(东部中心)建立药品再评价战略合作团队,于2021“之江杯”全球人工智能大赛成功揭榜“基于靶标结构的小分子配体从头设计与生成AI模型”项目。面向基于靶标结构的小分子配体设计与生成,研发大数据和高性能计算驱动的人工智能算法与模型;药品不良反应大数据分析、药物相互作用人工智能预测、疾病大数据分析和预测模型;数字病理的大数据构建和深度学习应用。主持多项医药大数据与人工智能省部级科研项目,主持参与国家级科研项目六项。带领团队获得多次国家人工智能大赛奖项。在国内外核心期刊发表论文40多篇,其中SCI论文20余篇,获得软件著作权2项。
陈宇综
深圳湾实验室资深研究员
深圳湾实验室资深研究员,博士毕业于英国曼彻斯特大学数学系,曾在美国普渡大学从事博士后研究;2013年至今,任清华大学深圳国际研究生院访问教授;2019年至今,任天体化学与空间生命-钱学森空间科学协同研究中心副主任;曾任新加坡国立大学计算科学系主任、药学系教授;在美国斯坦福大学“2022全球前2%顶尖科学家榜单”中,入围“年度科学影响力排行榜”;以通讯作者身份在Nature Machine Intelligence, PNAS等高水平期刊发表文章超过240篇。课题组目前已搭建人工智能的药物设计平台、理论计算与生物信息学平台、药物合成与分析平台、药物生物学评价平台、药物新靶点发现平台、高场核磁共振中心和高分辨质谱检测中心等多个科研创新平台(中心)。
李明
浙江师范大学教授、浙江省全省智能教育技术与应用重点实验室副主任
入选浙江省高校高层次拔尖人才、浙江省“钱江人才计划”特殊急需人才,浙江全省智能教育技术与应用重点实验室副主任,主要研究方向包括图机器学习、超图表示学习,智能教育技术与应用,目前担任Neural Networks等六个国际知名期刊副主编,在IEEE TPAMI、AI、IEEE TKDE、ICML、NeurIPS、IJCAI 等期刊及会议上发表论文80多篇,主持国家级及省部级纵向项目7项(含省重点研发计划项目1项)。
李朝
之江实验室特聘专家、正高级工程师
浙江省领军人才,之江实验室特聘专家,宇谷科技联合创始人,浙江⼤学兼聘教授,亚太⼈⼯智能学会委员。曾主持和参与国家⾃然科学基⾦、科技部重⼤科学研究计划等项目6项,在TPAMI等期刊发表论⽂200余篇。荣获IEEE会议杰出领导⼒奖、中国产学研合作创新和促进奖、中国科技新锐⼈物杰出成就奖、吴⽂俊⼈⼯智能科技进步奖、中国计算机学会科技进步奖杰出奖等多项荣誉。
关于CNCC2024
CNCC2024将于10月24-26日在浙江省东阳市横店镇举办,大会主题为“发展新质生产力,计算引领未来”。大会为期三天,包括18个特邀报告、3个大会论坛、138个专题论坛及34场专题活动和100余个展览。图灵奖获得者、两院院士、国内外顶尖学者、知名企业家在内的超过800位讲者在会上展望前沿趋势,分享创新成果。预计参会者超过万人。