ADL144《基于大模型的代码生成》开始报名

阅读量:715 2023-09-06 收藏本文

CCF学科前沿讲习班

CCF学科前沿讲习班

The CCF Advanced Disciplines Lectures

CCFADL第144期

主题基于大模型的代码生成

2023年10月20日-22日北京

本期CCF学科前沿讲习班《基于大模型的代码生成》，对基于大模型的代码生成最新研究进展以及将其用以支撑软件编码、测试、调试、维护、运维与硬件设计的技术进行系统性介绍，帮助学员理解基于大模型的代码生成的基本概念、主要挑战和解决方法，并通过实际案例了解基于大模型的代码生成在软硬件研发的应用前景，开阔科研视野，增强实践能力。

本期ADL讲习班邀请到了本领域6位来自于著名高校与企业科研机构的重量级专家学者做主题报告。他们将对基于大模型的代码生成在支撑软件研发和硬件设计方面的最新进展进行深入浅出的讲解，为听众展示基于大模型的代码生成技术的软硬件研发实践案例, 并介绍解决基于大模型的代码生成所面临技术挑战和实践落地的宝贵经验。

学术主任：谢涛北京大学

主办单位：中国计算机学会

活动日程：

2023年10月20日（周五）
9:00-9:15	开班仪式
9:15-9:30	全体合影
9:30-12:30	专题讲座1：基于大模型的代码生成：趋势和挑战谢涛北京大学讲席教授，计算机学院软件科学与工程系主任，高可信软件技术教育部重点实验室副主任
12:30-13:30	午餐
13:30-16:30	专题讲座2：大模型时代的软件研发：范式与工具王千祥华为公司PaaS技术创新实验室主任
2023年10月21日（周六）
9:00-12:00	专题讲座3：大模型时代的软件系统测试、修复和合成张令明美国伊利诺伊大学香槟分校（UIUC）计算机系副教授
12:00-13:00	午餐
13:00-16:00	专题讲座4：代码大模型技术及其对软件开发模式的影响李戈北京大学计算机学院长聘教授
2023年10月22日（周日）
9:00-12:00	专题讲座5：面向复杂任务的智能自动设计探索胡杏中国科学院计算技术研究所副研究员
12:00-13:00	午餐
13:00-16:00	专题讲座6：基于大模型的代码生成在国内落地实施现状和趋势朱少民同济大学特聘教授

本期ADL主题《基于大模型的代码生成》,由北京大学讲席教授，计算机学院软件科学与工程系主任，高可信软件技术教育部重点实验室副主任，国家高等学校学科创新引智（“111”计划）基地负责人谢涛担任学术主任，邀请到谢涛（讲席教授，北京大学）、王千祥（华为公司PaaS技术创新实验室主任）、张令明（副教授，美国伊利诺伊大学香槟分校（UIUC）计算机系）、李戈（长聘教授，北京大学计算机学院）、胡杏（副研究员，中国科学院计算技术研究所）、朱少民（特聘教授，同济大学）6位专家做专题讲座。

特邀讲者

谢涛

北京大学

讲者简介：谢涛，北京大学讲席教授，计算机学院软件科学与工程系主任，高可信软件技术教育部重点实验室副主任，国家高等学校学科创新引智（“111”计划）基地负责人。曾任美国伊利诺伊大学香槟分校（UIUC）计算机科学系正教授。当选欧洲科学院外籍院士、国际计算机学会（ACM）会士、电气电子工程师学会（IEEE）会士、美国科学促进会（AAAS）会士、中国计算机学会（CCF）会士。曾获科学探索奖，国家自然科学基金委海外杰青，美国NSF CAREER Award，ACM软件工程领域（SIGSOFT）三大奖项中的两项（有影响力教育工作者奖、杰出服务奖），IEEE软件工程领域（TCSE）杰出服务奖，软件仓库挖掘奠基性贡献奖，软件工程顶级国际会议ASE 2021最有影响力论文奖等。担任CCF软件工程专委会副主任，2020年中国计算机大会程序委员会主席，软件工程顶级国际会议ICSE 2021程序委员会共同主席，《软件测试、验证与可靠性（STVR）》Wiley期刊联合主编等。主要研究领域包括软件工程，系统软件，软件安全，可信人工智能。

报告题目：基于大模型的代码生成：趋势和挑战

报告摘要：近年来，基于大模型的人工智能技术取得了飞速发展，基于大模型的代码生成为更有效的解决软件工程各类任务带来了新的机会。同时，大模型的复杂性和规模也在快速增长，外加模型的黑盒化、不可解释、无保证、难验证等给将其应用于软件工程任务带来了新的挑战。本报告探讨基于大模型的代码生成在支撑软件开发、维护、质量保障等方面的最新研究趋势、关键理念与技术，并介绍此领域面临的挑战和未来发展方向。

王千祥

华为公司

讲者简介：王千祥，华为云智能化软件研发首席专家，PaaS技术创新LAB主任，华为公司可信领域科学家，中国计算机学会软件工程专委副主任。主导华为公司的智能化软件研发，结合AI技术与软件分析技术，近期带领团队探索研发领域的大模型，并赋能公司的系列软件研发工具。

报告题目：大模型时代的软件研发：范式与工具

报告摘要：从NLP领域发展起来的大模型正在引领新一代人工智能的发展，并持续向更多的领域穿透其影响力。从软件研发的角度，大模型将带来哪些变化？本报告将结合华为在基于大模型的代码生成等软件研发领域开展的系列探索，分享软件研发大模型的进展，并对软件研发的未来及需要解决的关键问题进行展望。

张令明

美国伊利诺伊大学香槟分校（UIUC）

讲者简介：张令明现任美国伊利诺伊大学香槟分校（UIUC）计算机系副教授。博士毕业于美国德州大学奥斯汀分校（UT Austin），并分别于北京大学和南京大学获得硕士及学士学位。主要从事软件工程、程序语言以及机器学习的交叉研究，包含基于AI大模型的自动软件合成、修复和验证，以及机器学习系统可靠性研究等。例如，他提出了一系列基于大模型的软件测试工具（TitanFuzz和FuzzGPT等），并在TensorFlow、PyTorch、LLVM、GCC、Z3及Qiskit等真实系统中挖掘到数百个新的bug和漏洞。曾获ACM SIGSOFT Early Career Award、NSF CAREER Award、UIUC工程学院杰出科研奖、UIUC优秀教师奖、谷歌/Meta/三星科研奖、以及多个杰出论文奖等。

详细信息请见：http://lingming.cs.illinois.edu/

报告题目：大模型时代的软件系统测试、修复和合成

报告摘要：大语言模型（比如ChatGPT）已经在各种领域的下游任务中展现出了令人惊叹的效果。这次报告介绍我们研究组近年来在利用大模型提高软件质量方面的一些工作。首先将介绍我们基于大模型的软件测试的一系列工作：比如TitanFuzz发现大模型可以直接用于模拟传统的基于生成和基于变异的模糊测试方法；同时和传统工作相比，大模型具备完全自动化、通用性等优势，并适用于复杂的应用领域（如机器学习系统）。接下来将介绍我们基于大模型的软件修复的一系列工作：例如AlphaRepair首次将程序修复问题转化为大模型擅长的完形填空问题，并证实大模型可以超越传统的修复技术。最后将介绍我们最近的EvalPlus工作：我们发现几乎所有最近的代码大模型在程序合成任务上的表现都会受到数据集质量的影响，并提出了基于大模型的解决方案。

李戈

北京大学

讲者简介：李戈，北京大学计算机学院长聘教授，博士生导师，教育部长江学者。研究方向：程序生成、程序理解、深度学习，是国际上“基于深度学习的程序处理”方面的先驱性研究者，多项成果被国际学者认为是“首创性成果”并被广泛引用。多年来，所带领的研究团队在多项研究任务中一直保持着国际领先结果，是该领域国际知名的研究团队。

报告题目：代码大模型技术及其对软件开发模式的影响

报告摘要：通过自动化的方式开发软件，一直是软件工程研究者的梦想。其实，不仅在软件工程领域，在人工智能领域，通过自动化的方式得到可以运行的计算机程序，或者拓广一点，通过自动化的方式得到一个可以满足人类意图的计算机系统，也是人工智能领域研究者的梦想。在这一共同梦想的驱动下，软件工程研究者从软件形态、软件开发技术、软件工程过程等多个角度展开了多年的研究；而人工智能研究者则围绕如何实现自然语言到程序代码的转换，如何自动学习人类开发者的经验等角度展开研究，代码大模型就是在这样的背景下，进入了软件自动化的场景中。在代码大模型的构造过程中，研究者们利用了大量来自互联网和开源社区的软件开发数据和信息，从而使代码大模型能够学习到长期以来人类开发者所创造的程序和文档知识，加之大模型依赖其他自然语言数据所学习的基础能力，从而使代码大模型具备了像人类开发者一样解决某些软件开发问题的能力，从而使人们看到了在多个软件开发的环节实现软件自动化的前景。在这样的背景下，代码大模型技术有哪些关键点？代码大模型到底对人类传统的软件开发模式有怎样的影响？在代码大模型支持下的软件开发模式将会有哪些新的特征？甚至拓广一点，未来的软件开发范式将会是怎样的？本报告对上述这些问题进行探讨。

胡杏

中国科学院计算技术研究所

讲者简介：胡杏，中国科学院计算技术研究所副研究员，博士生导师，主要研究方向为高效安全智能计算系统。共发表CCF A类国际学术论文三十余篇，包括体系结构旗舰会议ISCA、ASPLOS、MICRO、HPCA和人工智能旗舰会议NeurIPS、ICML等。多次担任体系结构和人工智能旗舰会议的程序委员会委员，曾获国家级和科学院级青年人才项目，以及科技创新2030“新一代人工智能”重大项目课题等。

报告题目：面向复杂任务的智能自动设计探索

报告摘要：基于新智能技术的自动程序生成将深刻改变机器与人类以及环境之间的交互模式，驱动智能技术具有自动自主设计能力。本报告将以处理器芯片全自动设计任务为引子，介绍我们如何使机器在仅5小时内自动完成32位RISC-V CPU的全部前端设计，进而报告我们在多种任务中进行的基于程序生成的自动化设计方法探索，以及如何解决用户意图对齐，语义世界和物理世界对齐这些关键挑战的最新研究进展。在这一基础上，报告还将探讨智能技术自动化设计对系统、算法和数据等多方面的新需求。

朱少民

同济大学

讲者简介：朱少民，同济大学特聘教授、CCF高级会员、CCF TF软件质量工程SIG主席、软件绿色联盟标准评测组组长、AiDD峰会发起人。近三十年来一直从事软件工程的教学和研究工作，先后获得多项省、部级科技进步奖，已出版了二十多部著作和4本译作，代表作主要有《软件测试方法和技术》、《软件质量保证与管理》、《全程软件测试》、《软件项目管理》等，经常在国内外学术会议或技术大会上发表演讲，并帮助国内近百家企业提升其软件研发能力水平。曾任思科（中国）软件有限公司QA高级总监、IEEE ICST 2019工业论坛主席、IEEE ICST、QRS和DSA、NASAC程序委员、《软件学报》审稿人等。

报告题目：基于大模型的代码生成在国内落地实施现状和趋势

报告摘要：代码作为一种更标准化的文本，AIGC在代码生成方面具有显著优势，如GitHub Copilot已经表现不俗，而且这类代码生成工具不断涌现，有望改变软件研发范式，并大幅提升软件研发效率。本次报告将从代码大模型的fine tuning开始，探讨大模型生成代码技术如何在国内落地实施的，包括代码注释生产、commit message生成、基于遗留代码的生成、embedding业务领域知识、生成的代码/内容的验证、代码大模型的测评、代码大模型部署和运营（MLOps）等在国内的优秀实践，最后探讨代码生成对软件工程的影响及对未来的展望。

时间：2023年10月20日-22日

地址：北京•中科院计算所一层报告厅（北京市海淀区中关村科学院南路6号）