ADL147《大模型与检索》开始报名

阅读量:195 2024-04-10 收藏本文

CCF学科前沿讲习班

CCF Advanced Disciplines Lectures

CCF ADL第147期

主题大模型与检索

2024年5月24日-26日北京

大模型（LLM）和信息检索（IR）系统是人类获取信息的两种主要手段。一方面，LLM可以赋能、升级和改造传统的IR系统，推动信息检索技术进一步发展。另一方面，IR系统也可以有效缓解大模型的幻觉问题和时效性瓶颈。二者紧密结合，相融相生，势必会推动人工智能时代信息获取方式的巨大变革。

学术主任：窦志成教授中国人民大学

主办单位：中国计算机学会

本期ADL，我们围绕着检索增强的大模型方法（RAG）和大模型强化的检索方法（LLM4IR）两个角度，邀请了10位学术界和工业界的资深学者和杰出践行者，给大家带来6场精彩的专题讲座和3场主题报告。报告嘉宾包括同济大学特聘研究员王昊奋，中国人民大学高瓴人工智能学院教授窦志成、博士后朱余韬，北京智源人工智能研究院研究员刘政，中国科学院计算技术研究所智能算法安全重点实验室副研究员庞亮，微软亚洲研究院自然语言计算组高级研究员王亮，中国人民大学高瓴人工智能学院准聘助理教授林衍凯，百川智能RAG技术负责人方琨，智谱AI 解决方案专家冯小平，Jina AI联合创始人兼CTO王楠。

活动日程：

5月24日周五
9:00-9:10	开班仪式
9:10-9:20	全体合影
9:20-12:00	专题讲座1：知识检索增强：范式与关键技术讲者：王昊奋，同济大学特聘研究员
12:00-13:00	午餐
13:00-16:00	专题讲座2：大语言模型与智能信息检索技术的融合讲者：窦志成，中国人民大学高瓴人工智能学院教授朱余韬，中国人民大学高瓴人工智能学院博士后
5月25日周六
9:00-10:30	专题讲座3：通用语义向量模型与大语言模型检索增强讲者：刘政，北京智源人工智能研究院研究员
10:30-12:00	专题讲座4：检索增强生成（RAG）的技术与思考讲者：庞亮，中科院计算技术研究所研究
12:00-13:00	午餐
13:00-16:00	专题讲座5：搜索引擎在大模型时代的机遇与挑战讲者：王亮，微软亚洲研究院自然语言计算组高级研究员
5月26日周日
9:00-12:00	专题讲座6：大模型工具增强讲者：林衍凯，中国人民大学高瓴人工智能学院准聘助理教授
12:00-13:00	午餐
工业界专场
13:00-14:00	主题报告1：百川RAG实践之路讲者：方琨，百川智能RAG技术负责人
14:00-15:00	主题报告2：智谱RAG实践尝试讲者：冯小平，智谱AI 解决方案专家
15:00-16:00	主题报告3：向量模型的架构、训练和未来发展讲者：王楠，Jina AI联合创始人兼CTO

特邀讲者（按照讲座或者报告顺序排序）：

王昊奋

同济大学特聘研究员

讲者简介：王昊奋，同济大学特聘研究员，博士生导师。长期在一线人工智能公司担任CTO之职。他是全球最大的中文开放知识图谱联盟OpenKG发起人之一。他负责主持了多项国家级AI相关项目，发表100余篇AI领域高水平论文，被引用次数达到3500余次，H-index达到29。他构建了全球首个可交互养成的虚拟偶像—“琥珀·虚颜”；所构建的智能客服机器人已累计服务用户超过10亿人次。目前，他担任中国计算机学会术语工委副主任，SIGKG主席，自然语言处理专委会秘书长，上海秘书长，中国中文信息学会理事，语言与知识计算专委会副秘书长，上海市计算机学会自然语言处理专委会副主任，上海交通大学AI校友会秘书长等社会职位。

专题讲座：知识检索增强：范式与关键技术

报告简介：知识检索增强技术为大语言引入了额外的知识源，有效地缓解了幻觉问题与知识时效性问题，迅速成为优化大模型实践中的一项关键技术。在技术迭代的过程中，RAG(Retrieval Augmented Generation)与结构索引优化、知识图谱、向量数据库、大模型微调、提示工程等多项技术深度融合，众多功能模块相继被提出，这对研究人员全面理解RAG构成了挑战。本次报告将从范式、关键技术与应用发展等角度对RAG进行全面梳理和分析，旨在从更高层面把握技术发展趋势和未来方向。通过对当前研究现状的综合分析，我们提出了模块化RAG与RAG Flow的研究范式，总结了6大功能模块，包含50余个算子操作，并从百余篇论文中凝练出了7种典型的RAG Flow设计模式，为RAG系统的设计提供指导。基于这些范式，我们进一步推进了OpenRAG系列的开源工作，构建了OpenRAG Knowledge Base，全面覆盖了RAG研究人员和开发者所需的信息，并提供了支持高度自定义的多维度分析视图；同时，我们搭建了OpenRAG Playground，协助研究人员和工程师快速搭建前沿的基线方法，并在公开或自定义数据集上进行快速验证以及不同RAG Flow效果的比较。

窦志成

中国人民大学教授

讲者简介：窦志成，教授，博导，中国人民大学高瓴人工智能学院副院长，中国计算机学会大数据专家委员会秘书长，中文信息学会理事，中国中文信息学会信息检索专委会副主任。主要研究方向为人工智能、智能信息检索、自然语言处理等。已在国际知名学术会议和期刊上发表论文100余篇，获教育部自然科学奖一等奖、国际信息检索大会(SIGIR 2013)最佳论文提名奖、WWW 2023亮点论文奖、亚洲信息检索大会(AIRS 2012)最佳论文奖获、全国信息检索学术会议(CCIR 2018、CCIR 2021)最佳论文奖等。任多个国际学术会议和期刊的程序委员会委员和审稿人。

朱余韬

中国人民大学博士后

讲者简介：朱余韬，中国人民大学高瓴人工智能学院博士后，合作导师为窦志成教授。于2023年获得蒙特利尔大学博士学位，在此之前，于2019年和2016年分别在中国人民大学信息学院获得硕士和学士学位。博士研究方向为信息检索、自然语言处理等领域，在博士期间曾获谷歌卓越博士生奖学金，并多次获得优秀博士生奖学金等荣誉。目前，在人工智能和信息检索领域的国际顶级期刊和会议上发表学术论文40余篇，谷歌学术统计引用量1200余次。是中国人民大学大模型项目组成员，负责基座模型的训练，有丰富的大模型开发和研究经验。

专题讲座：大语言模型与智能信息检索技术的融合

报告简介：大语言模型在自然语言处理领域取得了卓越的成就，与信息检索这一人类获取信息的重要途径也产生了深刻的交集。一方面，凭借大语言模型出色的语义理解能力，可以将其直接应用于信息检索的传统任务，如查询改写、文档检索和文档重排等。另一方面，信息检索系统也能为大语言模型提供额外的知识来源，有效缓解其幻觉问题和时效性瓶颈。此外，大语言模型本身还为信息检索系统带来了新颖的交互模式，催生了以大模型为驱动的搜索智能体等创新范式。本报告将围绕以下几个方面展开阐述：首先，以信息检索系统的常见模块为基础，按照查询改写、检索器、重排器、阅读器和智能体等五个模块，系统梳理近期百余篇将大语言模型应用于信息检索任务的相关工作。在此基础上，我们将报告利用指令微调技术来提升大模型的检索性能的最新尝试。此外，报告还将探讨生成式检索与大模型融合的一些新方法和新思路。最后，将介绍我们在RAG框架中对检索需求识别、查询改写和检索结果压缩等方面的最新研究进展。

刘政

北京智源人工智能研究院研究员

讲者简介：刘政，北京智源人工智能研究院研究员，信息检索与知识计算方向技术负责人。香港科技大学博士。历任微软亚洲研究院主管研究员，华为2012实验室技术专家。长期从事自然语言处理与信息检索领域的研究工作。领导研发通用语义向量模型BAAI General Embedding，全球累计下载量1000余万次,综合性能业界领先。多项研究成果应用于微软BING Search，华为Petal Search等重要工业场景。近年来于AI、NLP相关领域发表顶级学术论文50余篇，并获得NeurIPS会议杰出论文奖。先后主办“the Web Conference 2024 Workshop on InformationRetrieval Meets Large Language Models”、“TOIS Special Issue on Pre-trained Models for Search and Recommendation”等学术活动。

专题讲座：通用语义向量模型与大语言模型检索增强

报告简介：通用语义向量模型是搜索、问答、个性化等AI场景中的基础性组件。与此同时，向量检索技术也在大语言模型检索增强（RAG）中扮演着重要的角色。本次报告将探讨“向量学习中的若干关键技术”，并就“大模型时代检索技术的机遇与挑战”展开讨论。

庞亮

中国科学院计算技术研究所副研究员

讲者简介：庞亮，中国科学院计算技术研究所智能算法安全重点实验室副研究员，新加坡国立大学访问学者，研究方向为自然语言生成和信息检索。在国际会议发表过论文30余篇，谷歌引用超过2700。担任国际会议程序委员和期刊审稿人，中文信息学会信息检索专委会常务委员，中文信息学会青工委执委，中国科学院青促会会员。曾获中文信息学会优秀博士学位论文奖。提出的深度文本匹配模型在Kaggle QQP文本匹配比赛中获得全球第四。NeurIPS 2018多智能体挑战赛强化学习全球冠军。多跳开放问答HotpotQA位列全球榜单第一。

专题讲座：检索增强生成（RAG）的技术与思考

报告简介：近年来，检索增强的范式有效地提升了大语言模型生成内容的准确性和可信性，其核心组成可以分为信息检索模块和大语言模型生成模块。在信息检索模块的视角，检索模型的领域可泛化性和通用性，有助于在大模型应用的各个领域精选出对生成有效的信息；在大语言模型模块的视角，对外部信息使用的鲁棒性和效率，有助于避免检索噪声信息对生成结果的影响；在模块间交互的视角，信息检索模块与大语言模型模块交互配合的机制设计，也是成败的关键；最后，在检索增强生成信息回路的视角，新生成的内容将对信息检索造成潜在影响。

王亮

微软亚洲研究院高级研究员

讲者简介：王亮，现任微软亚洲研究院自然语言计算组高级研究员。主要研究方向为信息检索、问答系统和基础模型的增强。2014年和2017年分别获得北京大学学士和硕士学位。毕业后曾在猿辅导在线教育担任算法工程师。目前已在ACL、EMNLP、NAACL、AAAI、ICLR等自然语言处理和机器学习领域会议发表论文近30篇，曾担任多个国际会议和期刊的程序委员会委员。主导开发并开源的E5系列的文本向量模型获得了广泛关注，累计下载次数达数百万，并在微软内部产品线上得到应用。

专题讲座：搜索引擎在大模型时代的机遇与挑战

报告简介：近年来，以GPT为代表的大语言模型（LLM）在自然语言处理领域取得了突破性进展，并逐渐应用于商业搜索引擎中。本报告将探讨如下几个话题：1) 大语言模型在搜索系统中的应用场景，比如查询扩展、文档排序、基于RAG的答案和摘要生成、合成数据等，以及在这些场景中的新挑战，特别是长文本建模和推理性能的问题。2) 搜索引擎如何能对大语言模型进行增强，从而提高语言模型生成结果的可信度和实时性，并提供信息溯源的能力。3) 搜索引擎在未来是否有可能被大语言模型所颠覆？在这个问题上，我们将讨论大语言模型显著简化现有搜索技术栈的可能性，以及大语言模型在完全替代搜索引擎之前需要解决的研究问题，包括持续学习、幻觉消除等。

林衍凯

中国人民大学准聘助理教授

讲者简介：林衍凯，中国人民大学高瓴人工智能学院准聘助理教授，主要研究方向为预训练模型和大模型智能体，在 CCFA/B 类国际顶级学术会议发表论文 50 余篇， Google Scholar 统计引用（至 2024 年 2 月）达到 11,938 次， H‑index 为 41，2020-2022年连续三年入选爱思唯尔（Elsevier）中国高被引学者。其成果获评教育部自然科学一等奖（第三完成人)、 2022 年世界互联网大会领先科技成果（全球共15项）。在知识表示方面，其TransR论文被Yoshua Bengio在其《Deep Learning》教材中列为知识表示代表方法，相关工作成果开源工具包 OpenKE、 OpenNRE 在世界影响力最大的开源平台Github上获 7,800 多个星标。在大模型智能体方面，其主持发布了世界上第一个大规模工具学习大模型ToolLLM；主持发布了大模型自主智能体系统 XAgent，在开源平台Github上获6,900 多个星标；构建了用于模拟用户行为的多智能体仿真平台RecAgent，是国内外首个用于模拟用户行为的多智能体平台。

专题讲座：大模型工具增强

报告简介：近年来，预训练模型尤其是大模型已经成为了推动自然语言处理、计算机视觉和其他人工智能领域进步的关键。然而，尽管这些模型的性能优越，它们在处理复杂专业任务时的能力仍有限制。这主要是因为这些模型主要依赖于预训练学到的知识，而无法动态地获取和利用外部知识，特别是外部工具知识。本报告旨在概述工具增强的预训练模型的最新动态和应用前景。工具增强的预训练模型通过结合外部工具和服务，例如实时的信息检索、数据分析工具、以及专业数据库和工具，能够显著提高模型的性能和应用范围，使得模型能够处理更为复杂的问题，提供更加准确和丰富的回答，同时也促进了模型对现实世界知识的理解和更新。

方琨

百川智能公司 RAG技术负责人

讲者简介：方琨，目前担任百川智能公司的RAG(Retrieval-Augmented Generation)技术负责人，在微软、搜狗等顶尖企业积累了超过十年的搜索推荐和大模型RAG领域的专业经验。

主题报告：百川RAG实践之路

报告简介：随着大型语言模型（LLM）的兴起，它们在语言理解、生成和逻辑推理方面展现出了卓越的能力。然而，如何将这些先进的模型与外部知识库有效结合，以实现更深层次的互补和优化，已经成为人工智能领域中的一个关键议题。在这方面，检索增强生成(Retrieval Augmented Generation)技术作为一种创新的解决方案，已经被证明能够显著提升模型在特定领域的应用效果，并有效缓解了大型模型常见的“幻觉”问题。本次分享将从工业界的视角深入探讨百川智能在实际业务中优化RAG(Retrieval-Augmented Generation)技术的实践案例。我们将详细阐述RAG技术的工作原理与实践，包括如何高效结合检索机制和生成机制，以优化和提升模型在处理复杂信息时的理解和生成能力，降低模型幻觉。通过本次分享，我们希望能够为听众提供一个全面而深入的理解，关于RAG技术如何在工业界中被有效利用，以及它在未来的发展潜力和可能性。

冯小平

清华大学硕士

讲者简介：冯小平，清华大学计算机硕士。智谱AI解决方案和产品专家、架构师。曾经在创新工场，教育NGO，基因分析，零售独角兽，微软等公司担任技术开发和管理工作。擅长探索新技术，并将新技术引入传统行业，从零到一构建全新的技术栈。利用大语言模型能力，设计开发了创新的自然语言信息订阅发布系统，实现突破组织边界的异步沟通能力。对生成式AI技术及金融应用、数字货币有丰富经验。

主题报告：智谱RAG实践尝试

报告简介：本报告将介绍智谱大模型中的RAG实践。我们将探讨如何在智谱大模型上实现RAG系统，包括利用外部知识库进行信息检索和生成，以及如何通过训练和优化提高召回性能等。

王楠

Jina AI联合创始人兼首席技术官

讲者简介：王楠，Jina AI联合创始人兼首席技术官。他专注于机器学习和深度学习算法在自然语言处理和搜索领域的研究。博士毕业于德国波鸿大学，获得计算神经科学博士学位。王楠博士致力于推动AI技术在自然语言处理和搜索领域的实际应用，曾在欧洲知名电商公司Zalando和腾讯担任搜索和自然语言处理高级算法工程师。他积极推动AI技术的开源发展，积极参与开源社区建设。王楠博士作为核心开发者深度参与包括jina在内的多个主流开源工具的研发，推动Jina AI捐赠DocArray项目给Linux Foundation AI&DATA，并在担任TAC成员。在2023年，他主持开发并开源了包括jina-embeddings和jina-colbert在内的多个文本向量模型，收到开源社区的广泛关注，模型累计下载量超过百万。他为开源社区累计贡献超过40多场技术分享，并入选2023年中国开源先锋33人。

主题报告：向量模型的架构、训练和未来发展

报告简介：随着大模型的兴起，作为大模型应用落地的主要范式，检索增强生成（RAG）已经成为工业界和学术界研究和讨论的热点之一。本次报告将围绕RAG范式的核心技术向量模型展开，包括以下三个部分：1）向量模型架构：介绍不同的模型架构和向量模型的演进历史。2）稠密文本向量模型训练方法：针对稠密文本向量模型，展开介绍如何训练模型，包含语料准备、训练流程，以及评估标准。3）向量模型的工业应用和未来发展方向：介绍文本向量模型目前的发展方向以及多模态向量模型的发展趋势。

学术主任

窦志成

中国人民大学教授

简介：窦志成，教授，博导，中国人民大学高瓴人工智能学院副院长，中国计算机学会大数据专家委员会秘书长，中文信息学会理事，中国中文信息学会信息检索专委会副主任。主要研究方向为人工智能、智能信息检索、自然语言处理等。已在国际知名学术会议和期刊上发表论文100余篇，获教育部自然科学奖一等奖、国际信息检索大会(SIGIR 2013)最佳论文提名奖、WWW 2023亮点论文奖、亚洲信息检索大会(AIRS 2012)最佳论文奖获、全国信息检索学术会议(CCIR 2018、CCIR 2021)最佳论文奖等。任多个国际学术会议和期刊的程序委员会委员和审稿人。

时间：2024年5月24日-26日

地址：北京•中科院计算所一层报告厅（北京市海淀区中关村科学院南路6号）