ADL131《向量学习与搜索》开始报名-线上线下同步举办

阅读量:1070
hmli

CCF学科前沿讲习班

The CCF Advanced Disciplines Lectures

CCFADL第131期

主题 向量学习与搜索

2022年10月25~27日 北京


本期CCF学科前沿讲习班ADL131《向量学习与搜索》,将对向量学习与检索的最新进展进行深入浅出的讲解,从自然语言自监督和搜索预训练、视觉预训练、基于哈希的向量搜索技术、大规模向量搜索系统、预训练模型在推荐系统中的应用等不同应用领域视角为听众介绍向量学习与搜索的关键技术和前沿研究。相信学员经过本次讲习班,能够深入了解向量学习与搜索的基础技术、主要挑战和应用场景,开阔科研视野,增强实践能力。


本期ADL讲习班邀请了10位来自国内外著名高校与企业科研机构活跃在前沿领域的专家学者做主题报告。第一天,陈琪研究员讲解高效的超大规模向量近似最近邻搜索系统SPANN,刘政研究员介绍面向稠密检索系统的模型-索引联合优化,Matthijs Douze介绍Similarity search and the Faiss library,何栋梁博士讲解解耦表观与运动信息的视频自监督训练及视频文本弱监督预训练方法。第二天,Harsha Simhadri研究员介绍Approximate Nearest Neighbor Search algorithms for web-scale search and recommendation,杨红霞研究员讲解基于预训练模型与端云协同的推荐系统,孙宇架构师和刘璟架构师介绍百度文心大模型ERNIE及在搜索中的应用。第三天,李平博士讲授Embedding Based Retrieval (EBR) and Beyond,毛佳昕教授讲解面向文本搜索的高效可学习的检索模型。通过三天教学,旨在带领学员实现对向量学习与搜索从基础技术,到前沿科研动态,再到典型应用场景的深入学习与思考。

学术主任:王井东 百度计算机视觉首席科学家
主办单位:中国计算机学会


本期ADL主题«向量学习与搜索»,由王井东担任学术主任,邀请到陈琪(高级研究员,微软亚洲研究院)、刘政(技术专家,华为2012实验室)、Matthijs Douze(Research Scientist,FAIR lab)、何栋梁(资深算法研发工程师,百度)、Harsha Simhadri(Principal Researcher,Microsoft Research)、杨红霞(人工智能科学家,阿里巴巴达摩院)、孙宇(杰出研发架构师,百度)、刘璟(主任研发架构师,百度)、李平(杰出工程师,LinkedIn)和毛佳昕(助理教授,中国人民大学)10位专家做专题讲座。


活动日程:

2022年10月25日(周二)

9:00 - 9:10

开班仪式

9:10 - 9:20

全体合影

9:20 - 10:50

专题讲座1:一个高效的超大规模向量近似最近邻搜索系统

陈琪,高级研究员,微软亚洲研究院

10:50 - 12:20

专题讲座2:面向稠密检索系统的模型-索引联合优化

刘政,技术专家,华为2012实验室

14:00 - 15:30

专题讲座3:Similarity search and the Faiss library

Matthijs Douze,Research Scientist,FAIR lab

15:30 - 17:00

专题讲座4:解耦表观与运动信息的视频自监督训练及视频文本弱监督预训练方法

何栋梁,资深算法研发工程师,百度

2022年10月26日(周三)

9:00 - 10:30

专题讲座5:Approximate Nearest Neighbor Search algorithms for web-scale search and recommendation

Harsha Simhadri,Principal Researcher,Microsoft Research

10:30 - 12:00

专题讲座6:基于预训练模型与端云协同的推荐系统

杨红霞,人工智能科学家,阿里巴巴达摩院

14:00 - 17:00

专题讲座7:

面向文本搜索的高效可学习的检索模型

毛佳昕,助理教授,中国人民大学

2022年10月27日(周四)

9:00 - 12:00

专题讲座8:Embedding Based Retrieval (EBR) and Beyond

李平,杰出工程师,LinkedIn

14:00 - 17:00

专题讲座9:

百度文心大模型ERNIE及在搜索中的应用

孙宇,杰出研发架构师,百度, 刘璟,主任研发架构师,百度


特邀讲者:
陈琪,高级研究员,微软亚洲研究院


讲者简介:陈琪,微软亚洲研究院系统研究组的高级研究员,2010年和2016年分别在北京大学信息科学技术学院获得学士和博士学位,师从肖臻教授,博士期间主要从事分布式系统,云计算和并行计算方向的研究。已经在国际顶级会议和期刊上发表了二十多篇学术论文,发表的论文曾获得过OSDI最佳论文奖。目前主要研究方向包括分布式系统,云计算,深度学习算法和人工智能系统。

报告题目:一个高效的超大规模向量近似最近邻搜索系统
报告摘要:
随着数据规模的快速增长,基于内存的向量搜索面临着海量且非常昂贵的内存需求,因此,人们对小内存-大硬盘混合型向量近似最近邻搜索的需求也越来越迫切。同时,传统的分布式搜索系统需要将每一个查询都分发给每台机器进行本地查询,这会导致查询延迟和资源开销会随着机器数量的增多而变大,系统可扩展性变差。因此,我们提出了一种非常简单且高效的基于倒排索引思想的内存-硬盘混合型索引和搜索方案SPANN,有效地解决了倒排索引方法中的三个会导致高延迟或者低召回的难题。实验结果显示,SPANN在多个上亿量级数据集上都能取得两倍多的加速达到90%召回率,其查询延迟能够有效地控制在一毫秒左右。同时,SPANN的设计能够有效地被扩展到分布式搜索中限制每个查询的资源开销和延迟大小,从而实现高可扩展性。目前SPANN已经被部署在了微软必应搜索中支持百亿量级的高性能向量近似最近邻搜索。

刘政,技术专家,华为2012实验室


讲者简介:刘政,香港科技大学博士。2018年加入微软亚洲研究院,任职社会计算组研究员。2022年加入职华为2012实验室,任职技术专家,负责搜索与深度语义表征技术的研发工作。他的研究兴趣涉及自然语言处理、搜索引擎、计算广告、推荐系统等方向。他在语义表征及索引优化方面的研究成果被广泛应用于华为公司PetalSearch、微软公司Bing Sponsored Search、Microsoft News等核心产品。近五年于相关领域的发表顶级刊物论文30余篇,并长期担任KDD、the Web Conference等学术会议的程序委员。


报告题目:面向稠密检索系统的模型-索引联合优化

报告摘要:稠密检索技术在搜索、问答、推荐等应用场景下扮演着关键角色。典型的稠密检索系统由两个基础模块构成:表征模型与最近邻索引。表征模型负责将输入编码为隐空间中的特征向量,并使特征向量间的空间相似性与原输入的语义相关性保持一致。而最近邻索引负责将特征向量组织为特定的索引结构,如倒排表、Delaunay图等,使得系统可以以次线性的时间复杂度为给定特征向量实时获取其邻居向量。传统的稠密检索系统往往将两个模块串行构建,即先学习得到表征模型,再基于表征模型所生成的特征向量以非监督的形式学习得到最近邻索引。不幸的是上述传统做法使得表征模型与最近邻索引间难以达成有效的协同。而这一缺陷已成为稠密检索系统的一大制约因素。为克服这一缺陷,我们致力于研究联合优化的稠密检索系统,促使表征模型与最近邻索引间实现有效的协同,从而提升系统端到端的检索质量。在本次报告中,我们将介绍本团队在这一领域的三个的工作:面向检索的乘积量化,双粒度语义表征,知识蒸馏的量化表征,并就未来如何实现表征与索引间更为有效的协同展开讨论。

Matthijs Douze,Research Scientist,FAIR lab

讲者简介:Matthijs Douze has been a research scientist at the Facebook AI Research (FAIR) lab in Paris since November 2015. At Facebook he is working on large-scale indexing (see the Faiss library), machine learning with graphs and similarity search on images and videos. He obtained a master’s degree from the ENSEEIHT engineering school and defended his PhD at University of Toulouse in 2004. From 2005-2015 Matthijs joined the LEAR team at INRIA Grenoble where he worked on a variety of topics, including image indexing, large-scale vector indexing, event recognition in videos and similar video search. Between 2010 and 2015 he also managed Kinovis, a large 3D motion capture studio at INRIA and developed high-performance geometric algorithms for constructive solid geometry operations. In addition to FAIR’s general research topics, Matthijs is interested in snappy algorithms that process images and produce graphical results.
报告题目:Approximate Nearest Neighbor Search algorithms for web-scale search and recommendation
报告摘要:
In this talk I will cover approximate nearest neighbor search. What are the tradeoffs? How to address them? Then I will cover how the Faiss library helps for these use cases, what are de design choices? I will finish by mentioning a few challenges that are not addressed yet.

何栋梁,资深算法研发工程师,百度


讲者简介:Dongliang He is a senior research and development engineer at Department of Computer Vision (VIS) Technology, Baidu Inc. He received his Bachelor and Ph.D. degree in electronic information engineering and computer science from University of Science and Technology of China in 2012 and 2017, respectively. Currently, his research interests focus on visual understanding and multi-media processing.
报告题目:解耦表观与运动信息的视频自监督训练及视频文本弱监督预训练方法
报告摘要:
Video representation learning is of vital importance for various video understanding applications, such as video recognition, video retrieval and cross-modal matching. It has become one of the most popular computer vision tasks in both academia and industry. In this talk, I will first briefly introduce some background of contrastive or mask-then-predict self-supervised representation learning methods as well as the currently prevalent vision-language pre-training. Based on it, self-supervised video representation and video-text pre-training R&D work conducted in Baidu will be described. Finally, we will come to the conclusion that video representation learning benefits from disentanged appearance-motion self-training and large-scale video-text pre-training.

Harsha Simhadri,Principal Researcher,Microsoft Research


讲者简介:Harsha Simhadri is a Principal Researcher at Microsoft Research. He enjoys developing new algorithms with a view towards future platforms and practical systems. Recent examples include algorithms for web-scale nearest-neighbor search deployed in various Microsoft search and recommendation scenarios, and new ML operators and architectures for tiny IoT and edge devices. He previously worked on parallel algorithms and run-times with provable guarantees for multi-core processors for his PhD thesis at Carnegie Mellon University.
报告题目:Approximate Nearest Neighbor Search algorithms for web-scale search and recommendation
报告摘要:
Web-scale search and recommendation scenarios increasingly use Approximate Nearest Neighbor Search (ANNS) algorithms to index and retrieve objects based on the similarity of their learnt representations in a geometric space. Since these scenarios often span billions or trillions of objects, efficient and scalable ANNS algorithms are critical to making these systems practical. However, most algorithms studied in literature either focus on million-scale datasets or do not have features necessary for practical indices, e.g., support for real-time updates.

In this talk we discuss empirical progress on this problem. Specifically, we present DiskANN, the first published external memory ANNS algorithm that can index a billion points and serve queries at interactive latencies (few milliseconds) with high recall on a commodity machine. This represents an order of magnitude more points indexed per machine than previous work. In addition, the index allows real-time updates and its in-memory performance compares well with other state of the art indices.

In collaboration with researchers from Meta, Yandex, Baidu, GSI technologies as well as IT University of Copenhagen and CMU, we organized a NeurIPS'21 challenge to encouragethe development of new algorithms and hardware for billion-scale ANN search. We will summarize the datasets released as part of this challenge and the results

Finally, we will highlight some open problems in this space -- e.g., support for hybrid queries that involve a combination of similarity search and hard matches, accurate searches for out-of-distribution queries, linearizability for updates -- and some preliminary experiments.

Based on joint work with Ravishankar Krishnaswamy, Sujas J Subramanya, Aditi Singh, Rohan Kadekodi, Devvrit, Shikhar Jaiswal, Magdalen Dobson, Siddharth Gollapudi, Neel Karia, Varun Sivasankaran.

NeurIPS'21 challenge is a collaboration with George Williams, Martin Aumüller, Artem Babenko, Dmitry Baranchuk, Qi Chen, Matthijs Douze, Lucas Hosseini, Ravishankar Krishnaswamy, Gopal Srinivasa,  Suhas Jayaram Subramanya, Jingdong Wang.


杨红霞,人工智能科学家,阿里巴巴达摩院

讲者简介:杨红霞,美国杜克大学博士,带领团队研发了AliGraph、M6、洛犀等人工智能开源平台和系统,发表顶级会议、期刊文章近100篇,美国和中国专利20余项。曾获2019年世界人工智能大会最高奖卓越人工智能引领者(Super AI Leader,简称SAIL奖),2020年国家科学技术进步奖二等奖(第三完成人)和杭州市领军型创新团队,2021年电子学会科学技术进步奖一等奖(第二完成人),2022年福布斯中国科技女性50强。曾任IBM全球研发中心Watson研究员, Yahoo!计算广告主管数据科学家,阿里巴巴达摩院人工智能科学家,浙江大学上海高等研究院兼职研究员。
报告题目:基于预训练模型与端云协同的推荐系统
报告摘要:
近年来,随着预训练技术在深度学习领域的飞速发展,超大规模模型逐渐走进人们的视野,成为人工智能领域的焦点。继OpenAI推出1750亿参数的GPT-3模型之后,预训练大模型在多项多模态、自然语言和视觉等相关下游任务表现出突出的能力,参数逐步从亿级别规模扩展到十万亿规模,在大模型、绿色/低碳AI、AI商业化、服务化等诸多方面取得突破性进展。另一方面随着移动芯片计算能力的指数级增长,智能移动设备在内容展示终端这一传统角色之外,逐渐承担起更多任务,如渲染计算,深度模型推理等。如何充分利用好移动算力,由云计算走向端计算,端云协同提供服务是大型互联网服务的热门探索方向之一。

在探索预训练模型与端云协同分布式机器学习推荐系统过程中,我们首次归纳并开创了五种服务建构,包括云端单独建模,端侧单独建模,端云联合&云侧为中心的建模(如联邦学习),端云联合&端侧为中心的建模,和端云一体协同建模与推理。通过充分利用端侧模型高频的调用、端上细粒度特征感知,端云协同方式能够有效提高端侧模型的新鲜度和实时性,从而大幅增强系统离线&在线服务效率指标。基于定义的端云协同架构,端+大规模预训练,实践证明该方向有着巨大的应用价值和提升空间。

孙宇,杰出研发架构师,百度,刘璟,主任研发架构师,百度


讲者简介:孙宇,百度杰出研发架构师。从事自然语言处理研究与应用十余年,主要研究领域包括语言理解、大模型、信息检索等。领导研发了知识增强文心大模型ERNIE、百度搜索引擎关键核心技术等世界领先技术,相关技术广泛应用于搜索引擎、信息流、智能音响、智能客服等产品,改善亿万网民用户体验。取得全球最大语义评测SemEval等世界冠军十余个,发表顶级学术会议论文数十篇,公开与授权国内外专利七十余项,相关论文被Paper Digest评为AAAI 2020最具影响力的AI学术论文之一。曾获国家技术发明二等奖、世界人工智能大会(WAIC)卓越人工智能引领者奖、中国电子学会科技进步一等奖、中国人工智能学会优秀科技成果奖、中国专利优秀奖、百度最高奖等奖项。


讲者简介:刘璟,百度自然语言处理部主任研发架构师。长期从事自然语言处理方向的研究和应用工作。哈尔滨工业大学博士毕业,曾任微软亚洲研究院研究员。现于百度负责问答、信息检索和可信学习相关的技术研发,支持公司的搜索、广告、智能云等核心业务。发表ACL、SIGIR等会议论文20余篇,Google Scholar引用1600余次,多次在MRQA、MSMARCO、NTCIR等国际评测中获得第一,曾任ACL、AACL问答方向领域主席。
报告题目:百度文心大模型ERNIE及在搜索中的应用
报告摘要:
近年来,基于自监督学习的预训练大模型成为人工智能新的研究热点,该技术使用统一的模型和范式解决各类AI任务,打破了传统技术对于大规模标注数据的依赖,显著提升了AI模型的效果、通用性及泛化性。2019年,百度创新性提出了知识增强大模型,显著提升了大模型学习效率、效果和可解释性,在全球权威榜单GLUE、SuperGLUE登顶榜首,在金融、通信、企业服务、互联网等行业取得广泛应用。本次报告主要分享百度在预训练大模型领域的技术研究。

本报告也会介绍基于预训练模型的端到端检索方法、相关的大规模信息检索数据集、以及端到端检索模型的训练方法,最后将讨论该方向所面临的关键挑战。

李平(Ping Li),LinkedIn(微软)公司杰出工程师(Distinguished Engineer)

讲者简介:李平(https://github.com/pltrees/) 目前是美国LinkedIn(微软)公司杰出工程师(Distinguished Engineer)和美国Rutgers大学客座教授。之前曾经是Rutgers大学计算机系和统计系两个系的终身教授。根据流行的 https://csrankings.org/#/index?mlmining&inforet&world 网站,李平是世界上最近10年研究产出最高的计算机教授之一,特别是机器学习和信息检索两个领域。加入LinkedIn公司之前,李平曾在百度公司工作,以杰出科学家(T10)加入,2018年晋升为百度T11。李平(苗族)出生于湖南邵阳城步苗族自治县,在1990年初中毕业后就读于能源部武汉电力学校工程地质与水文地质专业。李平最初的理想是成为李四光那样的卓越地质学家。李平在武汉期间广泛自学英语、数学、结构力学弹塑性力学断裂力学、计算机和数值计算(有限元等)。武汉毕业前全部自己编程完成了《广西右江水利枢纽大坝与地基的有限元应力应变分析》的项目。李平曾在大型勘测设计研究院工作,参与了建设长沙世界之窗、大亚湾核电站、大冶铁矿尾矿坝、湘西浦市古镇防护大堤等项目。李平在获得建筑结构工程专业学士学位和计算机专业学士学位后,得到沈珠江院士(岩土工程学家)和成文山老校长(结构工程学家)等教授的推荐,被美国西雅图华盛顿大学资助赴美留学。在华盛顿大学两年时间李平获得地震岩土工程专业和应用数学专业的两个硕士学位,并完成《可液化土壤本构模型、土与桩基与建筑相互作用的地震动力分析》硕士论文。从华盛顿大学毕业后,李平进入斯坦福大学继续学习并获得计算机专业硕士学位、电子工程专业硕士学位、和统计学博士学位。斯坦福大学毕业后加入康奈尔大学任教。在任教5年时间内,李平获得了美国海军杰出青年科学家奖(ONR-YIP)和美国空军杰出青年科学家奖(AFOSR-YIP),也以单个人项目负责人(single PI)获得了400万美元的研究资助(包括微软公司40万美元资助)。培养了多名博士和博士后在美国、中国和印度的大学任教。李平的研究在2010年之前较多专注排序模型(learning to rank)、树模型和boosting算法(https://github.com/pltrees/abcboost),其研究贡献了现今流行的主要树模型平台的多项基础算法包括二阶导分树公式和输入数据分箱算法。李平在树模型方面的贡献从2010年开始被研究界关注讨论 (见https://hunch.net/?p=1467深度学习学者和图灵奖获得者的讨论),让boosted树模型精度大幅度提升,成为了现今流行树模型平台的基本算法。2010年后李平专注超大规模机器学习算法、哈希算法、和近似近邻检索算法,获得过NIPS和KDD的最佳论文奖或最佳学生论文奖。最近几年,李平主要研究用深度学习、计算机视觉、和近似近邻检索在工业界做 “搜广推” (搜索、广告、推荐),同时也开展知识图谱、自然语言、隐私、联邦学习、分布式计算、理论、和AI模型安全等多个方向研究。

报告题目:Embedding Based Retrieval (EBR) and Beyond

报告摘要:(报告用中文进行,ppt用英文撰写)Candidates retrieval is a critical task in numerous industrial applications including advertising (ads), feeds, and search. I started working on related techniques when I was an intern at Microsoft Research in 2004. In this talk, I would like to share my own experience broadly related to embedding based retrieval (EBR). There are mainly three tasks in EBR: (A) High-quality embedding generation via deep neural architectures; (B) Approximate near neighbor (ANN) search for efficiently identifying candidates of top similarities; (C) Compact representations for embedding storage and distance computations. This talk will cover graph-based ANN, neural rankings, random projections and quantization, random Fourier features and quantization, smallest-K sketch, b-bit minwise hashing, consistent weighted sampling, hashing-based ANN, maximum inner product search, similarity estimation, etc.  Readers can find a recent presentation on EBR at https://www.linkedin.com/feed/update/urn:li:activity:6972533869245865984/  , which is a condensed version of this talk.


毛佳昕,助理教授,中国人民大学


讲者简介:毛佳昕,中国人民大学高瓴人工智能学院助理教授,博士生导师。主要研究方向为信息检索、网络搜索、搜索用户行为分析和机器学习。2013年和2018年获得清华大学学士和博士学位。博士毕业后曾在清华大学担任博士后研究员。已在SIGIR、TOIS、WWW、WSDM、CIKM、IJCAI、ECIR等信息检索领域顶级会议和期刊发表论文60余篇。曾获得WSDM 2022最佳论文奖、SIGIR 2020最佳论文提名奖、计算机学报五年最佳论文奖(2014-2018)、ICTIR 2019最佳短文提名奖和SIGIR 2018最佳短文提名奖。 毛佳昕现担任ACM SIGIR学生事务联合主席(Student Affairs co-Chair)、中国中文信息学会信息检索专委会委员等职务。他还曾担任SIGIR、WWW、WSDM、AAAI、CIKM等会议的程序委员会委员,以及TOIS、TKDE等杂志的审稿人。
报告题目:面向文本搜索的高效可学习的检索模型
报告摘要:
如何高效地从大规模非结构化文档集合中检索相关的文档是信息检索领域的核心问题。传统信息检索模型通过将查询和文档表示为高维空间中的稀疏向量来建模查询和文档之间的相关性,并使用倒排索引来加速检索。近年来,深度学习技术尤其是预训练语言模型技术的快速发展,研究者开始构建可学习的高效检索模型。与传统方法相比,可学习的检索模型可以有效的利用监督信息,在满足效率要求的情况下,有效提升文本搜索性能。本报告将介绍基于稀疏向量的检索模型、基于稠密向量的检索模型、检索模型和索引的训练和优化方法、及该领域研究的前沿动态和未来展望。


学术主任:王井东,百度计算机视觉首席科学家

王井东,百度计算机视觉首席科学家,负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前,曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。他的代表工作包括高分辨率神经网络(HRNet)、基于有监督的区域特征融合(DRFI)的显著目标检测及基于近邻图的大规模最近邻搜索(NGS,SPTAG)等。他曾担任过许多人工智能会议的领域主席,如 CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等。他现在是IEEE TPAMI和IJCV的编委会成员,曾是IEEE TMM和IEEE TCSVT编委会成员。因在视觉内容理解和检索领域的杰出贡献,他被遴选为国际电气电子工程师学会和国际模式识别学会会士 (IEEE/IAPR Fellow)、国际计算机协会杰出会员。

时间:2022年10月25日-27日

线下地址(疫情允许的情况下):北京•中科院计算所四层报告厅(北京市海淀区科学院南路6号)

地图中科院计算所-ADL130期举办地

线上地址:报名交费成功后,会前一周通过邮件发送线上会议号。


报名须知:

1、报名费:CCF会员2800元,非会员3600元。食宿交通费用自理。根据交费先后顺序,会员优先的原则录取,额满为止。疫情期间,根据政府疫情防控政策随时调整举办形式(线上线下同步举办、线上举办),线上线下报名注册费用相同。

2、报名截止日期:10月23日。报名请预留不会拦截外部邮件的邮箱,如qq邮箱。

3、咨询邮箱 : adl@ccf.org.cn

缴费方式:

在报名系统中在线缴费或者通过银行转账:

银行转账(支持网银、支付宝):

开户行:招商银行北京海淀支行

户名:中国计算机学会

账号:110943026510701

请务必注明:ADL131+姓名

报名缴费后,报名系统中显示缴费完成,即为报名成功。

报名方式:请选择以下两种方式之一报名:

1、扫描(识别)以下二维码报名:

ADL131报名二维码

2、点击报名链接报名:https://conf.ccf.org.cn/ADL131

读完这篇文章后,您心情如何?