ADL131《向量学习与搜索》开始报名
CCF学科前沿讲习班
CCF学科前沿讲习班
The CCF Advanced Disciplines Lectures
CCFADL第131期
主题 向量学习与搜索
2023年8月4日-6日 北京
本期CCF学科前沿讲习班ADL131《向量学习与搜索》,将对向量学习与检索的最新进展进行深入浅出的讲解,从自然语言自监督和搜索预训练、视觉预训练、基于哈希与量化的向量搜索技术、大规模向量搜索系统、大规模向量数据库等不同应用领域视角为听众介绍向量学习与搜索的关键技术和前沿研究。相信学员经过本次讲习班,能够深入了解向量学习与搜索的基础技术、主要挑战和应用场景,开阔科研视野,增强实践能力。
本期ADL讲习班邀请了9位来自国内外著名高校与企业科研机构活跃在前沿领域的专家学者做主题报告。第一天李平博士介绍在向量数据库和大模型方向多年特别是近年的研究,包括向量快速检索和排序算法、从向量检索到快速神经网络搜索、大模型训练算法和平台等;李飞飞博士介绍在云原生向量数据库里的挑战与机遇;Matthijs Douze博士讲解相似性搜索和Faiss库。第二天,赵鑫教授和毛佳昕教授讲授基于预训练语言模型的稠密文本检索技术和面向文本搜索的高效可学习的检索模型;郭人通博士讲解向量数据库的应用、技术、挑战。第三天,Harsha Simhadri研究员介绍用于Web规模搜索和推荐的近似最近邻搜索算法;肖斌研究员讲解计算机视觉的新基础模型;陈琪研究员详细讲解向量搜索和向量数据库。通过三天教学,旨在带领学员实现对向量学习与搜索从基础技术,到前沿科研动态,再到典型应用场景的深入学习与思考。
学术主任:王井东 百度公司/张婷 微软亚洲研究院
主办单位:中国计算机学会
本期ADL主题«向量学习与搜索»,由百度计算机视觉首席科学家王井东、微软亚洲研究院主管研究员张婷担任学术主任,邀请到李平(杰出工程师,LinkedIn)、 李飞飞(阿里云数据库产品事业部负责人)、Matthijs Douze(Research Scientist,FAIR lab)、赵鑫(教授,中国人民大学)、毛佳昕(助理教授,中国人民大学)、郭人通(Zilliz合伙人兼产品总监)、Harsha Simhadri(首席研究员,Microsoft Research)、肖斌(首席研究员,微软Azure)、陈琪(首席研究员,微软亚洲研究院)等9位专家做专题讲座。
活动日程: 2023年8月4日(周五) 9:00-9:10 开班仪式 9:10-9:20 全体合影 9:20-12:20 专题讲座1:向量数据库和大模型 李平,杰出工程师,LinkedIn 13:30-15:00 专题讲座2:云原生向量数据库: 挑战与机遇 李飞飞,阿里云数据库产品事业部负责人 15:00-16:30 专题讲座3:Similarity search and the Faiss library Matthijs Douze,Research Scientist,FAIR lab 2023年8月5日(周六) 8:30-12:30 专题讲座4:基于预训练语言模型的文本检索 赵鑫,教授,中国人民大学 毛佳昕,助理教授,中国人民大学 13:30-15:30 专题讲座5:向量数据库的应用、技术、挑战 郭人通,Zilliz合伙人兼产品总监 2023年8月6日(周日) 9:00-10:30 专题讲座6:Approximate Nearest Neighbor Search algorithms for web-scale search and recommendation Harsha Simhadri,Principal Researcher,Microsoft Research 10:30-12:00 专题讲座7: A New Foundation Model for Computer Vision 肖斌, 首席研究员, 微软Azure 13:00-14:30 专题讲座8:Vector Search and Vector Database 陈琪,首席研究员,微软亚洲研究院 14:30-16:00 Panel 特邀讲者 李平(Ping Li) 微软LinkedIn公司杰出工程师(Distinguished Engineer) 讲者简介:李平,美国微软LinkedIn公司杰出工程师(Distinguished Engineer)、美国Rutgers大学客座教授。在斯坦福大学博士毕业后加入康奈尔大学任教,期间获得了美国海军杰出青年科学家奖(ONR-YIP)和美国空军杰出青年科学家奖(AFOSR-YIP)。加入微软LinkedIn公司之前,曾在百度公司工作。在2010年之前,较多专注向量数据压缩和检索算法、排序模型(learning to rank)、树模型和boosting算法的研究,其研究贡献了现今流行的主要树模型平台的多项基础算法包括二阶导分树公式和输入数据分箱算法,让boosted树模型精度大幅度提升,成为了现今流行树模型平台的基本算法。2010年后,专注大模型和向量数据库的基础算法,包括近似近邻检索、快速神经网络排序搜索、超大规模机器学习、分布式计算、哈希算法、差分隐私、联邦学习、自然语言和知识图谱、AI模型安全等。获得过NeurIPS、KDD、ASONAM、SIGIR、ICDM等会议的的最佳论文奖或最佳论文奖荣誉提名。最近几年,主要研究用大语言模型、大规模深度学习、视觉、知识图谱、近似近邻检索等在工业界做 “搜广推” (搜索、广告、推荐)。 报告题目:向量数据库和大模型,Vector Database and Big Models 报告摘要:介绍在向量数据库和大模型方向的研究:(A)向量压缩和量化算法;(B)向量快速检索和排序算法;(C)向量隐私保护算法;(D)向量相似度研究;(E)从向量检索到快速神经网络搜索;(F)大模型训练算法和平台;(G)深度神经网络高效训练;(H)分布式计算和自适应算法;(I)联邦学习。 李飞飞 阿里云数据库产品事业部负责人 讲者简介:李飞飞,ACM Fellow, CCF Fellow, IEEE Fellow。阿里云数据库产品事业部负责人。曾获ACM SIGMOD 2023最佳论文奖,EDBT 2022 Test-of-Time Award,IEEE ICDCS 2020最佳论文奖,ACM SoCC 2019最佳论文奖runner up,IEEE ICDE 2014十年最有影响力论文奖,ACM SIGMOD 2016最佳论文奖、ACM SIGMOD 2015最佳系统演示奖、世界互联网大会2019全球领先科技成果奖、浙江省科技进步一等奖、中国电子学会科技进步一等奖等。担任多个国际及国内一流学术期刊和学术会议的编委、主席,中国计算机学会CCF大数据专家委员会副主任,数据库专业委员会常委。带领团队研发了以云原生数据库PolarDB为核心的云数据库系统,实现了中国数据库市场份额第一,作为国内唯一数据库厂商连续3次进入Gartner全球云数据库市场分析报告领导者象限。 报告题目:云原生向量数据库: 挑战与机遇 报告摘要:在云计算时代,云原生分布式数据库因其弹性扩展、高可用、分布式等特性而获得了大量应用。数据库系统在快速的向云原生化、平台化、一体化、智能化的四化方向演进。随着大模型的快速发展和应用,海量向量数据的高效处理成为一个核心挑战,在面向retrieval plugin、私域数据(知识库)embedding等方向上有广阔的应用。如何提供一站式一体化的向量数据库能力,提供多维度融合智能查询和搜索面临很多关键挑战和机遇。报告将介绍云原生向量数据库的关键技术和进展,以及云原生数据系统和大模型结合的展望。 Matthijs Douze Research Scientist,FAIR lab 讲者简介:Matthijs Douze, 自2015年11月起在巴黎Facebook人工智能研究实验室(FAIR)担任研究科学家。在Facebook,他致力于大规模索引(参见Faiss库)、图形机器学习以及图像和视频的相似性搜索。他在ENSEEIHT工程学院获得硕士学位,并于2004年在图卢兹大学获得博士学位。从2005年至2015年,Matthijs加入了INRIA格勒诺布尔的LEAR团队,他在多个领域进行了研究,包括图像索引、大规模向量索引、视频中的事件识别和类似视频搜索。在2010年至2015年期间,他还管理着INRIA的大型3D动作捕捉工作室Kinovis,并开发了用于构造实体几何操作的高性能几何算法。除了FAIR的一般研究主题外,Matthijs对处理图像并生成图形结果的高效算法也感兴趣。 报告题目:Similarity search and the Faiss library 报告摘要:在这次演讲中,我将涵盖近似最近邻搜索。有哪些权衡取舍?如何解决这些问题?然后我将介绍Faiss库如何在这些用例中发挥作用,设计选择有哪些?最后,我将提到一些尚未解决的挑战。 赵鑫 教授,中国人民大学 讲者简介:赵鑫,现为中国人民大学高瓴人工智能学院教授。2014年7月于北京大学获得博士学位,随后进入中国人民大学工作至今。研究领域为信息检索与自然语言处理,共计发表论文100余篇,谷歌学术引用1万余次,曾主导研发了伯乐(推荐系统库RecBole)、妙笔(文本生成库TextBox)等开源工具。荣获2020年吴文俊人工智能优秀青年奖、ECIR 2021时间检验奖(Test of Time Award)、RecSys 2022最佳学生论文提名(Best student paper runner-up)、CIKM 2022最佳资源论文提名(Best resource paper runnerup)等,入选中国科协青年人才托举工程、北京智源青年科学家、CCF-IEEE CS青年科学家。 毛佳昕 助理教授,中国人民大学 讲者简介:毛佳昕,中国人民大学高瓴人工智能学院助理教授,博士生导师。主要研究方向为信息检索、网络搜索、搜索用户行为分析和机器学习。2013年和2018年获得清华大学学士和博士学位。博士毕业后曾在清华大学担任博士后研究员。已在SIGIR、TOIS、WWW、WSDM、CIKM、IJCAI、ECIR等信息检索领域顶级会议和期刊发表论文60余篇。曾获得WSDM 2022最佳论文奖、SIGIR 2020最佳论文提名奖、计算机学报五年最佳论文奖(2014-2018)、ICTIR 2019最佳短文提名奖和SIGIR 2018最佳短文提名奖。毛佳昕现担任ACM SIGIR学生事务联合主席(Student Affairs co-Chair)、中国中文信息学会信息检索专委会委员等职务。他还曾担任SIGIR、WWW、WSDM、AAAI、CIKM等会议的程序委员会委员,以及TOIS、TKDE、JASIST等杂志的审稿人。 报告题目:基于预训练语言模型的文本检索 报告摘要:信息检索是一个重要的研究领域,已经成为很多工业界应用的基础技术之一。最近十年,深度学习技术和以BERT、GPT为代表的预训练语言模型给信息检索领域的研究和实践带来了新的发展机会。本次报告将围绕预训练语言模型在文本检索中的研究展开,报告分为以下三部分:1)文本信息检索基础:首先介绍信息检索的背景和文本检索任务,经典的向量空间检索模型和倒排索引,以及基于神经网络的检索模型等相关工作。2)基于预训练语言模型的稠密文本检索:围绕预训练语言模型在文本检索中的研究展开,重点介绍如何基于预训练语言模型搭建稠密文本检索系统,包括优化框架、负例选择、表示增强等关键技术。3)进阶话题和未来展望:介绍稠密文本检索的索引优化、大语言模型在文本检索任务上的应用等相关领域的前沿研究工作,并对未来研究工作进行展望。 郭人通 Zilliz合伙人兼产品总监 讲者简介:郭人通,是Zilliz 的合伙人兼产品总监,他专注于开发以 AI 为中心的数据分析基础软件与系统。他是 Milvus 项目的系统架构师和 PMC成员,以及Towhee 项目的创始人,目前是 Zilliz 的产品负责人。他毕业于华中科技大学,获得计算机软件与理论博士学位。他的研究成果曾发表于SIGMOD,VLDB,USENIX ATC,ICS,IEEE TPDS等国际顶级会议和期刊。 报告题目:向量数据库的应用、技术、挑战 报告摘要:目前AIGC技术生态已经开始从模型扩散到基础软件,向量数据库,作为链接AI模型与海量非结构化数据的桥梁,正发挥越来越重要的作用。本次分享将介绍向量数据库基础、相关应用、向量数据库系统架构、 LLM + VectorDB + Prompt架构,以及向量数据库如何为大模型赋能。 Harsha Simhadri Principal Researcher,Microsoft Research 讲者简介:Harsha Simhadri,微软研究院的首席研究员。他喜欢开发面向未来平台和实际系统的新算法。最近的例子包括应用于微软各种搜索和推荐场景的大规模最近邻搜索算法,以及用于微小物联网和边缘设备的新机器学习运算符和架构。在卡内基梅隆大学攻读博士学位期间,他曾研究具有可证明保证的多核处理器的并行算法和运行时系统。 报告题目:Approximate Nearest Neighbor Search algorithms for web-scale search and recommendation 报告摘要:Web规模的搜索和推荐场景越来越多地使用近似最近邻搜索(ANNS)算法,根据对象在几何空间中的学习表示的相似性来索引和检索对象。由于这些场景通常涉及数十亿甚至数万亿的对象,高效可扩展的ANNS算法对于使这些系统变得实用至关重要。然而,大部分文献中研究的算法要么仅关注百万级数据集,要么没有实际索引所需的特性,例如对实时更新的支持。在本次演讲中,我们将讨论在这个问题上的实证进展。具体而言,我们将介绍DiskANN,这是第一个能够在商用机器上索引十亿数据点并以交互延迟(几毫秒)高召回率提供查询的外部内存ANNS算法。这相当于每台机器索引的数据点数量比以前的工作增加了一个数量级。此外,该索引允许实时更新,并且其内存性能与其他最先进的索引相当。与Meta、Yandex、Baidu、GSI技术以及哥本哈根IT大学和卡内基梅隆大学的研究人员合作,我们组织了NeurIPS'21挑战赛,以鼓励开发面向十亿规模ANN搜索的新算法和硬件。我们将总结作为该挑战的一部分发布的数据集和结果。最后,我们将强调这个领域中一些未解决的问题,例如支持涉及相似性搜索和硬匹配组合的混合查询,对于超出分布范围的查询的准确搜索,以及更新的线性化等,并介绍一些初步实验。本工作与Ravishankar Krishnaswamy、Sujas J Subramanya、Aditi Singh、Rohan Kadekodi、Devvrit、Shikhar Jaiswal、Magdalen Dobson、Siddharth Gollapudi、Neel Karia、Varun Sivasankaran共同完成。NeurIPS'21挑战赛与George Williams、Martin Aumüller、Artem Babenko、Dmitry Baranchuk、Qi Chen、Matthijs Douze、Lucas Hosseini、Ravishankar Krishnaswamy、Gopal Srinivasa、Suhas Jayaram Subramanya、Jingdong Wang合作进行。 肖斌 首席研究员,微软Azure 讲者简介:肖斌,微软Azure计算机视觉研究组的首席研究员。他对尖端技术充满热情,并在多个领域专注于视觉与语言基础模型训练、神经网络架构设计、人体姿态估计和物体检测等方面。目前,他的研究重点是计算机视觉领域的大规模基础模型预训练以及图像/文本多模态学习技术的发展。值得注意的是,Bin负责建立微软最大的计算机视觉基础模型(Florence)项目。他的其他重要工作包括DaViT、CvT、UniCL、HRNet等。他的有影响力的工作对推进Azure认知服务、革新各种应用具有重要意义。 报告题目:A New Foundation Model for Computer Vision 报告摘要:自动化地理解我们多样化且开放的世界需要能够有效泛化并对特定任务进行最小定制化的计算机视觉模型,类似于人类视觉。计算机视觉领域的基础模型在这个使命中起着关键作用,它们通过在大规模多样化的数据集上进行训练,并能够适应广泛的下游任务。我们介绍了一种新的计算机视觉基础模型,名为Florence。Florence扩展了表示范围,从粗糙(场景)到细粒度(物体),从静态(图像)到动态(视频),从RGB到多种模态(字幕)。通过将来自Web规模图像-文本数据的通用视觉语言表示纳入其中,Florence模型可以轻松适应各种计算机视觉任务,包括分类、检索、物体检测、VQA、图像描述、视频检索和动作识别。此外,Florence在不同类型的迁移学习场景中展现出优秀的性能:完全采样微调、线性探测、少样本迁移和对于新图像和物体的零样本迁移。 陈琪 首席研究员,微软亚洲研究院 讲者简介:陈琪,微软亚洲研究院系统研究组的首席研究员。她于2010年和2016年在北京大学获得计算机科学学士学位和博士学位,在那里与导师肖臻教授一起从事分布式系统、云计算和并行计算的研究。2013年至2014年,她作为访问学生在纽约大学的系统组中,在李金扬教授的指导下从事分布式数组框架的研究。她在顶级会议和期刊上发表了20多篇论文,其中一些论文获得了重要奖项,如OSDI最佳论文奖和NeurIPS杰出论文奖。她目前的研究兴趣包括分布式系统、云计算和深度学习算法和框架。 报告题目:Vector Search and Vector Database 报告摘要:近年来深度学习的最新进展使得各种类型的数据都能被映射为高维向量。目前最先进的向量搜索库主要关注如何在内存中进行快速高召回率的搜索。然而,在极大规模的向量搜索场景中存在一些挑战。例如,数百亿个向量与有限的内存结合在一起会导致容量问题。同时,扩展性也是一个问题,增加服务机器的数量会增加查询延迟和计算成本。此外,高维向量索引不具备单调性,而单调性是传统索引的一个关键属性。缺乏单调性使得现有的向量系统不得不依赖于保持单调性的临时索引,用于目标向量的TopK最近邻,以便实现近似相似性搜索和关系运算的复杂查询。这导致了性能的下降,因为很难预测最优的K值。在本次演讲中,我们介绍了SPANN,一个分布式基于磁盘的ANNS系统,已经集成到Bing中,可以实现数百亿规模的向量搜索,并以毫秒级的响应时间。此外,我们还介绍了VBASE,一个向量数据库系统,它能有效处理基于一种称为放松单调性的共同属性的复杂查询。这种方法将两个看似不兼容的系统统一起来,提供了比现有最先进的向量系统高出三个数量级的性能。 学术主任 王井东 王井东,百度计算机视觉首席科学家,负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前,曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。他的代表工作包括高分辨率神经网络(HRNet)、基于有监督的区域特征融合(DRFI)的显著目标检测及基于近邻图的大规模最近邻搜索(NGS,SPTAG)等。他曾担任过许多人工智能会议的领域主席,如CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等。他现在是IEEE TPAMI和IJCV的编委会成员,曾是IEEE TMM和IEEE TCSVT编委会成员。因在视觉内容理解和检索领域的杰出贡献,他被遴选为国际电气电子工程师学会和国际模式识别学会会士(IEEE/IAPR Fellow)、国际计算机协会杰出会员。 张婷 张婷,微软亚洲研究院主管研究员,2012年进入中国科学技术大学-微软亚洲研究院联合培养博士项目,2017年毕业后加入微软亚洲研究院,现为视觉计算组主管研究员,2015年曾获得微软学者奖学金。研究兴趣包括计算机视觉以及机器学习。研究问题包括多媒体搜索,神经网络结构设计,模型预训练,视觉内容生成等。先后在ICML,CVPR,ICCV等顶级学术会议上发表多篇论文。 时间:2023年8月4日-6日 地址:北京•中科院计算所一层报告厅(北京市海淀区中关村科学院南路6号) 乘坐北京地铁10号线到“知春里站”下车出A口,步行10分钟即到。 报名须知: 1、报名费:CCF会员2800元,非会员3600元。食宿交通(费用)自理。根据交费先后顺序,会员优先的原则录取,额满为止。应部分学员的要求,本期ADL线上同步举办,线上线下报名注册费用相同。线上会议室号和密码将在会前3天通过邮件发送。 2、报名截止日期:8月1日。报名请预留不会拦截外部邮件的邮箱,如qq邮箱。会前1天将通过邮件发送会议注意事项和微信群二维码。 3、咨询邮箱 : adl@ccf.org.cn 缴费方式: 在报名系统中在线缴费或者通过银行转账: 银行转账(支持网银、支付宝): 开户行:招商银行北京海淀支行 户名:中国计算机学会 账号:110943026510701 公对公银行转账,请务必注明:ADL131+姓名 报名缴费后,报名系统中显示缴费完成,即为报名成功,不再另行通知。 报名方式: 请选择以下两种方式之一报名: 1、扫描(识别)以下二维码报名: 2、复制以下链接到浏览器,搜索到报名页面,点击“立即报名”进行报名: https://conf.ccf.org.cn/ADL131
相关阅读:ADL141《算网融合》开始报名
所有评论仅代表网友意见