分论坛 > 深圳 > 新闻动态
无监督学习如何成为人工智能的下一站?
2020-08-22 阅读量:2739 小字

无监督学习是一种在没有标签的帮助下学习原始数据中的模式的学习方法,它是机器学习及人工智能领域一个非常重要的研究方向。典型的无监督学习技术包括:无监督降维如PCA、LPP,聚类如k-means、spectral clustering、NMF等,无监督表达学习如BERT、GPT等,以及深度学习中的自动编码器、无监督生成对抗学习及自监督学习等技术。典型的无监督学习任务包括:图像压缩、表达学习、文本/图像/声音/视频生成、入侵检测、欺诈检测、客户分群等。

2016年,图灵奖得主Yann LeCun 表示,未来几年的挑战是让机器学会从原始的、没有标签的数据中学习知识,即无监督学习。Yann LeCun提出,无监督学习是人工智能的下一站。2020年,图灵奖得主Geoffrey E. Hinton指出,人类无法完全依赖有监督学习的方法完成所有神经元训练,而需要更多来自于无监督学习的帮助。目前无监督学习技术备受关注,无监督表达学习技术在自然语言处理领域进展神速,OpenAI 近期发布的包含1700亿参数的GPT-3预训练模型吸引了全世界的目光;无监督图嵌入表达技术在图学习领域取得了不俗的成果;自监督学习技术在视觉领域近期也有较大的突破,Geoffrey E. Hinton 等谷歌研究者的最新研究一次就把无监督学习的指标提升了 7-10%,甚至可以媲美有监督学习的效果。但我们同时也看到,对GPT-3的质疑声一直不断,无监督学习技术在更多的领域尚待突破。无监督学习技术如何真正成为人工智能的下一站,还有大量值得探讨的问题。

2J1A2425

会场照片

2020年8月22日,CCF YOCSEF深圳分论坛携手广州分论坛主办大湾区IT创新论坛“无监督学习,如何成为人工智能的下一站?”,论坛执行主席为CCF YOCSEF深圳主席陈小军,CCF YOCSEF广州AC委员黄栋,微论坛执行主席为CCF YOCSEF深圳AC委员张天豫。本次活动由深圳大学大数据技术与应用研究所、深圳云天励飞技术股份有限公司赞助,雷锋网提供新闻支持。本次论坛设置了约40人左右的线下会场,并通过腾讯会议邀请线上观众同步参与讨论。活动吸引了超过800人扫码加入微信群参与讨论,超过1000人通过线下会场、腾讯会议及B站观看直播并参与讨论。其中,B站人气峰值超过2400,平均值约为2000。线下及线上会议观众通过“抢话筒”发言和发表文字的方式积极互动思辨,气氛热烈,直到论坛结束后,观众仍在报名微信群中继续讨论。本次活动参与人员的背景多元化,不仅有来自高校或企业的从事自然语言处理、计算机视觉、数据挖掘、金融大数据处理等众多领域的青年学者,也吸引了很多对相关领域感兴趣的学生、IT从业人员等人参加。多元化背景带来的思想碰撞,让本次活动非常精彩。

2J1A2421_副本

黄哲学致辞

首先由深圳大学大数据技术与应用研究所所长黄哲学教授致辞。黄教授是无监督学习领域的开拓者,其提出的k-modes是使用极为广泛的处理混合数据的聚类算法,早已进入教材及软件系统。他表示,本次活动的嘉宾是相关领域非常活跃并具有丰富成功的青年学者,活动内容设置很吸引人,预祝本次活动圆满成功。

2J1A2483

崔鹏报告

活动分嘉宾引导发言和互动思辨两个环节。在引导发言阶段,首先由来自清华大学计算机系的长聘副教授崔鹏以《Frontiers in Network Embedding and GCN》为题介绍了关于网络嵌入表达学习及图卷积神经网络的一些前沿研究成果,对这两种方法进行了对比和区分。他总结到,传统的网络嵌入表达学习是无监督的,而图卷积神经网络是半监督或有监督的,目前来看,两种方法各有所长,需要根据具体任务来选取合适的方法。

2J1A2514

黄民烈报告

来自清华大学计算机系的长聘副教授黄民烈以《预训练模型中的自监督学习》为题介绍了自监督学习在自然语言处理中的一些探索结果。预训练模型指的是一个已训练好的、保存下来的网络,该网络通常已在一些大型数据集上进行了训练。目前一些比较著名的预训练模型包括:计算机视觉领域的VGG16、Mask R-CNN和自然语言处理领域的BERT、GPT-3等等。预训练模型充分利用大数据和模型设计的优势,并通过设计精巧的自监督学习训练目标,在许多任务中都取得了卓越的性能。自监督学习是一种新的学习方法,可以认为是一种特殊的无监督学习方法。黄民烈总结了现有的预训练模型中自监督学习任务,并结合自身的研究成果介绍了自监督学习在自然语言处理中的应用案例。他对在NLP上使用自监督学习提出了三点总结:1)数据增强很难,2)负样本很难搜集,3)数据扰动很有效。

2J1A2567

聂飞平报告

来自西北工业大学的教授聂飞平以《最优均值鲁棒PCA和变权法优化框架》为题介绍了在在机器学习方面的一些最新研究成果。PCA是一种经典的无监督降维方法,应用非常广泛。他首先介绍了一种基于截断式损失的最优均值鲁棒PCA算法,该方法可以有效地自适应识别异常点,控制异常点比例,同时可以自适应获得数据的最优均值。为了求解截断式函数的优化问题,提出了一种变权法优化框架去解决一类通用的最小化/最大化问题,包括但不限于截断式函数优化、矩阵通用范数优化、奇异值问题优化等优化问题,具有很好的普适性。

2J1A2568

刘新旺报告

来自国防科技大学的刘新旺教授以《缺失多视图聚类算法研究》为题介绍了在缺失多视图数据聚类领域的一些研究工作。提出了矩阵范数正则化多模态聚类算法以降低冗余性和增强多样性;提出了缺失多模态分类、聚类算法以解决具有缺失模态的分类、聚类等学习问题;提出了噪声多模态分类、聚类算法以解决具有噪声模态的分类、聚类等学习问题。

11111


CCF YOCSEF深圳在线为4位引导嘉宾颁发了环保的电子感谢牌,表达了对嘉宾由衷的感谢。

2J1A2666 2_副本

线下思辨现场

在论坛的思辨环节,大家充分交流了自己对无监督学习当前发展及未来趋势的看法,并围绕三个议题展开了精彩的讨论。这三个议题分别对应于适用领域及学习偏见多模态场景安全性。同时,在每个议题开始前也特邀了1位嘉宾做进一步的引导发言,包括来自中山大学数据科学学院李冠彬副教授《无监督预训练模型在视觉理解中的应用》、中山大学数据科学学院王昌栋副教授《无监督跨模态数据对齐:多模态领域知识交互的桥梁》以及香港中文大学大学(深圳)吴保元副教授(由来自清华大学深圳国际研究生院的博士生李一鸣代讲)《如何利用无标签数据来提升模型的鲁棒性》。

112


CCF YOCSEF深圳在线为3位思辨环节特邀嘉宾颁发了环保的电子感谢牌,表达了对嘉宾由衷的感谢。

以下是对思辨环节内容的整理:

议题一:哪些领域更可能从无监督预训练模型中受益?无监督预训练模型的学习偏见如何解决?

使用无监督预训练模型的最主要领域是CV和NLP,在CV和NLP领域里面,哪些细分领域更可能从无监督预训练模型中受益呢?以及无监督预训练模型的学习偏见如何解决?从CV角度来看,刚刚提到,自监督的预训练模型在执行图像分类时最好的研究结果是,与监督预训练模型之间的Gap只有2%。但最近Facebook提出了一个最新的模型叫MoCo(动量对比学习)。研究人员发现,虽然自监督预训练模型比基于全监督的模型相差2%的gap,但在执行CV的下游任务(包括图像的分割、检测与小样本学习)时,自监督预训练模型比基于全监督的预训练模型表现更好。也就是说,虽然自监督在ImageNet的分类任务上没有表现地特别好,但它比监督模型更适合执行下游任务,普适性和鲁棒性更佳。

从NLP角度来看,更好的泛化性也存在。现在的大趋势是:如果不使用大规模的无监督学习方法,基本上研究就无法继续。在NLP领域,所有的问题都得从大规模无监督模型开始,然后基于无监督模型进行后续的任务,否则性能肯定上不去。所以结论是:NLP领域的所有研究问题基本上都会受益于无监督预训练模型,但无监督模型在实际应用系统上的表现则带有不确定性,因为涉及到许多其他方面。

从深度聚类角度来看,影响聚类性能的要素在于特征表示。但有一个问题是:在聚类的过程中,因为没有标签,所以没有办法继续对损失进行定义。在这个过程中,我们一般是先基于一个模型对输入进行初始化,然后基于性能好的autoencoder来学习聚类中心。如果聚类中心和特征同时学习,模型可能会漂移,而且不知道会漂到什么地方。所以,在预训练过程中,要先只学习一个聚类中心,然后保持中心不变,再去学特征。就相当于,在一开始,通过预训练得到一个中心,然后把这个聚类中心固定,再通过预训练来学习特征表达,最后用特征表达做聚类。 此外,无监督预训练的偏见问题产生,涉及到很多因素,比如样本没有选好。最近有研究发现,在无监督预训练中,数据并不是越多越好。要根据任务细心选择数据,使训练样本和目标样本的匹配度更高。否则的话,就算数据量达到了要求,但进行预训练之后,它的效果反而会下降。对于模型偏见,可以通过引入一个重构误差,然后用重构误差和聚类损失的折中来限制特征学习。就是说,不要为了减少损失而跑偏,最后导致聚类结果反而不好。我们可以用新知识,比如重构误差,来限制模型的学习,防止在训练过程中跑偏。

议题二:无监督学习技术如何促进多模态场景下不同领域之间知识的交互以提升性能?

真实的数据不只涉及文本,还有语音、视频等等,在这种多模态场景下,我们会思考无监督学习技术的应用。不同领域的知识一定要进行交互,只有交互才能引入其它领域的知识来提高任务的性能,那么,无监督学习技术如何促进不同领域知识之间的交互,最终提升性能呢?

无监督的跨模态数据对齐,是多种模态数据或者领域知识交互的桥梁。在多模态应用场景,进行视觉、语言处理或者更深入的将视觉与语言结合在一起的数据挖掘时,对于同一个实体或者描述同一个事件,可以从多个不同的角度,采集多模态的数据,不同的模态数据能从不同的角度刻画该实体或事件。通常的做法是融合来自多个模态的场景数据,以得到更好的结果。相关算法通常称为多视图学习和多模态学习,但挑战在于,在不同模态采集的数据不一定是对齐好的。比如视频、语音、文本、社交网络数据,它们之间可能存在一定的错配或者缺失。所以要对多模态数据进行融合,首先得判断数据之间是否已经对齐。比如多模态数据、多视图数据或者网络数据,可以通过学习数据的低秩表示,再通过互信息的方式建立一个目标函数,把不同模态、视图或网络的对应关系找出来。如果能找出来,不同模态之间的数据交互或者领域知识交互就成功了。 其实,在缺乏监督信息情况下,无监督学习对多模态数据对齐的解决相当于在无监督情况下对数据进行分类。此外,利用已经配对良好的数据进行监督预训练,比如新闻和纪录片等数据,再泛化到其它数据进行无监督的对齐也是一个很好的研究方向。更广泛地说,在弱标注数据下,通过多模态数据之间的协同训练,在性能上会有很大的促进作用。

议题三:无监督学习技术如何提升人工智能技术的模型安全性?

众所周知,深度神经网络在一般情况下性能良好,被广泛运用到各种应用中,但它其实并不鲁棒。一个典型的例子是对抗攻击,即在图片中添加一些肉眼不可觉察的噪声,就可以使得网络出现错误的判别结果。对抗攻击不仅可以对分类任务产生影响,其对所基于的DNN任务(例如分割、追踪等)都有影响,具有严重的威胁。为了应对这种问题,现在人们也开发了各种防御的方法。目前,最有效的防御方式还是对抗训练,即在训练过程中引入对抗样本要求模型对于对抗攻击有足够的鲁棒性。然而,最近的研究表明,对抗训练需要更多的数据,即当数据集的大小保持不变的时候,对抗训练在提升模型鲁棒性的同时会牺牲一些精度。那么能否用无标签的数据提升模型的鲁棒性呢?毕竟,有标签的数据获取难度比较大。这里需要解决的核心问题是损失函数,因为原始对抗训练的损失函数是有目标的。直观上来说,对抗损失要求模型在一个区域内的预测都是正确的预测,这大概可以分解为两个任务:一个是要求模型在原始样本上足够正确,另一个是要求模型在原始样本的邻域内的输出足够鲁棒(稳定)。根据把原始对抗损失替换为标准损失与鲁棒损失的方式,我们可以在鲁棒损失中引入无标签样本,同时提升模型的精度与鲁棒性。那么除了改造损失函数,还有哪些方法能够引入无标签样本?这也是值得进一步思考的问题。

当然,除了对抗训练外,也有很多别的防御方法。例如在预测前对图像先进行预处理,试图破坏甚至是去除对抗噪声。这种防御思路被称为基于预处理的防御,目前也有大量的学者在争论这种防御方式究竟是否有效。此外,基于检测类型的防御,即先通过异常检测,确定数据中是否为对抗样本,也是另一类重要的防御方法。当然,尽管深度神经网络对对抗噪声不鲁棒,但其鲁棒性也并没有想象中那么糟糕。如果数据中只是添加一些随机噪声,一般并不会影响模型的结果。

2J1A2810副本

线下参会人员合影

最终,历时长达4个小时的活动准时于5:30左右结束。通过本次活动的举办,为相关领域从业者系统地梳理了无监督学习技术在图学习、自然语言处理、计算机视觉、数据挖掘等领域的最新进展,从适用领域、多模态及安全性多个方面对无监督学习技术展开了深入的讨论,其结果对相关领域从业者具有极为重要的参考价值。

根据在微信群里做的调查,本次参加人员有48.15%是人工智能领域从业人员,其中有69.57%的人使用过无监督学习技术;85.19%的人认为无监督预训练模型有用,62.96%的人认为无监督学习技术有助于解决学习偏见问题,77.78%的人认为在多模态场景下无监督学习技术能发挥作用,59.26%的人认为无监督学习技术能提升人工智能技术的模型安全性。最终,有88.89%的人看好无监督学习技术,认为无监督学习是人工智能的下一站。相信通过本次活动的举办,会促使更多的人关注无监督学习技术,加快无监督学习技术的技术发展并推动其在更多的应用场景上取得成功。


热门动态
2022-08-25
2022年8月20日,中国计算机学会(CCF)青年计算机科技论坛(CCF ...
2022-08-16
   7月25日,由CCF主办、YOCSEF深圳承办,国家超级计算深圳中心...
2018-09-14
CCF YOCSEF深圳携手浪潮、中科曙光齐聚国家深圳超算中心,共商超...
2023-01-10
2023年1月8日14:00-20:00,CCF YOCSEF深圳第十四届学术委员会第...
2023-01-05
2022年12月11日下午15:30-18:00,中国计算机学会(CCF)青年计算...
2022-12-16
        2022年12月10日下午19:00-23:00,由中国计算机学会主办...
2022-11-17
2022年11月12日,中国计算机学会(CCF)青年计算机科技论坛(CCF...
2022-11-16
2022年11月12日上午,由中国计算机学会(CCF)主办,CCF青年计算...
2022-11-14
论坛掠影视频第37届中国计算机应用大会(CCF NCCA 2022)智慧医...
2022-11-13
2022年10月26日晚,中国计算机学会(CCF)青年计算机科技论坛(C...
2022-08-18
近年来,人工智能快速发展、赋能千行百业,催生新技术、新产品、...
2019-08-29
2019年8月25日,YOCSEF广州分论坛、深圳分论坛在广州大学城中山...
2019-06-04
2019年6月2日,YOCSEF广州分论坛、深圳分论坛在广州大学城中山大...
2019-05-24
5月24日,为期两天的“2019 CCF青年精英大会”在成都 • 西部博...
2019-01-28
CCF YOCSEF深圳成功举办第二届深圳市青少年信息学奥林匹克竞赛提...
2019-01-09
CCF YOCSEF深圳分论坛成功举办人工智能创新应用研讨会【导读】20...
2018-12-28
【导读】12月23日下午,CCF YOCSEF深圳在国家超级计算深圳中心举...
2018-11-26
CCF YOCSEF深圳联合CCF青年工作委员会成功举办CCF TALKs“大数据...
2018-11-09
CCF YOCSEF深圳联合国家超级计算深圳中心、CCF深圳成功举办“大...
2018-10-16
CCF YOCSEF 深圳成功举办“对话未来—探索无人驾驶技术”论坛解...
CCF聚焦