返回首页

联手数据库专业委员会:“无数据知识蒸馏”术语发布 | CCF术语快线

阅读量:96 2022-08-12 收藏本文

本期发布术语新词:无数据知识蒸馏(Data-free Knowledge Distillation)。


无数据知识蒸馏(Data-free Knowledge Distillation)

作者:邵仁荣,刘宇昂,张伟(华东师范大学计算机科学与技术学院)



开篇导语

本期新增术语新词:无数据知识蒸馏(data-free knowledge distillation)。无数据知识蒸馏是指在不访问数据的情况下利用现有的训练模型来发掘和提炼知识,并实现知识的迁移重用、模型压缩和隐私保护的目的。


InfoBox:

中文名:无数据知识蒸馏

英文名:Data-free Knowledge Distillation

简写:DFKD

学科:数据科学


基本简介:

背景:

随着人工智能的兴起,深度学习被广泛应用于各个研究领域并取得显著的成功,但是也面临着诸多挑战。首先,为了解决复杂的任务,模型的结构被设计的日益复杂,使得模型很难直接应用在嵌入式设备和移动设备中。其次,出于安全隐私保护的需要,用户的数据通常无法公开获取。此外,大规模数据集的传输需要占用大量的带宽,对资源产生极大的消耗。因此,无数据知识蒸馏[1,2,3]作为解决手段显得至关重要。


概述:

无数据知识蒸馏[1,2,3]是在不访问数据的情况下利用现有的训练模型来发掘和提炼知识,并实现知识的迁移重用、模型压缩和隐私保护的目的。无数据知识蒸馏作为知识蒸馏[4,5]的一种特殊形式,其模型结构在设计上也基本遵循了知识蒸馏的基本框架,即教师-学生架构。其中教师模型通常是指大型复杂的深层模型,而学生模型则是轻量级的浅层模型。在应用中,出于安全隐私和传输成本的考虑,数据往往无法直接获取。但是,对于在数据上训练完好的模型可以公开发布和获取。因此,无数据蒸馏通过利用现有模型(教师模型)来学习其中的知识(参数、分布等),将知识从现有模型迁移到另外一个轻量级的模型(学生模型)中实现模型的替代,从而实现知识迁移、模型压缩和隐私保护的目的。


常用方法:

为了从教师模型中获取知识,通常需要先构造替代样本作为模型的输入,而后优化输入样本得到和原始样本相似的分布,并在此基础上实现知识的蒸馏。常见的方法有直接噪声优化[3,6]和生成样本优化[7,8,9]。直接噪声优化是指直接将噪声样本输入到模型中,并通过教师模型中各个层中的分布信息(如激活[2],BN[6])来正则化反转出原始样本的基本分布,而后利用反转的图像作为教师和学生模型的输入实现知识蒸馏。生成样本优化是先通过生成器来生成样本而后通过同步训练[7]或对抗学习[8]来优化生成图像,并在优化的过程中实现知识的迁移。其中知识的迁移方法主要有输出层知识迁移如分布拟合(KL散度[6,7],MAE[8]),中间层知识迁移(注意力迁移[10])等。


未来发展:

跨领域:目前关于无数据知识蒸馏的研究目标主要集中在同一领域生成和迁移,对不同领域的迁移和适应的研究工作还相对较少, 因此相关研究对提升无数据模型的泛化性具有重要意义。


可解释:目前,关于无数据相关研究的可解释工作相对较少。存在的工作倾向于将教师模型作为黑盒的进行泛化边界的研究[11],这本质上是模型无关的,而对于特定于模型的内部解释工作对生成优化更有意义。


其它网络架构:无数据蒸馏目前的架构主要是基于CNNs实现的,对于如Transformer[12,13]和图结构[14]等其它网络架构的研究还相对较少。Transformer目前在CV领域的研究取得了很大的成功而目前关于DFKD[13]的研究相对有限。其次,图结构数据广泛存在现实应用中,图模型作为较为复杂的计算模型,相关的研究应该需要引起更多重视。


其它领域:目前无数据知识蒸馏的主要研究还集中在视觉领域,关于NLP领域[15,16]和推荐领域的研究还十分有限,因此相关领域的开创性工作十分具有意义。


参考文献

[1]. Liu Y, Zhang W, Wang J, et al. Data-free knowledge transfer: A survey[J]. arXiv preprint arXiv:2112.15278, 2021.
[2]. Lopes R G, Fenu S, Starner T. Data-free knowledge distillation for deep neural networks[J]. arXiv preprint arXiv:1710.07535, 2017.
[3]. Nayak G K, Mopuri K R, Shaj V, et al. Zero-shot knowledge distillation in deep networks[C]//International Conference on Machine Learning. PMLR, 2019: 4743-4751.
[4]. Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint arXiv:1503.02531, 2015, 2(7).
[5]. 邵仁荣,刘宇昂,张伟,王骏. 深度学习中知识蒸馏研究综述. 计算机学报, 45(08):1638-1673, 2022.
[6]. Yin H, Molchanov P, Alvarez J M, et al. Dreaming to distill: Data-free knowledge transfer via deepinversion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 8715-8724.
[7]. Chen H, Wang Y, Xu C, et al. Data-free learning of student networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 3514-3522.
[8]. Fang G, Song J, Shen C, et al. Data-free adversarial distillation[J]. arXiv preprint arXiv:1912.11006, 2019.
[9]. Fang G, Song J, Wang X, et al. Contrastive model inversion for data-free knowledge distillation[J]. arXiv preprint arXiv:2105.08584, 2021.
[10]. Micaelli P, Storkey A J. Zero-shot knowledge transfer via adversarial belief matching[J]. Advances in Neural Information Processing Systems, 2019, 32.
[11]. Wang Z. Zero-shot knowledge distillation from a decision-based black-box model[C]//International Conference on Machine Learning. PMLR, 2021: 10675-10685.
[12]. Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.
[13]. Chen X, Cao Q, Zhong Y, et al. DearKD: Data-Efficient Early Knowledge Distillation for Vision Transformers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 12052-12062.
[14]. Deng X, Zhang Z. Graph-free knowledge distillation for graph neural networks[C]// Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence. 2021.
[15]. Rashid A, Lioutas V, Ghaddar A, et al. Towards zero-shot knowledge distillation for natural language processing[J]. arXiv preprint arXiv:2012.15495, 2020.
[16]. Ma X, Shen Y, Fang G, et al. Adversarial self-supervised data-free distillation for text classification[J]. arXiv preprint arXiv:2010.04883, 2020.

作者介绍

微信截图_20230410120228

术语工委及术语平台介绍:

计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。


术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。


新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。

微信图片_20230410125847



计算机术语审定工作委员会

主任:

刘挺(哈尔滨工业大学)

副主任:

王昊奋(同济大学)

李国良(清华大学)

主任助理:

李一斌(上海海乂知信息科技有限公司)

执行委员:

丁军(上海海乂知信息科技有限公司)

林俊宇(中国科学院信息工程研究所)

兰艳艳(清华大学)

张伟男(哈尔滨工业大学)

640 (1)