返回首页

联手信息系统专业委员会:“提示学习”术语发布 | CCF术语快线

阅读量:129 2021-12-24 收藏本文

本期发布术语热词:提示学习(Prompt Learning)。


开篇导语:

提示学习是一种适用于低资源场景的预训练模型方法,即在零样本或少样本的场景中获得良好的任务效果。提示学习的框架也被认为是fine-tune(微调)后NLP领域的第四范式[1]。在已有的NLP研究中大多数侧重于预训练语言模型本身,让预训练模型输出适配应用任务的结果。传统的预训练模型通常是利用fine-tune模式,而融入了提示学习的新范式可以归纳为:预训练-提示-预测(Pretrain-Prompt-Predict)。


提示学习(Prompt Learning)

作者:李博涵,吴佳骏(南京航空航天大学)


InfoBox:

中文名:提示学习

外文名:Prompt Learning, Prompt-based Learning

学科:机器学习

实质:预训练模型


背景:

随着预训练模型在NLP领域发展,特别是2017年以来,研究重心逐渐从传统的有监督训练模式转移到预训练模式上。从BERT(Devlin等人,2019)开始,在下游任务中fine-tune的预训练模型已经成为NLP的主流做法。伴随着预训练模型的丰富多样化,根据下游任务微调的任务也变得更加复杂。同时,预训练模型规模的增长给硬件带来新的挑战,许多研究者也在探索更加轻量级、普适高效的方法。通过选择合适的Prompt模板,让模型的预测可以根据不同的下游任务动态调整,从而更好的完成任务。


研究概况:

在理论研究层面:

CMU学者刘鹏飞等人[1]的一篇综述文章总结了NLP中的提示学习方法,对推动提示学习研究起到了积极作用。清华大学的刘知远教授团队[2], 为了解决匹配模型的 Prompt的问题,使用大规模无标记语料库上的自监督任务对这些 token 进行预训练,提出了PPT模型。卡内基梅隆大学Jiang等人[3]提出了基于挖掘(mining-based)和基于释义(paraphrasing-based)的方法来自动生成高质量和多样化的提示,以及集成方法来组合来自不同提示的答案。Wallace等人[4]提出从单词候选集中选择词并组合成Prompts,利用梯度下降法尝试不同组合,最终生成需要的Prompts。Ben-David[5]提出了一种自回归的域适应算法PADA,该算法可生成一个唯一的Prompt,并在该Prompt条件下标注NLP任务实例。Adam Fisch[6]等人提出使用标准的自然语言生成模型构建Prompt,用以解决少样本自动Prompt生成任务。此外,Davision等人[7]在研究知识图谱补全任务时为三元组输入设计了一种模板,该模板采用双向语言模型的评分函数来决定最终的Prompt。


在实际应用层面:

清华大学孙茂松教授的THUNLP团队发布了面向prompt-learning的工具包OpenPrompt[8]。在NLP领域学术界已经出现了一系列的prompt-learning方法,这些方法都是力求在已有的传统微调框架中通过细微调整来实现prompt-learning。然而大多数方法是没有统一的范式的,在可读性和可复现性上往往效果不好。针对此类问题,OpenPrompt旨在让研究者能够轻松地部署prompt-learning框架。清华大学刘知远教授等人[9]在视觉语言方面首次将prompt用于cross-model和零样本/少样本学习视觉定位上,提出的跨模态提示调节方法(Cross-Modal Prompt Tuning, CPT)整体改进了VLM模型整体的输出效果。Yin等人[10]用表述作为适当的线索将提示学习用于文本分类任务中,解决了零样本和少样本的文本分类问题。浙江大学陈华钧教授团队[11]将知识整合到Prompt中进行关系提取,并提出了一种协同优化的知识感知Prompt方法(AdaPrompt/KnowPrompt)。


未来展望:

提示学习未来可以针对如下几个方面开展深度研究:

(1)Prompt的设计问题,目前Prompt的工作大多集中在预分类和生成任务,其他任务比较少,如何有效的将预训练任务和Prompt联系起来还是一个值得探讨的问题。
(2)Prompt的理论分析和可解释性。尽管Prompt方法在很多情况下取得了成功,但是目前相关的理论分析和保证依然很少。
(3)Prompt在预训练语言模型中消除语义偏移的应用。由于预训练语言模型在训练过程中见过大量人类世界的自然语言,因此难以避免的会受到影响。
(4)Prompt在跨模态的提示设计上进行研究,如何适用于复杂的跨模态任务也是一个值得研究的问题。


参考文献

[1] Liu P, Yuan W, Fu J, et al. Pre-train, Prompt, and predict: A systematic survey of Prompting methods in natural language processing[J]. arXiv preprint arXiv:2107.13586, 2021.
[2] Gu Y, Xu H, Liu Z, et al. PPT: Pre-trained Prompt Tuning for Few-shot Learning. arXiv preprint arXiv:2109.04332, 2021.
[3]Jiang Z, Xu F F, Araki J, et al. How can we know what language models know?[J]. Transactions of the Association for Computational Linguistics, 2020, 8: 423-438.
[4] Wallace E, Feng S, Kandpal N, et al. Universal adversarial triggers for attacking and analyzing NLP[J]. arXiv preprint arXiv:1908.07125, 2019.
[5] Ben-David E, Oved N, Reichart R. PADA: A Prompt-based Autoregressive Approach for Adaptation to Unseen Domains[J]. arXiv preprint arXiv:2102.12206, 2021.
[6] Gao T, Fisch A, Chen D. Making pre-trained language models better few-shot learners[J]. arXiv preprint arXiv:2012.15723, 2020.
[7] Davison J, Feldman J, Rush A M. Commonsense knowledge mining from pretrained models[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 1173-1178.
[8] Ding N, Hu S, and Zhao, W, et al. OpenPrompt: An Open-source Framework for Prompt-learning. arXiv preprint arXiv:2111.01998, 2021.
[9] Yao Y, Zhang A, Zhang Z, et al, CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models[J]. arXiv preprint arXiv:2109.11797, 2021.
[10] Yin W, Hay J, and Roth D. Benchmarking zero-shot text classification: Datasets, evaluation and entailment approach. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, EMNLP IJCNLP 2019, Hong Kong, China, November 3-7, 2019, pages 3912–3921. Association for Computational Linguistics.
[11] Chen X, Xie X, Zhang N, Yan J, et al. Adaprompt: Adaptive prompt-based finetuning for relation extraction. CoRR, abs/2104.07650, 2021.

术语工委及术语平台介绍:

计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。


术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。


新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。

微信图片_20230410125847