
联手自然语言处理专业委员会:"小样本文本分类"术语发布 | CCF术语快线

2022-02-25

本期发布术语热词:小样本文本分类(Few-shot text classification)


本期发布术语热词:小样本文本分类(Few-shot text classification)。小样本文本分类专注于处理仅包含少量标注数据的文本分类任务,它是小样本学习的经典应用领域。

小样本文本分类(Few-shot text classification)




外文名:Few-shot text classification







小样本学习的核心问题,是少量标注数据无法获得可靠的经验风险最小化(empirical risk minimization)的模型[3]。因此,除了少量标注数据,小样本学习需要借助先验知识(prior knowledge),即指『任何学习者在看到训练数据前就已知的信息』。根据使用先验知识改变了学习的哪个阶段,现有的小样本文本分类方法可以分成以下三类(图1):

640 (1)

图 1 小样本文本分类方法分类



算法:先验知识被用来指导如何在假设空间中搜索最合适假设的参数,如从何处开始搜(学习参数的初始值),以及往哪个方向以什么速度搜(学习优化器)。模型一般通过(随机)梯度下降来优化参数。若标记样本有限,一方面优化迭代次数受限无法收敛到合适的值,另一方面也很容易使模型过拟合。在小样本文本分类任务上,这类技术又可细分为两种:精炼来自其他任务的参数和精炼元学习(meta learning)的参数。精炼来自其他任务的参数主要研究如何将训练自大语料无标注数据的预训练语言模型如BERT[9]、ERNIE[10]等用于当前小样本文本分类任务,如设计有效的模型微调技术(fine-tuning)[11]。特别的,提示学习技术(prompt-based learning)[12]是当前研究的热点方向。它将文本分类任务重构成预训练模型的训练任务,从而使得模型预训练和微调阶段的目标函数更匹配,在包括小样本文本分类在内的一系列自然语言处理任务上展现了有效性[13,14]。精炼元学习的参数则通过元学习从大量相关任务中捕捉通用信息,由元学习器为每个任务提供参数初始值,并通过提供的少量标注数据来微调参数来融入新任务的特有信息[15]。







