文本增强技术学习:链接
- 数据类别不均衡,导致模型对于小样本类别往往处于欠拟合状态
- 针对小样本进行数据扩充
- 处理方式方面分为两个方面:
- 不变语义,更改表达方式
- 对原文进行策略调整,如同义词替换
- 回译技术:1->2->3->1的技术
- 对长文本支持较弱
- EDA(Easy data augmentation):同义词替换,随机插入、随机交换和随机删除(针对非停止词),通过实验验证该方法对于小数据集效果很好
- 非核心词替换的EDA数据增强
- 基于上下文信息的文本增强:训练一个号的语言模型,然后去掉需要增强的文本,用该语言模型进行预测,取topk替换去掉的词。
- 基于bert实现中科院提出的方法有一定的效果
- 基于语言生成模型的文本增强
- LAMBADA 首先在大量文本上进行了预训练,使模型能够捕获语言的结构,从而能产生连贯的句子。然后在不同任务的少量数据集上对模型进行微调,并使用微调后的模型生成新的句子。最后在相同的小型数据集上训练分类器,并进行过滤,保证现有的小型数据集和新生成数据集有相近的分布。
- 将来可用的方法还有风格迁移
- 我的微信小程序
- 这是我的微信小程序扫一扫
-
- 我的微信公众号
- 我的微信公众号扫一扫
-
评论