文本数据增强技术

qlmx
qlmx
qlmx
54
文章
2
评论
2020年4月1日15:46:31 评论 2,504阅读1分28秒

文本数据增强技术
文本增强技术学习:链接

  • 数据类别不均衡,导致模型对于小样本类别往往处于欠拟合状态
    • 针对小样本进行数据扩充
  • 处理方式方面分为两个方面:
    • 不变语义,更改表达方式
    • 对原文进行策略调整,如同义词替换
  • 回译技术:1->2->3->1的技术
    • 对长文本支持较弱
  • EDA(Easy data augmentation):同义词替换,随机插入、随机交换和随机删除(针对非停止词),通过实验验证该方法对于小数据集效果很好
  • 非核心词替换的EDA数据增强
  • 基于上下文信息的文本增强:训练一个号的语言模型,然后去掉需要增强的文本,用该语言模型进行预测,取topk替换去掉的词。
    • 基于bert实现中科院提出的方法有一定的效果
  • 基于语言生成模型的文本增强
    • LAMBADA 首先在大量文本上进行了预训练,使模型能够捕获语言的结构,从而能产生连贯的句子。然后在不同任务的少量数据集上对模型进行微调,并使用微调后的模型生成新的句子。最后在相同的小型数据集上训练分类器,并进行过滤,保证现有的小型数据集和新生成数据集有相近的分布。
  • 将来可用的方法还有风格迁移
  • 我的微信小程序
  • 这是我的微信小程序扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin
qlmx
  • 本文由 发表于 2020年4月1日15:46:31
  • 除非特殊声明,本站文章均为原创,转载请务必保留本文链接
邓小平传读书笔记 技术杂谈

邓小平传读书笔记

读书感悟 他的名字出生父亲起的邓先圣、先生起了邓希贤,留学还有两个名字,1927年改为邓小平。 想要自己优秀,需要保持一个学习的态度,做好身边的每一件事情,让别人看到你的优秀,同时也要向优秀的人靠拢,...
乔布斯传读书笔记 技术杂谈

乔布斯传读书笔记

我们都有个有钱的邻居,叫做施乐,我闯进他们家准备偷电视的时候,发现你已经把它偷走了 致疯狂的人。他们特立独行,他们桀骜不驯,他们惹是生非,他们格格不入,他们用与众不同的眼光看待事物,他们不喜欢墨守成规...
高质量数据科学竞赛平台汇总 技术杂谈

高质量数据科学竞赛平台汇总

前言 学习过机器学习算法的小伙伴大多数都听说过“打比赛”,一些同学自己参与过一些比赛项目,从中获益匪浅。今天来详细罗列一下国内外的比赛平台,方便即时找到自己感兴趣的项目。 1. kaggle 一个比较...
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: