论文阅读-FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based

来源:爱奇艺 EMNLP2019 Workshop

论文:https://aclanthology.org/D19-5522.pdf

代码:GitHub – iqiyi/FASPell: 2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker (Chinese Spell Check / 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)

内容

模型结构

1. 基于bert掩码语言模型的微调

2. 基于汉字相似度的解码器

汉字相似度

实验结果

模型结构

论文阅读-FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based

1. 基于bert掩码语言模型的微调

利用训练语料(错误-正确句子对),微调bert

  • 对于无错误的句子和bert一样构造数据,即选出15%的tokens预测,80%用[Mask]替换,10%用保持不变,10%用随机token替换
  • 对于有错误的句子,有错误的位置为需要预测的位置,标签是对应正确的token;为了防止过拟合,另外再选择相同数量的无错的位置进行预测。

2. 基于汉字相似度的解码器

汉字相似度

字形相似度(与使用中文图片相比,以下方法考虑了笔顺、汉字结构等)。考虑到复杂性,这里只使用序列信息,不使用树结构信息(kanji データベースプロジェクト)

论文阅读-FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based

发音相似度: 1减去标准化的拼音编辑距离

在解码阶段,原有的方法是对多个特征设置不同的权重。论文同时利用bert预测的置信度和汉字之间的相似度进行解码。

首先基于训练集绘制原字-候选字相似度和bert置信度的散点图,画出能将检测错误,纠正错误与纠正正确分开的曲线。

横坐标是bert的置信度,纵坐标是汉字的相似度

最终的选择是基于这条曲线。

这个曲线是要手工调整的,其实就是在解码的时候,综合考虑字的相似度以及bert预测的输出概率

论文阅读-FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based

可以实现在召回率损失小的基础上提高准确率

实验结果

论文阅读-FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based

——FT代表去掉微调

——CSD代表去掉基于汉字相似度的解码器

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
青葱年少的头像青葱年少普通用户
上一篇 2022年3月15日
下一篇 2022年3月15日

相关推荐