论文阅读-FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based

青葱年少 • 2022年3月15日下午5:38 • 技术文章 • 阅读 645

来源：爱奇艺 EMNLP2019 Workshop

论文：https://aclanthology.org/D19-5522.pdf

代码：GitHub – iqiyi/FASPell: 2019-SOTA简繁中文拼写检查工具：FASPell Chinese Spell Checker (Chinese Spell Check / 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)

内容

模型结构

1. 基于bert掩码语言模型的微调

2. 基于汉字相似度的解码器

汉字相似度

实验结果

Table of Contents

模型结构

1. 基于bert掩码语言模型的微调

利用训练语料（错误-正确句子对），微调bert

对于无错误的句子和bert一样构造数据，即选出15%的tokens预测，80%用[Mask]替换，10%用保持不变，10%用随机token替换
对于有错误的句子，有错误的位置为需要预测的位置，标签是对应正确的token；为了防止过拟合，另外再选择相同数量的无错的位置进行预测。

2. 基于汉字相似度的解码器

汉字相似度

字形相似度（与使用中文图片相比，以下方法考虑了笔顺、汉字结构等）。考虑到复杂性，这里只使用序列信息，不使用树结构信息（kanji データベースプロジェクト）

发音相似度： 1减去标准化的拼音编辑距离

在解码阶段，原有的方法是对多个特征设置不同的权重。论文同时利用bert预测的置信度和汉字之间的相似度进行解码。

首先基于训练集绘制原字-候选字相似度和bert置信度的散点图，画出能将检测错误，纠正错误与纠正正确分开的曲线。

横坐标是bert的置信度，纵坐标是汉字的相似度

最终的选择是基于这条曲线。

这个曲线是要手工调整的，其实就是在解码的时候，综合考虑字的相似度以及bert预测的输出概率

可以实现在召回率损失小的基础上提高准确率

实验结果

——FT代表去掉微调

——CSD代表去掉基于汉字相似度的解码器

文章出处登录后可见！

已经登录？立即刷新

NLP 中文纠错字形相似度拼音相似度论文阅读错别字纠正

赞 (0)

青葱年少普通用户

0

机器学习第1章绪论

上一篇 2022年3月15日

特征工程：特征提取简介（附案例）

下一篇 2022年3月15日

21Dak攻击：计算机顶会PLDI‘23 针对语义依附代码模型的对抗攻击方法：Destroyer篡改输入程序，Finder寻找关键特征，Merger关键特征注入【网安AIGC专题11.22】 2023年12月19日
NLP自然语言处理的发展：从初创到人工智能的里程碑 2024年2月19日
23REPEAT方法：软工顶会ICSE ‘23 大模型在代码智能领域持续学习代表性样本重放（选择信息丰富且多样化的示例） + 基于可塑权重巩固EWC的自适应参数正则化【网安AIGC专题11.22】 2024年1月11日
斯坦福NLP课程 | 第17讲 – 多任务学习（以问答系统为例） 2022年5月11日
【论文阅读笔记】医学多模态新数据集-Large-scale Long-tailed Disease Diagnosis on Radiology Images 2024年4月16日
基于LLAMA-7B的lora中文指令微调 2023年12月29日
人工智能与大数据面试指南——自然语言处理（NLP） 2023年7月6日
【论文阅读】深度强化学习的攻防与安全性分析综述 2022年10月8日
【修改huggingface transformers默认缓存文件夹】 2023年2月25日
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总 2023年12月4日
AIGC之GPT-4：GPT-4的简介(核心原理/意义/亮点/技术点/缺点/使用建议)、使用方法、案例应用(计算能力/代码能力/看图能力等)之详细攻略 2023年4月5日
22.6.7成功使用doc2vec模型生成嵌入向量 2022年6月8日
火遍全球的ChatGPT技术简介与主干网络代码 2023年3月4日
监督学习、半监督学习、无监督学习、自监督学习、强化学习和对比学习 2023年8月9日
YOLOX 论文阅读（第一篇） 2022年4月10日
用一张图说一说 ChatGPT 内部技术工作流程 2023年2月20日

此站出售，如需请站内私信或者邮箱！