站点图标 AI技术聚合

常用数据集

机器翻译任务

1、机器翻译

WMT系列:WMT2017WMT2018WMT2019。数据主要来源于 Europarl corpus和UN corpus两个机构, 附带从News Commentary corpus 任务中重新抽取的文章。 这是由EMNLP会议提供的翻译语料, 作为很多论文效果 的benchmark来检测。

Ai challenger translation 2017(https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA 提取码: stjf):规模最大的口语领域英中双语对照数据集。 提供了超过1000万的英中对照的句子对作为数据集合。 所有双语句对经过人工检查, 数据集从规模、相关度、质量上都有保障。 训练集:10,000,000 句 验证集(同声传译):934 句 验证集(文本翻译):8000 句。

UM-Corpus:A Large English-Chinese Parallel Corpus:由澳门大学发布的 中英文对照的 高质量翻译语料。

MultiUN:该数据集由德国人工智能研究中心提供, 除此数据集外,该网站还提供了很多的别 的语言之间的翻译对照语料供下载。

NIST 2002 Open Machine Translation (OpenMT) Evaluation:数据来源于Xinhua 新闻服务包含70个新闻故事, 以及来自于Zaobao新闻服务的30个新闻故事,共100个 从两个新闻集中选择出来的故事的长度都再212到707个 中文字符之间,Xinhua部分共有有25247个字符, Zaobao有39256个字符。

The Multitarget TED Talks Task (MTTT):该数据集包含基于TED演讲的多种语言的平行语料,包含中英文等共计20种语言。

ASPEC Chinese-Japanese:该数据集主要研究亚洲区域的语言,如中文和日语之间, 日语和英文之间的翻译任务 翻译语料主要来自语科技论文(论文摘要;发明描述;专利等等)。

casia2015、casict2011、casict2015、datum2015、datum2017、neu2017:一个系列的中英翻译语料

翻译语料(translation2019zh):可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作;

文章出处登录后可见!

已经登录?立即刷新
退出移动版