站点图标 AI技术聚合

从简单到深入理解统计机器翻译模型

从简单到深入理解统计机器翻译模型

1.最简单的机器翻译模型


TM(Translation Model):翻译模型,即他进行字对字翻译,不在乎语境,语义,语法,等等等等。
例如:
我们今天早上吃了早餐
首先是分隔单词

然后逐字翻译

这样的翻译句子肯定是不流畅的,所以一定要保证句子的流畅。
所以我们需要对这句话中的所有单词进行排列组合

4个词排列组合 一共有4!=24中情况。
得到这24中情况就是模型中Broken English。
接下来,我们在这24中情况中,选择最优的句子。
判断最合适的句子:我们需要使用LM模型。

LM(Langage Model):语言模型(选择器),这个模型会给所有的排列组合一个概率,我们选择概率最高的一个即为最终翻译结果。

2.优化

上述过程虽然可以得到较好的结果,但需要大量的计算。
TM模型中 需要对所有词进行排列组合(n!),时间复杂度 为o(2^n),复杂度太高了。
如何优化?
我们线性地考虑,这转化为同时考虑。

Decoding Algorithm:viterbi算法

viterbi算法核心:DP (万物皆可DP!hh)

3.优化的机器翻译模型

1、TM:翻译模型

给定一对计算P(f|e)
语义相似度高,P(f|e)↑
否则,P(f|e)↓
相当于字典

2、LM:语言模型

给定一句英文e,计算概率P(e)
如果 符合英文语法,P(e)↑
不符合P(e)↓

3、Decoding Algorithm

给定语言模型,翻译模型,f,找出最优的P(e)P(f|e)最大

文章出处登录后可见!

已经登录?立即刷新
退出移动版