1.最简单的机器翻译模型
TM(Translation Model):翻译模型,即他进行字对字翻译,不在乎语境,语义,语法,等等等等。
例如:
我们今天早上吃了早餐
首先是分隔单词
然后逐字翻译
这样的翻译句子肯定是不流畅的,所以一定要保证句子的流畅。
所以我们需要对这句话中的所有单词进行排列组合
4个词排列组合 一共有4!=24中情况。
得到这24中情况就是模型中Broken English。
接下来,我们在这24中情况中,选择最优的句子。
判断最合适的句子:我们需要使用LM模型。
LM(Langage Model):语言模型(选择器),这个模型会给所有的排列组合一个概率,我们选择概率最高的一个即为最终翻译结果。
2.优化
上述过程虽然可以得到较好的结果,但需要大量的计算。
TM模型中 需要对所有词进行排列组合(n!),时间复杂度 为o(2^n),复杂度太高了。
如何优化?
我们线性地考虑,这转化为同时考虑。
Decoding Algorithm:viterbi算法
viterbi算法核心:DP (万物皆可DP!hh)
3.优化的机器翻译模型
1、TM:翻译模型
给定一对
语义相似度高,P(f|e)↑
否则,P(f|e)↓
相当于字典
2、LM:语言模型
给定一句英文e,计算概率P(e)
如果 符合英文语法,P(e)↑
不符合P(e)↓
3、Decoding Algorithm
给定语言模型,翻译模型,f,找出最优的P(e)P(f|e)最大
文章出处登录后可见!
已经登录?立即刷新