理论教育 基于词的统计机器翻译技术优化方案

基于词的统计机器翻译技术优化方案

时间:2023-06-15 理论教育 版权反馈
【摘要】:通过IBM模型的训练,利用一个大规模双语语料库可以得到一部带概率的翻译词典。IBM模型可以较好地刻画词语之间的翻译概率,但由于没有采用任何句法结构和上下文信息,它对词语调序能力的刻画非常弱。尽管作为一种基于词的翻译模型,IBM模型的性能已经被新型的翻译模型所超越,但作为一种大规模词语对齐的工具,IBM模型仍然在统计机器翻译研究中广泛使用,而且几乎是不可或缺的。

基于词的统计机器翻译技术优化方案

IBM最早提出的5个翻译模型就是基于词的模型,其基本思想是:①对于给定的大规模句子对齐的语料库,通过词语共现关系确定双语的词语对齐;②一旦得到了大规模语料库上的词语对齐关系,就可以得到一张带概率的翻译词典;③通过词语翻译概率和一些简单的词语调序概率,计算两个句子互为翻译的概率。

IBM模型通过利用给定的大规模语料库中的词语共现关系,自动计算出句子之间词语对齐的关系,而不需要利用任何外部知识(如词典、规则等),同时可以达到较高的准确率,这比单纯使用词典方法的正确率要高得多。这种方法的原理,就是利用词语之间的共现关系。例如,已知以下两个句子对是互为翻译的:

根据直觉,容易猜想A翻译成X,B翻译成Y,C翻译成Z。只是当有成千上万的句子对,每个句子都有几十个词的时候,依靠人的直觉就不够了。IBM模型将人的这种直觉用数学公式定义出来,并给出了具体的实现算法,这种算法称为EM训练算法。

通过IBM模型的训练,利用一个大规模双语语料库可以得到一部带概率的翻译词典。IBM模型也对词语调序建立了模型,但这种模型是完全不考虑结构的,因此对词语调序的刻画能力很弱。在基于词的翻译方法中,对词语调序起主要作用的还是语言模型。

在基于词的统计翻译模型下,解码的过程通常可以理解为一个搜索的过程,或者一个不断猜测的过程。这个过程大致如下:(www.daowen.com)

第一步,猜测译文的第一个词是源文的哪一个词翻译过来的;第二步,猜测译文的第二个词应该是什么;第三步,猜测译文的第二个词是源文的哪一个词翻译过来的;以此类推,直到所有源文词语都翻译完。

在解码的过程中,要反复使用翻译模型和语言模型来计算各种可能的候选译文的概率,以避免搜索的范围过大。

IBM模型可以较好地刻画词语之间的翻译概率,但由于没有采用任何句法结构和上下文信息,它对词语调序能力的刻画非常弱。由于词语翻译的时候没有考虑上下文词语的搭配,也经常会导致词语翻译的错误。

尽管作为一种基于词的翻译模型,IBM模型的性能已经被新型的翻译模型所超越,但作为一种大规模词语对齐的工具,IBM模型仍然在统计机器翻译研究中广泛使用,而且几乎是不可或缺的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈