机器翻译过程就是由一个符号序列变换为另一个符号序列的过程。这种变换有三种基本模式(如图5-3所示)。
图5-3 机器翻译的金字塔
(1)直译式(一步式)。直接将特定的源语言翻译成目标语言,翻译过程主要表现为源语言单元(主要是词)向目标语言单元的替换,对语言的分析很少。
(2)中间语言式(二步式)。先分析源语言,并将其变换为某种中间语言形式,然后再从中间语言出发,生成目标语言。
(3)转换式(三步式)。先分析源语言,形成某种形式的内部表示(如句法结构形式),然后将源语言的内部表示转换为目标语言对应的内部表示,最后从目标语言的内部表示再生成目标语言。(www.daowen.com)
三种模式构成了机器翻译的金字塔。塔底对应于直译式,塔顶对应于中间语言式,为翻译的两个极端;中间不同层次统称为转换式。金字塔最下层的直译式主要是基于词的翻译。在塔中,每上升一层,其分析更深一层,向“理解”更逼近一步,翻译的质量也更进一层;越往上逼近,处理的难度和复杂度也越大,出错以及错误传播的机会也随之增加,这可能影响翻译质量。
根据知识获取方式的不同,可以将机器翻译分成基于人工知识的机器翻译与基于学习的机器翻译方法;根据学习方法的不同,可以将机器翻译分为非参数方法(或实例方法)与参数方法(或统计方法)。
(1)基于人工规则的方法。最典型的知识表示形式是规则,因此,基于规则的机器翻译(Rule Based Machine Translation,RBMT)也成为这类方法的代表。翻译规则包括源语言的分析规则,源语言的内部表示向目标语言内部表示的转换规则以及目标语言的内部表示生成目标语言的规则。
(2)基于实例的方法。从实例库中寻找与待翻译的源语言单元最相似的例子,再对相应的目标语言单元进行调整。
(3)基于统计模型的方法。统计翻译模型是利用实例训练模型参数,以参数服务于机器翻译。由于统计机器翻译本质上是带参数的机器学习,与语言本身没有关系,因此模型适用于任意语言对,也方便迁移到不同应用领域。翻译知识都通过相同的训练方式对模型参数化,翻译也用相同的解码算法去推理实现。
统计机器翻译是目前主流的机器翻译方法。下面介绍基于词的统计机器翻译和基于短语的统计机器翻译。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。