常见问题欢迎来到博狗bodog88手机,权威的博狗bodog88手机、www.qiamagu.net
www.qiamagu.net
点击咨询毛老师  点击咨询李老师  点击咨询王老师
范文如找不到所需论文资料、期刊请您在此搜索查找
您当前的位置:博狗bodog88手机 > 工程论文 >

机器翻译词汇错误分析

发布时间:2018-07-18

  机器翻译论文五

  题目:机器翻译词汇错误分析

  摘要:该文以科技文体语料为基础, 对机器译文和人工译文进行了对比。先是对机器译文中出现的错误进行了整体分析, 接着系统的举例分析了词汇错误的几大类型, 分别是词汇术语错译, 词汇词性错译, 词汇赘译, 词汇漏译等。

  关键词:机器翻译; 机器译文; 人工译文; 词汇错误;

  1 概述

  机器翻译 (简称MT) 是指通过计算机实现一种自然语言文本到另一种自然语言文本的翻译 (赵铁军, 2001) 。虽然这项技术已经发展多年, 但现实并不像想象中那么美好。著名的MT评论家哈钦斯指出:“MT译文质量至今没有取得实质性的进展, 很多50年前未解决的问题如今依然存在。” (董振东, 2000) 我国学者冯志伟先生也说:“从已经推出的实用化MT系统的译文质量来看, 还不十分令人满意, 对于一些稍长的句子, 或结构稍复杂的句子, 译文质量就不能令人满意, 有时简直不可卒读。” (冯志伟, 2001:55)

  而且, 自然语言的“复杂特征”的形式化描述不是一朝一夕, 急功近利的事情, 况且人们对这种复杂性的认识也需要时间。所以企图用计算机语言解决自然语言的“复杂特征”就必须清楚地分析目前计算机语言的错误, 找出基本的错误规律, 再逐一进行破解, 获得最终的进步。所以, 该文以英语汉语机器翻译为例, 分析MT的错译类型, 并着重分析词汇错译。

  2 英汉机器翻译

  英语和汉语从外部形态到内部结构均有着千差万别, 语义的相通才使得语言互译成为可能。机器翻译和人为翻译不同。译者可以对译文进行侧减和添加, 也可以根据情况酌情进行雕饰和润色, 有相当的自由度和可操作的空间。但是, 机器没有思维, 也没有推理和判断能力, 无法对原文的语境因素等进行分析, 只能在限定的范围内进行一对一的选择。因此就不可避免地会出现很多荒唐可笑的译文。

  此外, “计算机翻译不适用于文学性很强或文化味很浓的文本, 而适用于科普文献, 金融商业交易, 行政管理备忘录, 法律文件, 说明书, 农业及医学资料, 工业专利, 宣传册, 报纸报道等。” (Hutchins and Somers, 1992) 所以该文的研究对象来自于科技文体, 句法句式相对单一, 但也因为科技型文体的特殊性, 出现了其他较为典型的错译。

  3 机器译文错误类型分析

  3.1 语料来源和研究方法

  本次研究中使用的语料属于科技型文本, 人工译文由专业翻译人员所翻, 为了确保此次研究的质量, 笔者对3000句的原英语语料, 机器译文和人工译文进行逐句对比操作。进行对比前, 对出现的机器译文的错误根据前人经验, 进行了错误分类。如表1所示。对3000句进行一一对比标注之后, 对标注结果进行数据统计, 统计结果见图1和图2。

  表1 机器译文错误类型

  图1 机器译文错误率

  值得注意的是, 因为机器译文的局限性, 一句话当中大部分情况下不止出现一个错误, 所以统计方法是:只要这句话中有错误, 就归为错误译文, 所以3000句中, 准确译文只占8.4%, 也就是只有252个句子基本或完全正确 (见图1) 。在对错误的句子中的错误类型进一步统计时, 如果一个句子中多次出现同一类型的机器译文错误 (如词汇术语) 只进行一次标注和统计。不同类型的错误都需标注和统计出来。所以最终错误类型数的总和是5865, 远远超过了句子总数。三个一级错误的错误率为出现该错误的机器译文句数/错误句子总数 (即3000-正确的句子) *100%。结果见图2。

  图2 机器译文三大类型错误发生率

  3.2 机器翻译词汇错译分析

  词汇是组成句子的最基本要素, 所以也是衡量机器翻译质量的关键。在图2的统计数据中, 词汇错译所占比例最高, 达到57.2%, 因为科技文体的专业性, 很多词的意思并不是常见词义, 所以又增加了机器翻译的难度。在图3的词汇错译发生率中, 词汇术语的发生率最高, 达到84.9%。

  另外, 词汇词性, 词汇漏译和词汇赘译这三类错误也很常见。因为在两种自然语言的转换当中, 各个语言都有自己的逻辑和规则, 人工翻译是可以顾及这些, 所以会适当地增添词汇或删减词汇, 但是机器翻译最基本的原则就是按照词序逐句逐字翻, 就容易造成这几种错误。词汇错译的发生率图3可示。

  因为词汇类错误所占比例较高, 所以下文将针对每一种类型举例说明。以下示例中, A为机器译文, B为人工译文, 对比部分以下划横线标注。为了便于有针对性地进行译文分析, 每一例只用于说明相对应的译文错误, 所有例句均以语料库中的原始状态呈现, 可能会因为语料本身的问题, 出现不严谨之处。

  图3 词汇错译发生率

 

  3.2.1 词汇术语错译

  如前文所述, 科技型文体对专业术语的大量使用导致词汇术语错译在机器翻译中十分常见。显然, 机器语言并不能处理这种自然语言的能动性。所以, 在此条件下译出的文本千奇百怪。如例1中sub-assembly。

  (1) inspect input shaft sub-assembly

  A.检查输入轴附属会议

  B.检查输入轴分总成

  机器译文在对词缀sub-和名次assembly的处理上就非常的机械。虽然assembly最常见的意思是会议, 但是在此次语料当中表示的是适合机械属性的总成的意思, 人工译文每一处都将这个词译作了总成, 符合上下文。Sub-这个词缀配合其后续名词译为分, 而不是机器翻译中选择的附属的意思。所以, 机器翻译在对一词多义现象的处理上比较薄弱, 并没有结合上下文本选择适合的词义的能力, 这就需要在事前编辑的时候进行统计, 编辑出机器语言, 将高频的术语及其对应的目的语的翻译植入计算机中, 可减少此类错误的发生。

  3.2.2 词汇词性错译

  目前的机器翻译水平只能满足基本的按照词序逐个翻译, 不会根据句子成分判断词的词性。但是自然语言的使用又很灵活, 不管是英语和汉语中都充满了词形相同但词性完全不同的词汇。主要体现在名词与动词, 名词与形容词, 形容词与动词之间的误译上。这一类错误虽然对译者不是难点, 但是对机器翻译是一个很大的难点。如例2中的clear。

  (2) clear DTCS

  A.清楚的DTCS

  B.清除DTC

  这一例就是形容词和动词的误用, 结合上下文是不难判断出clear此处应该是动词, 但是由于机器翻译选择的是它最常见的形容词意--清楚的, 所以产生了这类错误译文。

  3.2.3 词汇漏译错译

  词汇漏译似乎违背了机器翻译逐字翻译的原则。常见的有两种现象, 一种是如例3所示的直接将句子中的一个词忽略不译。另一种是如例4所示保留句子中的专业术语, 不翻译, 所以这类词汇漏译经常和词汇术语一起出现, 跳过不译的一般都是科技型术语。

  (3) fasten the passenger side sear beltA.

  A.固定乘客安全带

  B.系紧乘客侧安全带

  (4) install intercooler assembly

  A.安装intercooler会议

  B.安装中间冷却器总成

  3.2.4 词汇赘译错译

  这类错误顾名思义就是把不该翻译的部分翻译出来, 而且分析译文得出, 大部分都是把词汇术语和一些缩略词进行了赘译。如例5中CAN就是一个典型。英语学习者都知道, 一个单词全是大写的话就代表着缩略语或是术语, 可以不翻译, 但是当这类词很像一个常用词时, 机器就会把它翻译成常用词, 造成了错译。这类错误也是再次证实了机器翻译的机械性。

  (5) CAN communication

  A.罐装通讯

  B.CAN通信

  笔者认为, 这种情况也可以通过编码解决。与其在进行机器翻译译文检查时发现千奇百怪的错译, 倒不如直接输入计算机语言, 将所有每个字母大写的英语词汇保留原样不译。因为在一个学科中, 术语特别是一些缩略语都是基本常识。如果为了译文的严谨, 可以在最后附一个缩略语及术语表, 人工对这些词汇进行统一翻译。

  3.2.5 其他词汇类错译

  除了上述详细介绍的词汇错误类型之外, 词汇错误中还包括词汇形容词错译, 词汇副词错译和词汇冠词错译。这三项错译类型都比较细致, 以词汇形容词为例。

  (6) apply a light coat of diesel fuel to a new 0-ring, and installit to the fuel pressure regulator.

  A.使用一层轻的柴油到一个新O型橡皮圈, 并且对燃料压力调节器安装它。

  B.在新O形圈上涂抹一薄层柴油, 并将其安装到燃油压力调节器上。

  在例6中, “light”最常用的意思是轻的, 如机器译文中选择的词义, 但是结合上下文中, “light”后面修饰的是coat of diesel fule, 从搭配的角度看翻译成“薄”更贴切。所以如果需要解决这类错误, 需要对上下文有分析的能力, 而这是机器翻译所无法满足的。

  4 结语

  该文以英语汉语语料为例, 重点分析了机器译文中出现的词汇错译类型, 并就一些错误提出了自己的看法。句法错译也是值得深入探讨的问题, 很多词汇错译中暗含的其实是句法问题。虽然从这3000句的对比中看, 机器翻译还有很长一段路要走, 但是值得肯定的是, 一些句子较长, 但是句式与汉语相似的英语句子, MT可以翻译的让人满意。这也体现了事前编辑的重要性。

  所以, 尽管前方难点重重, 只要我们的语言学家, 心理学家, 数学家, 逻辑学家, 计算机专家, 人工智能专家共同努力, 坚持不懈, 理论与研发一同发展, 我们就一定能最终克服障碍。就如之前Alpha Go也不被看好一样, 但它最终打败了人类。相信MT也能最终实现这一目标。

  参考文献
  [1]Hutchins, W.J., and Somers H.L.An Introduction to Ma-chine Translation[M].San Diego:Academic Press, 1992.
  [3]冯志伟.自然语言机器翻译新论[M].北京:语文出版社, 1995.
  [4]李梅, 朱锡明.英汉机译错误分类及数据统计分析[J].上海理工大学学报 (社会科学版) , 2013 (03) :201-207.
  [5]罗季美, 李梅.机器翻译译文错误分析[J].中国翻译, 2012 (05) :84-89.
  [6]罗季美.机器翻译句法错误分析[J].同济大学学报 (社会科学版) , 2014 (01) :111-118+124.

  范文一: 机器翻译论文(精心编辑5篇)
  范文二: 机器翻译中介词短语的误译分析
  范文三: 本地化和机器翻译视角下的对外文化传播
  范文四: 神经网络的机器翻译质量评析及对翻译教学的影响
  范文五: 机器翻译词汇错误分析

相关论文