语言 处理
徐 颖:机器 翻译 的 语言 和 自然语言 的 距离 和 原因
摘要:本文 把吴 文超 拼音 文字 英语 信件 自动 翻译 前后 文本 中 的 一些 句子 作为 例句,从 词义 的 选择 和 句子 的 层次 结构 这 两 个 方面 进行分析,得出 机器 翻译 的 语言 和 自然 语言 存在 距离,并 对 产生 这种 距离 的 原因 作 了 简单 的 分析。
关键词:词义;层次结构 机器;翻译;自然 语言
如今 机器 翻译 对于 许多 人 来 说 应该 已经 不是 很 陌生 的 词儿 了。在 网上 有 很多 免费 的 翻译 系统 服务,它 利用 计算机把 一种 自然 语言 转变 成 另 一种 自然 语言 的 过程。比较 吴 文超 拼音 文字 英语 信件 自动 翻译 前后 的 文本,发现 机器 自动 翻译 后 得到 的 文本 和规范 的 自然 汉语 存在 一定 的 距离,下文 主要 通过 对 翻译 前后 的 文本 中 词义 的 选择 和 句子 层次 上 的 翻译 两 个 方面 比较 出来的 例句 解释 说明。
1 词义的 选择
多义词 是 英语 中 一种 普遍 现象,就是 一个 词 同时 具有多种 意思。在 机器 翻译 过程 中,从 多个 意思 中 选择 最 适当 的 一个,往往 是 一个 难题。单词 的 语法 功能、语义 语用 等 都有 可能 造成词 的 多义 现象。例如 单词 兼类,即 同一 单词 具有 两 种 以上 词性;单词 在 同一 词类 中,却 表达 几 个 不 相关 的 概念。这些 多义 现象的 存在,增加 了 翻译 系统 的 错误率。
例(1)Written language can't be changed quickly,not only because of it is the carrier of national culture but also because it is the tool used by every literate Chinese in the country.
机器 翻译:书面 语言 不能 迅速 改变,不仅 是 因为 它 是 承运 人 的 国家 文化,而且 还 因为 它 是 工具 所 使用 的 每 一个识字 的 中国 在 该国。
对 这个 句子 的 翻译 先 不 评论 它 的 好坏,就 Chinese 这个 词,机器 翻译 在 这里 翻译 成 “中国”。Chinese 翻译 成 汉语 的 词 的 时候,是 一个 兼类词,作形容词 的 时候 是:中国 的,中国人 的,中国话 的,汉语 的。作 名词 的 时候 是:中国人,中国话,汉语,中文。很 显然 在 这个 句子 的 翻译 中,应该取 “中国人” 这个 词义。这 说明 机器 的 翻译 是 词汇 的 机械 对应,不能 结合 语境,对 词义 做出 正确 选择。可以 翻译 成:书面 语言 不能迅速 改变,不仅 是 因为 它 承载 了 本国 的 文化,而且 它 是 受过 教育 的 中国人 使用 的 语言 交际 工具。
例(2)So,they can use Pinyin readily when inputing Chinese.
机器 翻译:因此,他们 可以 随时 使用 拼音 输入 时 中国。
在 这个 句子 中 Chinese 翻译 成“中国”,造成 了 理解 的 困难,机器 翻译的 机械 语言 和 自然 语言 存在 的 距离 影响 了 源语言 信息 的 正确 表达。这里 应该 选择“中文”这个 词义。
例(3)Also, there are two other things that trouble me about this site.
机器 翻译:还有 其他 两 个 麻烦 的 事情 我 这个 网站。
对于 机器 翻译 给出 的 这个 句子,先 不 讨论 语法 上 的问题,只看“trouble”这个 词 的 翻译,翻译 成 “麻烦” 是 一个 名词,作 “事情” 的 定语,明显这样 的 处理 就 和 原文 表达 的 意思 不 符合 了,“trouble” 翻译 成 “麻烦” 的 时候,可以 作 名词 也可以 是 动词。在 英语 “trouble sb.” 是 一个 习惯 表达,要 翻译 成 “麻烦 什么人” 或者 是 “困扰 什么 人”,这里 应该 是 选择 “困扰 什么 人”,可以 翻译 成:此外,关于 这个 网站,还有 两件 事情 困扰 我。
在 英译 的 过程 中,有些 句子 可以 逐词 对译,但是 有些 句子由于 英汉 两种 语言 的 表达 方式 不同,就 不能 想 机器 翻译 这样“一个 萝卜 一个 坑”的 方法 来 逐词 对译。原文 中 有些 词 在 译文 中需要 转换 词类,才 能够 使 汉语 译文 通顺 自然。
2 句子的 层次 结构
从 语言 的 内部 结构 来 说, 英汉 两 种 语言 截然 不同。英语 属于 形合性 语言,而 汉语 属于 意合性 语言。要 想 高 准确率 地完成 英汉 翻译, 就 必须 克服 结构 上 的差异,以 语义 为 基础, 在 句法 的 辅助 下 完成 翻译 过程。因此, 基于 语义 的 层次切分 成为 翻译中 的 重要 环节。所谓 层次 切分 是 从 句法 的 角度, 模仿 人脑 的 逻辑 思维, 对 一个 英文 句子 中 的 意群 进行 逻辑 的 划分, 并 对切分 后 的 意群 按照 一定 的 层级 顺序 存储 在 机器 翻译 系统 中。 层次 的 切分 直接 影响 到 句子 中 意群 间 的 相互 关系。
例(4)On the one hand,I was pleased to learn,thanks to Apollo,that there is a Hanyu Pinyinbao for children on the Internet,on the other hand,after a brief visit of the website,I was much disappointed to find,as Victor did,that there was no article or lessons written in Hanyu Pinyin and in the very few cases where Hanyu Pinyin accompanied some Hanzi lines,ci'er lianxie was not practiced.
机器 翻译:一方面,我 很 高兴 地 获悉,由于 阿波罗 是 有 韩愈 Pinyinbao为 儿童 在 互联网 上,另 一方面,经过 了 短暂 的 访问 该 网站,我 十分 失望 地 发现,因为 没有 维克多,没有 任何 经验 的 文章,或撰写 的 汉语 拼音,并 在 极少数 情况 下,汉语 拼音 的 陪同 一些 汉字线,ci'er lianxie没有 实行。
这个 句子 的 翻译 很 混乱,翻译 错误 的 根源 就是 没有 正确 的 切分 句子 的 成份,翻译 出来 的 句子 很 不 符合 汉语 的 表达习惯。在 英文 原文 中,整个 句子 是一个 并列 复合句。第一个 小句 是 一个 宾语 从句,第二 个 小句 是 也是 一个 宾语 从句,从句 又是 由 一个并列句 组成 的。在 机器 翻译 中,虽然 第一层 并列句“一方面···另一方面···”很明显,但是 小句 中 的 层次 就 完全 混乱 了。只有 先 将 句子结构 层次 理 清楚 了,再 结合 翻译,才 能 翻译 出 既 不 违背 源语言 意思 又 符合 目标语 的 好 句子。
例(5)Everyone student in China and most of the students learning Putonghua in U.S. have learned Pinyin as part of their language learning tool.
机器 翻译:每个 人 都 在 中国 学生 和 大多数 学生 学习 普通话在美国 学到 拼音 的 一 部分,他们 的 语言 学习 工具。
在 这个 翻译 中 结构 层次 很 混乱。这 是 一个 可以 改写成 由 “who” 引导 的 限制性 定语 从句。Everyone student in China and most of the students learning Putonghua in U.S. who have learned Pinyin as part of their language learning tool.理解 到 这样 一个 结构 后,我们 可以 根据 汉语 的 表达 习惯 把 在 英文 中 放在 后面 的 状语 提前,翻译 成:在 中国 的 每一 个学生 和 在 美国 学习 汉语 的 大多数 学生 都 把 拼音 学习 作过 语言 学习 的 工具。
例(6)So,they can use Pinyin readily when inputing Chinese.
机器 翻译:因此,他们 可以 随时 使用 拼音 输入 时 中国。
这个 句子 中 的 问题 和 例句5基本 相同,它 是 一个 由 “when” 引导 的 状语 从句。翻译 的 时候 提前。理解 到 这个 句子 的结构 后,就 不能 直接 把 这个 时间 状语 的 从句 中 的 “when” 翻译 成“时”。可以 翻译 成:因此,他们 在 输入 中文 的 时候完全 可以 使用 拼音。
以上 通过 摘取 吴 文超 拼音 文字 英语 信件 机器 自动 翻译前后 的 文本 中 的 例句 从 词义 的 选择 和 句子 的 层次 结构 这 两个 方面 的 分析,可以 看出 机器 翻译 的 语言 和 自然 语言 存在 距离。它的 翻译 只是 词汇 的 机械 对应。不能 正确 的 从 意义 上 理解 源语言 的 句法 结构,一句 一句 处理,处理 第一 句 时 不 知道 第二 句 的内容 是 什么,处理 第二 句 时,也 不 再 去 参考 第一 句 的 内容 了。从 语言 研究 的 角度 来说,机器 翻译 系统 分析、理解 和 生成 自然语言 的 能力 都 还 不 到位,主要 原因 是 自然 语言 理解 没有 获得 根本性 的突破。机器 没有 思维,只有 程序。不过,不管 翻译 机器 多么 先进,人永远 是 起 主导 作用 的,人工 参与 不论 在 数量 或者 质量 上 都是 不可缺少 的 重要 的 一环。
参考 文献
[1]王 祁,邹 冰.现行 英汉 机器 翻译 系统 存在 的 问题 及 解决 策略[J].沈阳:东北 大学 学报.2003,(05).
[2]张 培基,喻 云根,李 宗杰,彭 谟禹.英汉翻译 教程[M].上海:上海 外语 教育 出版社.
[3]章 振邦.新编 英语 语法 教程[M].上海:上海 外语 教育 出版社.