肖 静:机器 翻译 的 若干 问题
摘要:随着 国际 交流 的频繁, 机器 翻译 得到 越来越 广泛 的 应用,但 机器 语言 与 自然 语言 之间 却 还 存在着 一定 的 差距,引起 这种 差距 的 原因 很多,有 机器本身 的 局限,也 有 科技 方面 的 问题,当然 也 有 机器 本身 不能 解决 的 问题。机器 翻译 系统 有待 进一步 的 完善 和 提高。
关键词:机器 语言;自然 语言;距离;原因
由于 国际 互联网 的 普及,自然 语言 的 计算机 处理 成为 从 互联网 上 获取 知识 的 重要 手段。譬如,在国际 交流 和 科研 教育 等 领域,人们 需要 对 异国 语言 文字 进行 翻译,过去 这 是 语言 大师施展 才华 的 舞台,随着 硬件 技术 飞速 发展、软件 技术 不断 完善 以及语言 研究 的 不断 深入,机器 翻译 得到 越来越 广泛 的 应用。机器 翻译 有 它自身 巨大 的 优势,譬如 翻译 速度 快,记忆 能力 强,同时 还能 降低 翻译 成本 等。在 自然 语言 的 处理 上,各国 都 投入了 巨大 的 人力,物力和 财力,但 目前 机器 翻译 还是 存在 着 很大 的 缺陷。机器 语言 与 自然 语言 之间 还 有 很大 的 差距。
1 机器语言 和 自然 语言 的 距离
1.1 自然 语言 的 形成
自然 语言 是 在 人类 文明 发展 的 漫长 过程 中 自然 形成 的。所谓 自然 形成,意味着 它 的形成 是 基于 每 个 人 所 拥有 的 一种 基本 权利:自由 创造 语言 符号 和 自由 约定 符号 语义.而 自然 语言 的“标准化”工作,则 不得不 以 自由 创造 成果 的 自然 流行 为 基础 和 前提.
1.2 机器 语言 的 形成
语言 信息 处理,也 就是 机器 翻译(简称 MT),是 数字 计算机 在 非 数值 领域 的 最 早 应用。(李 振亭 任 靖娟 2006:第2 期)它 是 应用 计算机实现 从 一种 自然 语言 文本 到 另 一种 自然 语言 文本 的 翻译。机器 翻译 是 人们 通过 对 自然 语言 和 人脑 思维 过程 的 理解,让 计算机模拟 人脑 翻译 过程 来 实现 的。目前 市场 上 存在 两种 机译 的 方法,它们 分别 是 以 语法“规则”和“语料库”为 基础 的。从 理论 上 来说,输进计算机 中 的 规则 和 语言 材料 越多,翻译 的 质量 也 就 越高。如果 能 把 人类 语言 的 所有 规则 和 所有 语言 现象 都 输进 计算机 中,那么机器 翻译 就 可以 完全 代替 人工 翻译。(吴 思乐 2003:第4 期)
1.3 实例 分析 自然 语言 与 机器 语言
彭 泽润 教授 为了 让 我们 更好 地 认识 机器 翻译 系统,了解 机器 翻译 系统 的 长处 和 不足,特地为 我们 提供 了 一封 关于 汉语 文字 拼音化 的 英语 信件 和 它 的 汉语 自动 翻译 文本,让 我们 进行 比较。凭借 我们 的 英语 水平,和 Google 自动 翻译,我 选取 其中 的 某些 句子 做了 如下 分析:
例一:I believe Chinese should extends the spirit of Olympics to the realm of language
Google 翻译:我 认为 中国 应该 扩展了 奥运 精神 的 境界 的语言
人工 翻译:我 认为 中国 人 应该 把 奥运 精神 扩展 到 语言 领域
分析:Google 自动 翻译 直接 把 介词“of”翻译成“…的”。很 明显 计算机识别并 选取 了 介词“of”在 表示 所属 关系时 最 基本 的 意义。然而 它 把“of”前面 的 两个 名词 都 看作 是“language”的定语,并 没有 注意 到 在 这 两个 名词 中间 还有 一个 介词“to”。即使 研究者 有 能力 把 这些 情况 输入“规则”和“语料库”中,计算机本身 也 永远 无法 辨别,甚至 会 卷入“自锁”或“死 循环”中。
例二:Because it is the tool used by every literate Chinese in the country.
Google 翻译:因为 它 是 工具 所 使用 的 每 一个 识字 的中国 在 该国。
人工 翻译:因为 在 该国 它 是 被 每 一个 识字 的 中国 人 使用 的 工具。
分析:汉语 的 语法 结构 和 英语 有 不同,英语 的 定语 从句 位于 被 修辞 词 的 后面,而 汉语 的 定语 主要 位于 被 修辞 词 的前面。在 Google 自动 翻译 时,并 没有 考虑到 这种 语法 差异 的 问题,就仅仅 是 一个 词 对应 一个 词 的 翻译,没有 把“used by every literate Chinese in the country”看作 为 “tool”的 定语 从句。同时,在 对“Chinese”进行 翻译 时,Google 采用 的 是“中国”,而 这个 词 是 一个 多义 词,在这里 应 翻译 为“中国 人”,所以 可以 看出 机器 翻译 时,对 多义 词 的 分析 也 很 困难。
例三:Depending on whichever point of view one take with regard to the Chinese characters,one may feel happy or sad about this megatrend towards Alphabetization.
Google 翻译:根据 两者 的 角度 看 一个 方面 采取 的 中国字,一个 可能 会 感到 高兴 或 悲伤 对 这 一大 趋势 的 字母。
人工 翻译:对于 拼音化 这个 趋势,每个 人 都 会 有 高兴 或者 悲伤,这 主要 处决于 每个 人 对 汉字 抱 有 什么 样 的 看法。
分析:这是 英语 中 一个 较 复杂 的 句子,前 一个 分句 是 状语 从句,省略 了 主语 ,采用 分词 形式,其中 的 定语 结构,介宾 结构,Google 在 翻译 时 都 不能 识别,而 只能 词 词 对应 的 翻译。
以上 的 三个 实例,清楚 地 显示 出 机器 翻译 系统 在 英语 语言 准确性 及 句子 结构 分析上 所 存在 的 种种 问题。况且,上面 的 三个 例句,都 还是 一些 日常、普通 的 句子。如果 是 一些 比喻、暗引、习语、典故 等 富含 文化 内容 的词 句,机器又 会 译成 什么 样子 呢?这种 语句 由于 其 特有 的 语义 多重性,连 人工 翻译 都 有点 困难,机器 能 把 语句 中 所 包含 的 文化因素 和 民族 内涵 翻译 出来 吗?
1.4 总结 自然 语言 和 机器 语言 的 距离
通过 以上 的 分析,我们 可以 看出 机器 语言 和 自然 语言 之间 的 一些 差距:
(1)机器 语言 往往 没有 自然 语言 那样 的 准确度 和 可读性,机器 往往 不能 很好 地 把握 词性、词义、不能根据 语篇、语境 的 实际 需要 准确 地 译出 原文 的 意思。
(2)机器 语言 往往 显得 死板 无能,只 会 根据 被 输入 的 信息 硬生生 地 套,不能 灵活 地 运用语法,无法 根据 上 下 文 正确 地 判断、处理 一些 甚至 连 中学生 都 能 识别 的 句型
(3)机器 语言 缺乏 连贯性 和 流畅性,这 往往 是 由于 词序 混乱、风格不符、语气 欠妥 所致。
(4)机器 语言 的 文化 缺陷 就 更 不用 说 了,然而 任何 语言 都 是 有 文化性 的,也许 这是机器 语言 永远 也 不 可能 解决 的 问题。
2 自然语言 和 机器 语言 差距 的 原因
2.1 机器 自身 的 局限
虽然 现在 计算机 的 发展 速度 惊人,但是 计算机 最 基本 的 构成 是 处理器、内存 和 总线 结构,它们只 能 对 电路 的 开关(0和1)做出 反应、发生 作用,一个 CPU 一次 只能 处理 一个指令,要 到 下 一个 单位 时间,该 CPU 才能 再 处理 下 一个 指令,这些 决定 了 电脑 的 串行 单一 “思维”方式。这种 结构 可以 看作是 电脑 的 思维 活动 平台,电脑 不 存在 意识,没有 心理 平衡 问题,无法 建立 主体 价值观,不能 对 所有 的 感受 进行 自动 过滤 以便 处理有用 和 必要 的 事情。结构 如此 简单 的 电脑 绝对 不 可能 实现 人脑 的 思维,它 所 支撑 的 软件 即“意识”也 只能 是 极其 有限 的。而人脑 则 不同,人脑 是 迄今 为止 构造 最 复杂 的 机构,其 皮层 中 约 有几 百 亿 个 神经元, 而且 神经元 彼此 之间 有着 非常 紧密 的 分工。(张政 2005:第5 期)
2.2 自然 语言 的 复杂性
我们 现在 的 语言 信息 处理 最 先 要 解决 的 问题 就 是 消除 歧义。自然 语言 在 词汇、句法、语义、语用等 各个 层面 都 充满 歧义。如 前面 所举 的 例子 chinese,既 可以 是 “中国”,也可以 是 “中国人”;tear 作 名词 是“眼泪”,作动词 是“撕”;汉语 中 的“学习 文件”,到底 是 动宾 短语 还是 偏正 短语,这 都 说明 自然 语言 中 存在 歧义。如果 把 这些 具有 同一 语言形式 但 意义 不同 的 语言 输入 计算机,机器 是 无法 准确 表达 出来 的。
目前 很多 专家 研究 语义格 来 帮助 计算机 处理 自然 语言,然而 在 自然 语言 的 理解 上,还存在 着 一些 难题。如“我 修 车”,这里 的 “我”是 施事 主语,但 它 却 并 不 一定 是 动作 行为 的 发出者,可能 是 发令者。因此,在 没有任何 语境 的 帮助 下,计算机 是 不 可能 理解 这个 句子。
所以 说 自然 语言 本身 就是 非常 复杂 的,当前 我们 对 自然 语言 本体 的 研究 尚未 透彻,就想 让 计算机 来 准确 精细 地 分析 自然 语言,那是 不 可能 的。
2.3 机器 翻译 本身 的 复杂
我们 知道 语言 与 思维 、文化 是 有 密切 关联 的。我们 在 进行 人工 翻译 时,会 要求 有专家 来 进行 翻译,专家 必须 结合 原文,通过 原文 给定 的 语言 意义,根据 自己 的 双语 知识 和 文化、历史、地理、风俗 习惯 等 背景 知识 进行“重组”,然后再 对 其 进行 润色。这样 的 翻译 有 很 大 的 自由度。而 计算机 的 翻译 是 建立 在 串行 二值 逻辑 的 基础 上,即“非此即彼”,二者 必 居其一,它 没有 思维、判断、推理 能力,只能 是 在 限定 的 范围 内 进行 一 对 一 的 选择,因此 就 不可 避免 地 会 出现 令 人 费解 的 译文
3 解决途径
从 上述 的 各种 原因 中,我们 看到 了 机器 翻译 的 难点,但 我们 不能 只 看到 困难。当前我们 也 看到 机器 翻译 的 飞速 发展 和 不断 完善,所以 我们 还是 可以 从 以下 方面 努力:
3.1 做好 自然 语言 的 本体 研究
自然 语言 理解 研究 是 实现 人 与 计算机 之间 用 自然 语言 进行 有效 通信 的 各种 理论和 方法。要使 计算机 能 理解 自然 语言,无疑 人类 首先 要 理解 好 自然 语言,因为 计算机 所 具有 的 知识 储备 都是 人类 给予 的。不仅 是在 语言学 方面,而且 还 需要 在 计算机、数学、逻辑学、心理学 等 方面 都 需要 有 造诣。自然 语言 理解 和 机器 翻译 是 计算机 科学 与 人工智能 领域 中 的 一个 重要 方向。(黄 荣怀,李 茂国,沙景荣 DB/OL]1 http :// www1szsskxx1com/ zyzs/ more1asp?name=wanhaicheng&id = 30161)
3.2 做好 文法 体系 设计
机器 翻译 要求 对 所 涉及 的 语言 的 各种 知识 和 规律 在 计算机 中 表示、存贮 和 处理。因此,如何设计 一种 强有力 的 语言 规则 知识 表示 形式,即 文法 规则 表示 形式,并 以 此 为 基础,设计 面向 各种 不同 自然 语言 的 结构 分析 规则体系,是 机译 系统 开发 中 要 解决 的 一个 基本 语言学 问题。
文法 体系 研究 中 另 一个 值得 关注 的 就是 建立 和 利用 知识库。随着 机器 翻译 研究 中语用学 的 引入,知识库 含义 的 外延 在 不断 扩大。它 不仅 包括 机器 词典 所 提供 的 各种 有关 的 语言 知识,而且 还 包括 各种 有关 语境、语用和 常识 等 知识。(黄 河燕,陈 肇雄 1997:第3 期)
3.3 加强 系统 中 词典 的 研究
机器 翻译 系统 中 的 词典 是 为 语言 处理 程序 提供 源语言 基本 构成 元素 所 具有 的 各种有关 词法、语法、词义、语义、语用、常识 等 方面 信息,包括 目标 语言 与 源 语言 的 对译 关系 的 一个 复杂 特征 信息 集合。它 是 自然 语言处理 程序 赖以 对 源语言 进行 分析 加工 的 主要 信息 来源。面向 机器 翻译 的 词典 要 配备 各种 语言学 知识。例如 固定 搭配 和 固定 句型的 知识 等。把 固定 搭配 和 固定 句型 等 相对 稳定 的 英语 用法 以 词条 的 形式 构成 专项 词典。该 方法 可 有效 地 避免 很 大 一部分的 词义 选择 的 错误。还要 加强 词典 的 结构 建设,以便 最 优地 综合 利用 词典 中 的 信息,对 原语言 进行 分析 加工 处理。(王 祁,邹 冰 2003:第5 期)
多义 问题 的 解决,关键 在于 如何 通过 对 源语言 的 深入 分析,排除 多义性。这 就 要求 词典提供 尽 可能 全面 的、根据 特定 的 上 下文 相关 取义 的 搭配、语用、语境 等 基本 信息,并 要求 文法 体系 具备 上 下文 相关 分析 和 处理能力。这个 问题 的 研究 将 涉及 语用学、语法学、语义学、模糊 语言学、语境 分析 技术 等 多个 方面。
3.4 建立 大型 双语 语料库
双语 语料库 是 一个 在 句子级 对齐 基础 上 的 词语(单词)或者 短语(我们 称之 为 一个 语言片断)对齐 语料库,语言 片断 的 定义 如下。语言 片断:在 一对 双语 对齐 的 句子 中,汉语(或者 英语)句子 中 若干 个 词语(单词)、短语 结合 在 一起 所 形成 的 结合体,这个 结合体 在 句子 中 有 相对 独立的 语义,并且 在 与 其相对应 的 语言(英语 或者 汉语)句子 中 也 存在 一个 结合体 与其 相 对应。语言 片断 是 本 翻译 策略 中 可以 进行翻译 的 最 小 单位。胡 国全 在 他 的 论文 《一种 基于 实例 的 汉 英 机器 翻译 策略》中 就 深入 探讨 了 这个 方法。
4 结论
从 上面 我们 可以 看到,自然 语言 和 机器 语言 还 存在 很大 的 差距,而 这些 差距 存在 的原因 也 正是 我们 目前 机器 翻译 所 面临 的 难题 所在。但是,机器 翻译 的 趋势 是 很 明显 的,我们 也 在 不断 地 改进 这一 系统,目前也 有 很多 新 的 方法 涌现,出现 了 很 多 新 的 处理 语言 信息 的 软件,所以 说 机器 翻译 还是 很 有 前景 的。但 由于 机器 本身 的局限 来说,它 不 可能 成功 地 翻译 那样 具有 文化 底蕴 的 句子,要 想 让 翻译 的 语言 更 准确,更 自然,可能 我们 还是 得 依靠 人工 翻译了。
参考 文献
[1]黄 河燕,陈 肇雄.机器翻译 基本 问题 研究[J].语言 文字 应用,北京:1997年 第3 期.
[2]黄 荣,李 茂国,沙 景荣.知识 工程学:一个 新 的 重要 研究 领域[DB/OL]1 http :// www1szsskxx1com/ zyzs/ more1asp ? name=wanhaicheng&id = 30161
[3]李 振亭,任 靖娟.自然 语言 理解 与 机器 翻译 实现[J].许昌 学院 学报,河南:2006年 第2 期.
[4]王 祁,邹 冰.现行 英汉机器 翻译 系统 存在 的 问题 及 解决 策略[J].东北 大学 学报(社会科学版),沈阳:2003年 第5 期.
[5]吴 思乐.机器 翻译 与人工 翻译 浅析[J].广东 交通 职业 技术学院 学报,广州:2003年 第4 期.
[6]张 政.机器 翻译 难点所在[J].外语 研究,北京:2005年 第5 期.