汉语 是 词本位 的 语言 吴文超
不 分词 就 难以 准确 传达 语音 和 语意 信息
‘环院长跑’是 普普通通 的 四个 汉字,但 把 它们 分写 为‘环 院长 跑’或‘环 院 长跑’后,却 出现 截然不同 的 读音 和 词义。可见 汉字 不 分词 就 难以 准确地 传达 语音 和 语意 信息。
老虎 和 老猫 是 对称 的 汉字,但是 我们 可以 说 ‘小老虎’ 而 不 可以 说 ‘小老猫’。 为什么 会 这样 奇怪 呢? 原来 老虎 就像 老婆 一样,已经 词化 为 一个 双音节 词。 我们 可以 说 ‘小 老虎’就像 可以 说‘年轻 漂亮 的 老婆’那样,因为‘老婆’不 等于‘老婆婆’啊! ‘老’字 词素 的 原意 在 词化 过程 中 消失了。 汉语 拼音 可以 用 laohu 来 表达 ‘老虎’的音 和 义,但老猫 则 应该 分写 为‘老 猫’lao mao 。从 字 本位 出发,我们 如何 说明 ‘老婆’ 不 等于‘老 婆婆’ 呢? 汉语 词化 的 标志 包括 汉字 不 显示 的 轻声 和 变调 等 语言 事实。 鉴于 双音节 汉语词 占 全部 语词 的 80% 以上,词儿 连写 发挥 明确化 词形 和 排除 歧义 的 作用,例如‘东 西 矛盾’和 ‘东西 掉了’应该 分别 拼写 为‘dong xi maodun’ 和‘dongxi diaole’。
联合国 会议 名称 反映 单音节 的 不 稳定性
联合国 曾经 举行 ENERGY CONFERENCE 和 WATER CONFERENCE 两个 会议。 前者 的 中文 名称 为‘能源 会议’,皆因‘能 会议’显得 很 别扭 和 可能 被 误解 为‘能够 会议’。 幸好 ‘能源 会议’主要 讨论 世界能源 问题,因而 不会 引起 误解。 其后 举行的WATER CONFERENCE 会议 也 循例地 被 称为‘水源 会议’。 不过 由于‘水源’指的是 WATER SOURCE 而非 WATER, 而 问题 是,如果 会议 同时 讨论 水灾 和 水 污染 等 问题 时,岂不是 不 符合 水源 的 主题 吗? 其实,为了 避用 单音节词 而 产生 的 翻译 错误 是 屡见不鲜的,其中 包括 把 MATERIALISM译为 ‘唯物主义’。 关键 在于‘物主义’语意 正确 但 语感 不佳。 然而,无中生有 的‘唯’字 却 扭曲 了 词义, MATERIALISM 里 没有 ‘唯’的 意思。 如果 一定 要 避免 单音节词 ,把MATERIALISM 称为‘物源主义’也许 会 好些。 汉字 不 分词 的 书写 习惯 掩盖了 汉语 以 双音节词 为主 的 特性。 汉字 全 连写 等于 全 分写,无法 利用 空格 来 提供 正确 的 语言 信息。 这种 情况 也 不利于 和 外文 进行 接轨 和 交流。不管 怎样,如果 要 让 汉语 走向 世界,就 有 必要 让 汉语文 全面 落实 分词 连写。
信息 压缩 的 语词 捆绑 趋势
人们 早已 习惯 把 描述 固定 事物 的 词组 变为 缩写,例如 把 ‘美利坚合众国’和‘中华人民共和国’压缩 为 ‘美国’和‘中国’。 在 社会 事务 日益 复杂 的
时代,字母字 是 信息 压缩 的 捷径,例如 CCTV,DNA,DVD, CEPA 分别 是‘中央
电视台’,‘脱氧 核糖 核酸’,‘数字 视碟’;CEPA GB 分别 是‘中港 更 紧密 经贸 关系 安排’和‘国家 标准’的 简称(后者 是 汉语 拼音 字母字)。 现代 众多 的 新 词汇 都是 多音节词,例如 艾滋病、视窗、基因、模因、水门(事件)、手机、荷尔蒙、柯德松 等。现代 汉语 词汇 的 上述 情况,都 应该 从 词本位 的 角度来 考虑。
应该 指出,人类 大脑 只能 同时 处理 7 个 信息 单元,不管 这些 单元 是 字 还是 词 或 词组。古诗 只有 七言诗 而 没有 八言诗,可见 古人 也 懂得 这个 道理。 人们 很 自然地 把 八位 数字 电话 号码 分为 两组 四位 数字,例如 8623 7445。分词 连写 除了 反映 多音节 汉语 的 特点 之外,还 同时 具有 更 有效 利用 信息 单元 的 原理。这里 包含 为什么 中文 句子 通常 比 外文 句子 短 的 深层 原因。 无论如何‘中国’一词 的 左右 两边 应该 加上 空格,否则,检索‘中国’的 资料 时 会 同时 找到 许多 关于‘发展中国家’的信息。
词本位 的 汉语 教学
考虑到 汉语 双音节词 占 绝大 多数 和 单音节词 不稳定 的 特点,汉语 教学 绝对 应该 采用 以词为本 的 教学法。例如:
让 我们 大家 一起来 唱歌 跳舞。
rang women dajia yiqilai changge tiaowu.
而 不是:
让 我 们 大 家 一 起 来 唱 歌 跳 舞。
rang wo men da jia yi qi lai chang ge tiao wu.
中文 文书 处理 保留 词化 输入 的 选择
为了 减少 选字 的 麻烦,现行 的 拼音 汉字 输入法 都 采用 词化 输入。 可惜 输出 的 汉字 文本 却 没有 分词 信息。 例如,输入dajia dou xiguan shiyong Weiruan de Bangongshi ruanjian 的 相应 输出 是 ‘大家都习惯使用微软视窗的办公室软件’字串,而 不是‘大家 都 习惯 使用 微软 视窗 的 办公室 软件’。 笔者 希望 文书 处理 软件 能够 提供 保留 分词 信息 的 选择。这 将 大有助 于 中文 信息 检索,机器 翻译 和 词汇 自动 校对 等 作业。大家 应该 接受‘与时俱进’的 观点,文化 基因 (模因)是 完全 可以 改变 来 适应 时代 的 需要 的!