谈资料检索中的用字规范问题 魏芙蓉 由于电脑的普及和互连网的发展,资料检索越来越受到人们的重视。然而就现状来看,现行的资料检索存在着许多问题。我们可把这些问题分为三类。1、程序问题。例如输入“工作”,却检索出“笨猪”;输入“矿泉水”,却检索出一堆乱码。这跟计算机编程有关。2、知识问题。例如有这么个故事。有一个12岁的少年,在院子里踢球,把邻居家的玻璃踢碎了。这块玻璃12.5美元买的,你赔。孩子没办法,回家找爸爸。爸爸说,你踢碎的你就赔。没有钱,我借给你,一年后还。在接下来的一年里,这个孩子擦皮鞋、送报纸、打工挣钱,挣了12.5美元还给父亲。那么这个故事的主人公——那个12岁的孩子——是谁呢?杂文作家朱慧松想在网上寻个究竟,结果:“输入关键词,不查不知道,一查吓一跳,类似的新闻在网上有上千条,故事内容大同小异,不过主人公却五花八门,除了里根、华盛顿外,还有两位美国总统林肯、克林顿也‘有幸’赔了玻璃,另外英国前首相丘吉尔也榜上有名,不过文中的12.5美元换成了12.5英镑。最新版本的主人公是比尔·盖茨。”(《究竟是谁赔的玻璃》,《中国青年报》2003年4月28日)3、用字问题。这个问题似乎比上面的两个问题要小,但也不可忽视。我们曾力图在一个小的语料库(由广西师大中文系语言学及应用语言学制作)中检索“坐落”二字,以便明确该词的用法,结果却大失所望,这个库中只能检索到“座落”二字。这跟资料的原始存贮有关。这就涉及了资料检索中的用字规范问题。本文拟就这个问题做一点探讨。 本文的研究方法是,选择28个常见别字和两个人名,对它们及其相应的正确写法加以检索,通过检索的数据发现问题,进而提出解决问题的方法。 我们分别在搜狐网和人民网中检索。检索结果见所附“调查简表”。 * * * * * 从表中可以看出以下两个问题。1、别字在电脑资料中是普遍存在的。就像出版界的“无错不成书”一样,可以说,无别字不成电脑资料。我们所检索的只是易错词语的一部分,假如把所有易错词语都做一下检索,那结果肯定是令人吃惊的。我们还对两个人名做了检索,一个是“吕叔湘”,一个是“侯耀文”,结果如下: (吕叔湘) | 吕叔湘 | 吕淑湘 | 吕叔相 | 吕淑相 | 搜狐网 | 994 | 210 | 2 | 1 | 人民网 | 41 | 1 | 0 | 0 |
(侯耀文) | 侯耀文 | 侯跃文 | 候耀文 | 候跃文 | 搜狐网 | 6214 | 1344 | 280 | 93 | 人民网 | 75 | 87 | 3 | 1 |
看来,在电脑资料中,别字并不是个别现象。2、别字的分布是不均匀的。不仅两个网站的检索有一定的差异,不同的用字中别字所占比例也相差悬殊。有的别字在两个网站中比例都不大,如“不卑不亢”的“亢”;有的别字在两个网站中比例都不小,如“急流勇退”的“急”;有的别字比例超过50%,也就是说,别字比标准字用得还多,如搜狐网中“坐落”的“坐”,这是不正常的现象。当然,有人说网上重复的内容很多,可是别字有重复的,标准字也会有重复,因此总的看来应该是差不多的,一般不会出现这样的现象:标准字的几十万都是重复的,别字的几十个都不重复。 根据以上情况,我们认为:1、应该从根源上解决问题,尤其是在电脑资料的存贮阶段,应该花大的力气作好校对及录入工作,把别字尽量扼杀在源头;2、应该做更多的调查,把经常出现的别字按比例排一个表,把错误比例极高的一些用字当作重点规范对象,深入到中小学、媒体、窗口行业进行宣传,使大家对这些字烂熟于心,从而促进汉字规范化工作,为进一步实现书同文奠定基础。 附:调查简表 | 搜狐网 | 人民网 | 标准字及用例数 | 别字及用例数 | 别字占总数的比例 | 标准字及用例数 | 别字及用例数 | 别字占总数的比例 | 莫名其妙 | 名194192 | 明9002 | 4.4% | 名3194 | 明155 | 4.6% | 励精图治 | 励23128 | 厉75 | 3.2% | 励507 | 厉0 | 0% | 义愤填膺 | 膺12292 | 赝110 | 0.8% | 膺841 | 赝2 | 0.2% | 甘拜下风 | 拜11648 | 败476 | 3.9% | 拜108 | 败5 | 4.4% | 川流不息 | 川11899 | 穿490 | 3.9% | 川618 | 穿8 | 1.2% | 按部就班 | 部22539 | 步4718 | 17.3% | 部842 | 步37 | 4.2% | 流连忘返 | 连32914 | 恋134 | 0.4% | 连1070 | 恋36 | 3.2% | 指手画脚 | 画10948 | 划6986 | 38.9% | 画509 | 划322 | 38.7% | 一如既往 | 既143346 | 继7042 | 4.6% | 既3862 | 继64 | 1.6% | 沧海一粟 | 粟12012 | 栗965 | 7.4% | 粟125 | 栗3 | 2.3% | 名副其实 | 副59780 | 符16492 | 21.6% | 副3441 | 符477 | 12.1% | 墨守成规 | 墨7364 | 默109 | 1.4% | 墨366 | 默2 | 0.5% | 铤而走险 | 铤13733 | 挺1736 | 11.2% | 铤2072 | 挺28 | 1.3% | 张皇失措 | 皇602 | 慌101 | 14.3% | 皇12 | 慌2 | 14.2% | 不卑不亢 | 亢6998 | 抗20 | 0.2% | 亢215 | 抗0 | 0% | 名列前茅 | 茅52192 | 矛5026 | 8.7% | 茅2716 | 矛34 | 1.2% | 急流勇退 | 急3472 | 激2772 | 44.3% | 急102 | 激129 | 55.8% | 变本加厉 | 厉19277 | 利1064 | 5.2% | 厉1107 | 利18 | 1.6% | 山清水秀 | 清18620 | 青13300 | 41.6% | 清580 | 303 | 34.3% | 文过饰非 | 饰1106 | 是11 | 0.9% | 饰132 | 是0 | 0% | 明察秋毫 | 察4494 | 查420 | 8.5% | 察163 | 查1 | 0.6% | 既往不咎 | 咎2814 | 究308 | 9.8% | 咎132 | 究1 | 0.7% | 平心而论 | 平10990 | 凭7742 | 41.3% | 平710 | 凭125 | 14.9% | 轻歌曼舞 | 曼4298 | 慢378 | 8.0% | 曼106 | 慢1 | 0.9% | 妥帖 | 帖2352 | 贴3723 | 61.2% | 帖82 | 贴59 | 41.8 | 脉搏 | 搏108220 | 博4494 | 3.9% | 搏2147 | 博37 | 1.6% | 欢度 | 度2052 | 渡196 | 8.7% | 度1308 | 渡22 | 1.6% | 坐落 | 坐114156 | 座208180 | 64.5% | 坐4166 | 座907 | 17.8% |
(通讯地址: 广西师范大学图书馆 541004) |