湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南
 

 

谈资料检索中的用字规范问题

魏芙蓉

由于电脑的普及和互连网的发展,资料检索越来越受到人们的重视。然而就现状来看,现行的资料检索存在着许多问题。我们可把这些问题分为三类。1、程序问题。例如输入“工作”,却检索出“笨猪”;输入“矿泉水”,却检索出一堆乱码。这跟计算机编程有关。2、知识问题。例如有这么个故事。有一个12岁的少年,在院子里踢球,把邻居家的玻璃踢碎了。这块玻璃12.5美元买的,你赔。孩子没办法,回家找爸爸。爸爸说,你踢碎的你就赔。没有钱,我借给你,一年后还。在接下来的一年里,这个孩子擦皮鞋、送报纸、打工挣钱,挣了12.5美元还给父亲。那么这个故事的主人公——那个12岁的孩子——是谁呢?杂文作家朱慧松想在网上寻个究竟,结果:“输入关键词,不查不知道,一查吓一跳,类似的新闻在网上有上千条,故事内容大同小异,不过主人公却五花八门,除了里根、华盛顿外,还有两位美国总统林肯、克林顿也‘有幸’赔了玻璃,另外英国前首相丘吉尔也榜上有名,不过文中的12.5美元换成了12.5英镑。最新版本的主人公是比尔·盖茨。”(《究竟是谁赔的玻璃》,《中国青年报》2003428日)3、用字问题。这个问题似乎比上面的两个问题要小,但也不可忽视。我们曾力图在一个小的语料库(由广西师大中文系语言学及应用语言学制作)中检索“坐落”二字,以便明确该词的用法,结果却大失所望,这个库中只能检索到“座落”二字。这跟资料的原始存贮有关。这就涉及了资料检索中的用字规范问题。本文拟就这个问题做一点探讨。

本文的研究方法是,选择28个常见别字和两个人名,对它们及其相应的正确写法加以检索,通过检索的数据发现问题,进而提出解决问题的方法。

我们分别在搜狐网和人民网中检索。检索结果见所附“调查简表”。

*          *          *          *          *

从表中可以看出以下两个问题。1、别字在电脑资料中是普遍存在的。就像出版界的“无错不成书”一样,可以说,无别字不成电脑资料。我们所检索的只是易错词语的一部分,假如把所有易错词语都做一下检索,那结果肯定是令人吃惊的。我们还对两个人名做了检索,一个是“吕叔湘”,一个是“侯耀文”,结果如下:

(吕叔湘)

 

吕叔湘

吕淑湘

吕叔相

吕淑相

搜狐网

994

210

2

1

人民网

41

1

0

0

    (侯耀文)

 

侯耀文

侯跃文

候耀文

候跃文

搜狐网

6214

1344

280

93

人民网

75

87

3

1

    看来,在电脑资料中,别字并不是个别现象。2、别字的分布是不均匀的。不仅两个网站的检索有一定的差异,不同的用字中别字所占比例也相差悬殊。有的别字在两个网站中比例都不大,如“不卑不亢”的“亢”;有的别字在两个网站中比例都不小,如“急流勇退”的“急”;有的别字比例超过50%,也就是说,别字比标准字用得还多,如搜狐网中“坐落”的“坐”,这是不正常的现象。当然,有人说网上重复的内容很多,可是别字有重复的,标准字也会有重复,因此总的看来应该是差不多的,一般不会出现这样的现象:标准字的几十万都是重复的,别字的几十个都不重复。

    根据以上情况,我们认为:1、应该从根源上解决问题,尤其是在电脑资料的存贮阶段,应该花大的力气作好校对及录入工作,把别字尽量扼杀在源头;2、应该做更多的调查,把经常出现的别字按比例排一个表,把错误比例极高的一些用字当作重点规范对象,深入到中小学、媒体、窗口行业进行宣传,使大家对这些字烂熟于心,从而促进汉字规范化工作,为进一步实现书同文奠定基础。

附:调查简表

 

搜狐网

人民网

标准字及用例数

别字及用例数

别字占总数的比例

标准字及用例数

别字及用例数

别字占总数的比例

其妙

194192

9002

4.4%

3194

155

4.6%

精图治

23128

75

3.2%

507

0

0%

义愤填

12292

110

0.8%

841

2

0.2%

下风

11648

476

3.9%

108

5

4.4%

流不息

11899

穿490

3.9%

618

穿8

1.2%

就班

22539

4718

17.3%

842

37

4.2%

忘返

32914

134

0.4%

1070

36

3.2%

指手

10948

6986

38.9%

509

322

38.7%

一如

143346

7042

4.6%

3862

64

1.6%

沧海一

12012

965

7.4%

125

3

2.3%

其实

59780

16492

21.6%

3441

477

12.1%

守成规

7364

109

1.4%

366

2

0.5%

而走险

13733

1736

11.2%

2072

28

1.3%

失措

602

101

14.3%

12

2

14.2%

不卑不

6998

20

0.2%

215

0

0%

名列前

52192

5026

8.7%

2716

34

1.2%

流勇退

3472

2772

44.3%

102

129

55.8%

变本加

19277

1064

5.2%

1107

18

1.6%

水秀

18620

13300

41.6%

580

303

34.3%

文过

1106

11

0.9%

132

0

0%

秋毫

4494

420

8.5%

163

1

0.6%

既往不

2814

308

9.8%

132

1

0.7%

心而论

10990

7742

41.3%

710

125

14.9%

轻歌

4298

378

8.0%

106

1

0.9%

2352

3723

61.2%

82

59

41.8

108220

4494

3.9%

2147

37

1.6%

2052

196

8.7%

1308

22

1.6%

114156

208180

64.5%

4166

907

17.8%

 

          (通讯地址: 广西师范大学图书馆  541004)

 

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有