阅读文章

陈蔚松:信息时代书同文:汉字数字化进程回顾及思考

[日期:2011-05-12] 来源:语言文字网  作者:陈蔚松 [字体: ]

信息时代书同文:汉字数字化进程回顾及思考

陈 蔚 松

陈蔚松先生(右)和夫人在研讨会上

  陈蔚松先生(右)和夫人在研讨会上

汉字是世界上历史悠久而唯一沿用至今的文字。历经几千年沧桑,汉字也随着19世纪、20世纪工业化、信息化浪潮跨入了数字化进程。进入20世纪70、80年代,在计算机汉字输入的编码实践中,海峡两岸的中国专家学者便不同程度地提出了汉字数字化问题。由于汉字的形体特点,在电报通信、字典编纂、汉字排序检索、计算机输入等领域,汉字信息转换为十进制数字0~9,是一个有必要回顾、总结并进一步探索、研究、开发、应用的数字化进程。

三角编码是较早应用于中文电脑系统,并在国际间产生广泛影响的一种汉字数字编码,从设计思想、编码理论而言,研制者台湾胡立人等已明确提出了编码主要目的是提供一种汉字数字化方法:“为了数据处理、远程通讯及打印输出,需要对汉字进行编码,这个编码过程并不简单。三角编码法构成一个编码、索引和检索系统,它合理地把一个标识数分配给相应的汉字,主要目的在于提供一个更加一致的数字化方法,以有效地减少汉字输入中的困难。”[1]三角编码法的应用和推广,是汉字数字化进程中一个重要的里程碑。

与二角、三角、四角编编码不同,另一类数字编码则着眼于汉字构造的最小单位-笔画,如李金铠等人的笔形码、澳大利亚卢遂现的笔顺码以及“五笔画”笔形码。从李金铠等人的笔形码、澳大利亚卢遂现的笔顺码以及“五笔画”笔形码总体来看,李金铠长城笔形码是一种很有代表性的汉字数字编码,在电脑汉字输入领域取得了多项第一,以突出的成绩具体实践了汉字数字化:“把二度空间排列的汉字笔画简单地译成线性排列的数码”,“直接用数码进行汉字信息传输”[2],并产生了广泛的影响;Windows98在系统安装时预置了智能ABC等中文输入法,智能ABC除用拼音输入外,还用长城笔形码输入。但是另一方面,我们也可以看出,以上三种笔形码都是细分到笔画,规定性的成分很多,笔画排列各不相同,反不如四角号码法取码笔形实际上是包含单笔画和笔画组合,较为直观简易,取码口诀也有一定的规律性和合理性。

无理序号数字编码法设计人是肖水清先生,所以也称“肖码”。“肖码”是一种广泛选取声母、韵母、笔画特征信息的数字编码系统,包括音(声母、韵母)、形(部首、笔画)数字编码法和纯形(部首、笔画)数字编码法。其键位设计中利用0~9十个阿拉伯数字汉语读音(4还兼用其简谱唱名)对应数字声母、韵母,也利用部首笔画数来对应1~7数字键,一定程度上建立了汉字特征信息与十个数字键之间互相关联的映射关系,有一定的“有理性”。不过“肖码”数字编码系统涵盖面太宽,编码程序还是比较复杂,需要较多的思考过程,也增加了一些使用难度;而且汉字特征信息与数字键之间映射关系的有理性非常有限,也比较脆弱,比如用部首笔画数对应1~7数字键,除1笔、2笔、3笔之外,较多的部首笔画数不容易一下判定、也不容易记住;而数字键8、9、0又对应几十个非规律性的部首,可见部首笔画数对应数字键也前後不一致、不统一。

纵横汉字编码法是周忠继先生的研究成果。纵横汉字编码法把构成汉字的笔画分成10种基本笔形,分别用0-9这十个数字表示,类似四角号码的取码法,其笔形与数字代码关係也用四句口诀记忆,前三句与四角号码法基本相同,第四句改为:“撇与左钩都是零”。为了减少重码,纵横汉字编码法还把汉字的字形划分为有部首汉字、无部首汉字两类;有部首汉字再划分出主部首和副部首。对于不同类型的汉字,或取四角笔形代码、或取部首+字身编码,其类型、规则、步骤比较繁琐;而更主要的问题是,其笔形数字代码缺少新意。

燕京学社引得编纂处编纂的引得(“引得”译自英文index,即“索引”之改译。),采用洪业创製的“中国字庋(guǐ)撷(xié)”,先把汉字字体分为以“中国字庋撷”五个字代表的独体字、包托字、上下体、左壳体、左右体五种结构,依次用阿拉伯数字1、2、3、4、5为代号;再把汉字笔画分为十种,用 0~9十个阿拉伯数字取号,其取号原理略与四角号码法相同,但代号不一样,其笔形与数码代号对照如下:

笔画   、  一   丿  十  又  扌  糹   厂  目  八

号码   0   1    2   3   4   5   6    7   8   9

燕京学社引得编纂处为几十种重要的文史典籍编排数字编码索引(引得),涵盖众多典籍,规模宏大,影响深远。燕京学社这一套引得采用中国字庋撷法这种数字式汉字编码,相对于旧有的部首法、笔画法而言,其手段(用阿拉伯数码0~9)是一种创新,在当时已属超前,在今天也还是先进的;但其具体方法层次太多、过于严密,因而显得十分繁琐,不易掌握,目前很少人使用。然而,这一套文史典籍引得的编辑出版和使用,也是汉字数字化进程的一个重要方面。今天看来,这一套数字化引得也可以重新开发,改造利用。我们现在深入探究,可以看出,中国字庋撷法这种数字式汉字编码的最大弱点,仍然是数字编码与汉字本身的联系不自然、不紧密;不管是用数字1~5代表五种结构,还是用数字0~9代表十种笔画,其人为规定性居多,而结合、反映汉文字本身的特征性很少。

由中国地质大学(北京)地质科术公司计算机应用开发部张金玲等研制成功的结构数字码,又称方块码,是以汉字规范字形结构为依据,利用字块特征,以数字作为代码的汉字编码方法,也是一种新的汉字检索方法。结构数字码跳出纯笔画、按笔顺的局限,立足于汉字结构分析,拓展了编码层面,但其具体编码存在较大缺陷:独体字编码不管是基本笔画横、竖、撇、点、折代码1、2、3、4、5,还是有交叉笔画代码6、7、8、9、0全是规定性编码,没有特征性;而合体字编码,其层次分析及层次结构代码显得复杂繁琐,如“氵扌”代码为8、“口8代码为9,同样是规定性编码,完全没有特征性。这样的编码不好记、不好用。     

信息资源数字化是进入信息社会的重要标志,新旧世纪之交,我国的文化资源电子化正在从零星製作发展成规模开发;从初期的图形扫描发展为字符数字化;从做目录、文摘发展为做全文;从製作单机版CD发展为製成网络版、Internet版数据库,并出现了一批卓有成效的成果。如2000年荣获首届国家电子出版物奖、由北京书同文电脑技术有限公司开发的《文渊阁四库全书》电子版;由北京大学中文系开发的“网上全唐诗电子检索系统”;致力于融合中国传统文化与现代社会的“国学网”等,这都是信息时代中华文化“书同文”的新进程。这些用电子计算机编製的文献索引、电子书,是数字化时代的新成果、新产品,它的规模、数量及功能作用等都远远超过以往人工编製的文献索引。但是我们现在使用这些新成果、新产品的手段却相对滞後,在书本文献检索中,我们仍然要使用功能有一定局限的拼音检字法、四角号码检字法;又常常不得不沿用千百年来的部首笔画检字法,或对或错地定部首、一笔一画地数笔画。即便使用电脑检索,你也得输入要检索的字或词,如果用音码,同音字太多,你得借助屏幕显示、点击数字键选择,影响输入速度;遇到读音不准、读音不知的字,你还得查字典,字典查不出,音码就不能用了。如果用形码,形码很多,各有短长,但总免不了在部件、笔画、笔顺的迷宫中兜圈子,为复杂的规则、限制、特例费尽心神,忍受种种纷扰。这些手段、方法的滞後,与数字化时代多么不协调!总之,文献检索、汉字编码存在的种种现实问题,值得我们深思,值得我们探索。

1993年12月8日47期《计算机世界》报道,国际标准ISO//IEC10646(即国家标准GB13000)“统一的中日韩汉字大字符集”制订完成,这是新一代多文种信息技术的国产化平台“Unicode”里的一个子集,收有20902个中日韩三国汉字,之後还有扩充集,汉字增至70000多个。国际标准“统一的中日韩汉字大字符集”的研製与使用,把汉字应用推向了国际化的时代,也把中日韩语文现代化的任务提到了语言文字学和信息工程界面前。1994年4月4日《上海译报》报道,韩国总统金泳三提出建议,主张统一在中国、韩国和日本所用的汉字的字形和字义。他认为统一汉字的做法有助于中国、日本、韩国三国的电脑交易和电讯来往。这一方面说明世界有识之士和领袖人物很重视汉字的国际标准,另一方面也说明汉字圈的各国和地区都努力在国际标准汉字信息技术的完善和进一步发展方面开展工作,以求得新的突破;同时我们也可以看出,中日韩国际标准汉字的排序、检索、传输也迫切需要统一。

有识之士都认识到,目前,T9和九方等提供的数字拼音、数字笔画输入术要让10个键承担26个字母或者多种笔画的任务,其实有点勉为其难,很难达到快速输入的效果[3]。再如,五笔数码和五笔字型一样,它仍然需要拆汉字、背字根,使得很多手机用户望而生畏。又如,国笔输入系统2006内置拼音、笔画、英文和数字输入,可快速切换,据称“完全替代T9 输入法,比T9强N倍”。但是,国笔笔画输入模式依然是:按照日常写字的笔顺,依次输入对应于1~5健上的笔画,直到需要的字出现在屏幕上,这同T9笔画输入法、五笔数码一样,都属于拆分笔画强调笔顺,常常要按选择键的类型。这一类型的数码输入法与数字没有联系,只是笔画码,只为单纯输入,不能一步到位解决汉字的排序、检索等数字化存储、传输问题。

黄北成《中文在信息时代的“书同文”》一文指出:在PC电脑时代,为了適应字母键盘的处理,汉字外延出以拼音为代表的字符形态(亦有放弃汉字,拼音文字化的主张)。进入互联网时代,汉字需要表现为一维数字形态。汉字形态丰富,承载了中华五千年文明,应该深入研究而不是“削足適履”。汉字编码理论必须从结构层面上解决汉字的数字化描述,以適应数字键盘输入和网络信息处理的需要。[4]

我国语言文字要实现信息化,汉字信息处理的理论和技术方面还有许多问题尚待解决。目前手机中文输入都是把字母、笔画标在数字键上,或按拼音、或按笔画输入,再不断地按选择键。理论上无建树,技术上不先进。汉字信息处理、汉字输入,至今仍是信息时代的大问题。要关注、要適应目前国内国际迫切的实际需要,必须深入研究信息处理的对象--汉字本身的结构特征,特别是具体研究汉字笔画、部件及其组合的数字信息,做到数字代码和汉字本身数字信息的统一。钱伟长教授汉字“符号”说与李约瑟博士汉字“数学”素质说,都揭示了汉字的数理特征。实际上,从二维图形、拓扑结构来分析,汉字形体结构本身具有非常重要的特征性数字信息。根据汉字形体构造本身具有的特征性数字信息,结合中外学者的探讨和摸索,我已逐步提出汉字象数结构系统研究的源头创新思想,提出汉字象数学、汉字数字信息研究的创新理论体系,其理论著述陆续发表,其技术层面的《全汉字象数输入法》2007年年初已被授予国家发明专利,获得自主知识产权。汉字象数学、汉字数字信息研究的理论体系重祖合、重结构,少拆分,突出二维平面,特别注重分析、揭示和利用汉字本身笔画组合及部件的数字信息。这种创新思想和理论体系也有久远的历史渊源,又有民俗的现实的应用基础,对汉字信息处理有重要的理论价值和实践意义;全汉字象数码将汉字特征性的数字信息直接转换为数字编码,数字信息、数字编码、数字键三“点”一线,径直快捷,一步到位地解决汉字排序、存储、传输、检索数字化这一个信息时代的关键问题;其象数符号一目了然,好记好用,不必标在数字键上;笔画部件按形取码,不必死记硬背。

具有突出特徵的点画丶在汉字构造中是最活跃的元素,在许多组合中点画丶体现的数值是1,在有的笔画序列(丶一丨丿用“寒来暑往”四个字的起笔来表示)中,点画丶的序号也是1;因此,在很多情况下,点画丶的数字信息是1,即:丶1(与一1不矛盾), 因此则有相应的象数符号序列及其数字信息:

            丶   冫  氵   灬       

        1   2   3      4

而在另外情况下,点画丶与其它笔画组合,则根据其组合或部件所具有的象数特征确定其数字信息。

与点画丶同例,折笔在汉字构造中是富于变化而丰富多彩的笔形,特别具有形象化数字特征。我们可以根据不同的折笔笔形突出的形象化数字信息特征,分别确定这些折笔为与数字2、3、5、6、7对应而相符的象数符号:

          ㄋ   亅   乚し  ∟ ㄥ     乛 

2        3         5         6          7

笔画、部件的数量组合是汉字结构重要的数字信息.汉字的笔画、部件组合有重复、迭合、照应、对称、并列、平行等特征性数量关係,其特征数字信息可以用象数编码表示,比如:

    品      彡     川     哭     器      圭

72    03   6(2×3)   24   02413   04413    512                           

汉字象数结构理论特别注重分析、揭示和利用汉字笔画组合及部件的数字信息。五笔数码特别要编口诀:1键横提2竖钩,3撇4捺点点头;凡是拐弯都是5,6键方框日66。又特别注明:“囗”的代码为6,可把“日”视为两个“口”,其输入码为66。“囗”代码为6,这是照般四角号码法之口诀“方框6”。其实,四角号码法“7角八8九是小”已不自觉地触及了汉字笔画、部件的数字信息,相当有价值;而其“方框6”“点下有横变零头”却错了位,如果调换为“方框(囗)0”“点下有横(亠)六字头”,便正好表现汉字笔画、部件的数字信息。而五笔数码虽名为数码,实为笔画码,它照般四角号码法错了位的“方框6”,又硬性规定把“日”视为两个“口”,其输入码为66,这又混用部件码。按照汉字象数结构理论分析:“囗”就是0的象数符号,“日”是0的象数符号包含中文数字一,两字的数字信息一目了然:囗0,日01。与T9笔画输入法常常犯难出错截然不同,按照汉字象数结构理论分析:女,是数字七、7构成的接块,其数字信息一目了然:77。 ,其折笔ㄋ是3的象数符号,ノノ平行是ノ的集合,其象数符号为4(2×2), 的数字信息也一目了然:34。在汉字象数结构理论的具体应用中,象数码0~9与数字键0~9一一对应,两者一致、两者统一;象数码与象数符号联系紧密,一目了然,好用好记,象数符号不必标在数字键上,这与目前把笔画标在数字键上的许多手机输入码显著不同。

刘春华强调《汉字排检与编码输入应合二为一》:“用于辞书的汉字排检法已有约二千年的历史,而用于电脑的汉字编码则仅仅是近二十年的事。二者都用于汉字的排序和检索,不同的是前者用于手工检索,後者用于电脑检索(汉字输入实际上就是从电脑字库中检索汉字)。由于传统的排检法不能满足电脑应用要求,才需要汉字编码。既然要研究汉字编码,就应兼顾二者之需要,使二者走向统一。一种汉字,没有必要使用两种检索概念。”[5]

全汉字象数码是以0~9十个阿拉伯数字为码元的一种形码,它形象、快捷地反映汉字结构(笔画、部件的形体及其组合)的数学特征、数量关係、数字信息,按照一定的规则组成特征信息编码-象数码,这种创新编码是用数字编码反映、表达汉字的笔画、部件及其组合本身所具有的突出的数字特征(包括数量的、数值的),实现汉字数字编码和汉字结构特征、汉字数字信息的内在统一,实现汉字自然的而不是强制的、有理的而不是无理的顺序排列,也可以说是直接简易地使汉字实现十进位制“数字化”,由此而用作字典排序码、文献检索码,用作计算机、手机输入码,也可以为中华字符集研製准确、快捷的排序检索方法和方便的输入方法。应用全汉字象数结构系统可以给甲骨文、金文、简帛等古文字统一编码,并方便快捷地实现键盘输入。还可用于给西夏文,日文假名、朝韩谚文等汉字系文字编码,实现其数字化输入。一种编码,多种用途,实现汉字编码的规范统一,实现汉字编码的标准化和国际化。

                                        (本文为删节稿)

 【参考文献】

[1]胡立人等:《模式识别的三角编码法》,《中文信息》1987年第3、4期。

[2]李金铠 李毅民:《汉字笔形拼音编码双轨方案》,《汉字编码方案彙编》,科学技术文献出版社,1980年3月版,第50页。

[3]马晓光:《输入法能否突破“瓶颈”》,2003年11月1日《电脑报》。

[4]语言文字网:《汉字输入技术与应用研讨会论文集》。

[5]《语文建设》1997年第2期。

陈蔚松先生,华中师范大学历史文献研究所教授,主要从事文献学、汉字学及汉字信息学研究。

邮编:430079;            E-mail:weisongchen@163.com




阅读:
录入:湘里伢子

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇: 胡百华:“中华同文”出版的推广与前景

下一篇:周南祥:汉字书同文与汉字完善化
相关文章      
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章