湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

汉字输入技术与应用研讨会论文集

   

汉字的信息化与传统文化的结合

  
——用传统文化的语言规则来解决电脑汉字输入方法的探索

  

徐祖哲

  
原信息产业部数据通信技术研究所高级工程师

 

 

【摘  要】电脑应用和传统文化的关系应当引起我们的重视。汉字输入除了适应大众化的问题外,还有一个汉字信息化的发展方向问题。本文通过《十力码》的编制示例来说明,汉字编码输入方法所面临的问题和解决方案所依据的理论。主要涉及部件的称谓规范和数量问题,以及部件字形不能进入电脑字库中的不便。提出了适用于编码的部件“助记音”,汉字的联想描述方法的应用,以连接词来定义高频字编码,对于数字、天干地支、交重字形等不同类型的汉字的编码赋值方法。呼吁在数字化的革命中,保持、发扬传统文化,把现代化与传统有机地结合起来,

 

 

近十多年来,汉字编码的先行者怀着极大的热情,几乎把汉字所有的音、形组合都进行了分析、归纳。但是,始终不能得到公众的普遍认同,编码从“叫好不叫座”到“无人喝彩”。语言对专业录入人员可以是毫无意义的符号,也可以用等量的数字替代。但是,对公众来说语言就是生命,就是情感,是音、形、意的合成,是能够听、说、读、写的一个整体。

汉字的输入方法不仅仅是文字的加工过程,也应当是汉字文化的学习和传播过程。解决输入方法只是入门,而宏扬中华传统文化的电脑应用才是目标。

 

汉字编码的基础准备

 

“编码”的定义是:按某种规则将信息用规定的代码赋值,并可以按相反的规则恢复原始信息。编码不是语言,也不能代替语言。从语言的角度看,汉字编码的基础准备工作尚有不足:

第一,部件无名。国标640个部件中,将近一半的汉字部件没有习惯读音或称谓,或是虽然有过“称谓”,但公众已经不为所知,无法用简洁的自然语言来描述赋值过程。

第二,只拆不联。中国人常用两种方法说明、解释汉字,即:“木子李、弓长张”的拆分法和“革命的革、身体的身”的借字联想法。对不好拆分与形容的“交重型”结构汉字,更多地使用借字组词的说明方法。可是,多数汉字编码方法只使用了“拆字”的理念。

第三,形音分割。语言法则是“音码统一、见字读音”,单纯的符号表达不利于交流、记忆。

“编码”是工业化时代的产物,试图以统一的规则来进行文字的转换。掌握电报码甚至各种密码,对专业人员都不是难事。对大众来说,熟练需要时间,应用要有条件。

 

部件在电脑中竟无容身之处

 

部件是汉字的基础,汉字部件应当是学习研究汉字的必备之物。可是,似乎汉字部件的实用性没有引起社会的重视。

部件并未安装在微机中。

部件规范能进入教学内容吗?

部件的称谓何时解决?

199712月,国标汉字部件公布。现在时间过去了4年多,但是在商品电脑中还是不能找到这些部件的“字库点阵”标准和软件产品。所以,在全国范围内,从网络交流到传统出版都很难在部件级讨论文字,包括文字信息化和文字的起源。

我们使用的部件规范包括了各种常用和不常用的符号,1918年北洋政府公布的注音符号,还有日文、俄文、希腊文字母,偏离就是没有汉字部件的全表。

汉字信息产品也是一种产品,所有的产品都应当检测。但是,至今为止制定的许多检测“输入法”的标准,在一定的意义上只是为了约束那些想随意创新的“编码”人。相反,为什么文字信息化还没有一个包括语言文字和电子信息两大领域都能认可的规范和按部就班的进度计划呢?这种计划不仅要公开和加快实施,也应当考虑到多个专业的交叉、适应不断创新的信息技术和社会需求。

信息化是社会的信息化,我们制定了许多规划,成立了许多部门,但是在思维习惯上还是试图用传统的农业方式或工业化的方式来解决信息化的问题,部件信息化的落后就是一个充分的例证。

 

部件归纳排序,减量增类

 

在信息时代,要完成理想的汉字数字化,也必须认真的考虑部件的“减化”。

一支军队有成千上万的军官,有几百种职务,但是只要有了10几种军衔,就可以称呼任何一位军官,可以指挥素不相识的军人作战。对汉字部件来说,我们是不是也应当创造出适合信息时代的更为合理的部件分类与命名。

如果说,因为有了元素周期表,有了元素名称和符号代码,才推动了化学反应的表达,使化学从炼丹术士和点金术的歧途中走出。那么,在“数字化地球”的时代,这样多的汉字部件至今还缺乏通俗的读音和规范代码,能不认为是“数字化”的一个断层吗?

对于利用26个字母赋值的笔形输入来说,就必须对560个部件进行归纳、合并、排序。当然,这里的归纳与合并不是对部件本身的笔形压缩、修改,而是像对相近的部件赋予共同的称谓与字符,以完成“减少数量,增加类别”。

《汉字部件规范》中的术语“笔形”已经指出:楷书汉字的笔形依据笔势和走向可以分为数十种,基本的类型为:横竖撇点折五类。

笔者认为在笔形上,除了“横竖撇点折”,至少还可以增加一类,暂称其为“合”。把“折笔加点”的部件“厶”等都列入,这些部件现在还没有称谓,可以用“合”字与其赋值代码“V”来形容。这样一来,像“令监以私径”等一类汉字就都可以便捷描述、输入。

“登”“学”等字的首部件,也不会单独使用,它的后面总是跟随着另一半,或是冖一,从部件赋值的角度看多有不便之处。既然相当一些部件本身的含意已经丧失,能不能在部件分类时,以“合并”来方便使用和记忆为主呢?

部件“减量增类”的操作,不仅要考虑部件赋值的简便,适合人的思维习惯;还要避免整字出现赋值重码。因而,恢复部件称谓也不单纯是文字工作者的任务,信息界也有义不容辞的责任。

 

从编码到辅助语言

 

汉字输入编码实际上是中西文字的“分野”。“分野”源于古代地上各州郡邦国和天上一定区域的对应关系(《辞海》721),汉字部件与西文字符的对应自然也有着深刻文化内涵的“分野”。

但是,在实际运作中,编码往往只突出了字符化、数字化的转换过程,在不同程度上忽略了文化观念和人的能力发挥。

汉字信息化并非只能进行传统的“电子化”“机械化”,在设备和技术上做文章。汉字信息化也包括提升“毛笔”时期的文字理论,不能完全按照当前的现代文字应用规范来进行符号置换,不能选择2000年的文字规范;也不能把1980年的语言应用方式作为汉字信息化的符号赋值规范。特别是恢复非成字部件的称谓,要选择3000年前汉字产生之初期,选择部件最活跃时期的信息来作为汉字信息化的符号赋值的基础。

 

部件定名,借字组词

 

通过《十力码》的研制,认为汉字信息化最重要的一项工作是为汉字部件“定名、定音”,即部件的“称谓”。如果书写汉字的整个过程可以用简洁的自然语言描述,汉字输入的编码,以至部件的“直观排序”规则也就会“迎刃而解”。(当前是笔画和笔序二次排序)

汉字输入的大众解决方案应当具有以下特点:

1,所使用的汉字基本部件都应当具有规范化的称谓、通俗读音或助记音;

2,汉字编码采用音码同步方式赋值,按音键码;

3,“拆字”与“借字说明”或称之为“助记音”(因为计算机编程时有“助记符”之称)相结合;

4,用12个字符为部件赋值,并采用简单明确的取码规则;

《十力码》为了实现一种立足于语言的输入方法,为29个无名或无读音部件试定9个读音(助记音)及赋值代码,其中包括:

                 助记音为“泉”(滴水泉),赋值代码为 q

          旅(第7,8笔)助记音为“旗”,赋值代码为 q

          介(第3,4笔)助记音为“腿”,赋值代码为 t

          匚,     助记音为“侧门”,赋值代码为 cm

          、廴, 助记音为“剪刀”,赋值代码为 jd

          勹,   助记音为“鱼钩”,赋值代码为 yg

当然,这种“助记音”还可以有其他方案,字音不是主要的,而是要让“部件”方便记忆。如“勹”也有“包”之读音,但是要解决整体编码赋值的平衡。这个问题也是今后部件称谓赋值应当考虑的问题。如果“部件称谓”赋值合理,直接就可以用于输入编码和汉字教学。

5,将常用的连接词、代词等单字定义编码中的单字符高频字。

汉字是一种节奏性语言,单字和双字节、多字节交替出现,在文字中单字连接词、代词大约占到710%。因而在利用部件助记音的基础上选择单字连接词为编码的单字符高频字,是方便使用的一个创新。

按照26个英文字母的顺序,高频字为:一二才的而厂它和说在口了木如是就其人上地元等为要与中。

对部件要先定音,再依音赋予代码。可以用部件读音(俗称开口音)序列的集合来表达这些部件构成的字。如旅的古字形为多人集中在飘扬的军旗下,其部件读做“方、牛、旗、人”,其赋值字符序列也就自然形成,即用读音声母记为:fnqr

交重结构的汉字部件则通过借字组词方式说明,实施例使用了约150个部件。部件及部件借字词组的赋值字符分别如下:

            (gmm),革命(gm)

            (stt),身体(st)

            (yll),雨露(yl)

 

十力码的分类赋值方法

 

从语言的角度看,不论是字义、还是字音都有多元性。人们习惯于用不同的描述方式来形容同样的事物。如不同的人可以分别用姓名、职务、职称、藉贯、亲属身分、文化水平,甚至于用形体特征来称呼同一个人,而不会发生误会。难道我们不能也使用人们的语言习惯描述具有不同特征的汉字吗?至少,对中文数字、天干地支符号和无名称部件、交重部件可以分类确定不同的赋值描述方法。已经完成的《十力码》把汉字部件分成:数字、天干地支、自然音、表形、

自定助记音、借字组词来说明的部件等几部分。

其中的数字部件赋值口诀为:一AB三(开始)联想;

三读做:三四的三,五为五六的五;十为十全的十;(八避开北京的BJ

数字和赋值代码分别为:

A   B   SS  SW  WL  LQ  QB  BA  JS  SQ

繁体数字类似,第1字符重复一次,如:壹AAB  BBS   SSQ

 

十力码与传统文化

 

六十年前,我国新儒学思潮的哲学奠基人熊十力先生就力图复兴、恢复具有创造精神的、活泼刚健自强的民族文化生命。为了纪念熊十力先生对中国文化的贡献,将这种汉字辅助语言命名为“十力码”。

盛世修字,我国的经济体制改革正在深入进行,随着信息技术的飞速发展,汉语文化的现代化研究也应提到新的高度。应当把汉字输入从工业化的符号处理,转变为语言文字现代化的发展范畴,以适应全民族和历史的需要。在创新机制的推动下,迫切希望文字、编码、软件专业能结合起来,不仅解决输入方法,而是面对信息时代的汉语未来。

我们应当处理好传统与现代化的关系,也应当处理好外来文化与本土文化的关系。要使中华民族文化能适应现代化的发展和社会的要求而变革更新,使传统和现代化达到辩证化的统一。任何辉煌的文化如果不能适应现实生活的需要而停止创新,那它也会因创造力的枯竭而逐渐消亡。另一方面,创新也必需适应人类的进化规律,工具只是人的能力的延伸而不应成为替代。

面临文明与文化,传统与进步的问题,抛弃传统文化遗产的“进步”,能被认为是我们的骄傲吗?中国悠久的文化是中华民族的强大凝聚力量,我们有责任在数字化的革命中,保持、发扬中国的传统文化,而且要把现代化与传统有机地结合起来,汉字的运用就是其中最重要的组成部分。

 

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有