湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南
语言文字网(YYWZW.COM)>>>专题文>>>论汉文字改革

论信息时代的汉文字改革

“第七次汉字书同文学术研讨会”2004816  中国  上海


二、信息时代汉语言记录符号与记录工具的矛盾

 

2.1 信息时代汉语言电磁光记录方式的特点

电子计算机的诞生,标志着人类社会信息时代的开始。当计算机这一新事物进入中国并在价格和体积上都达到了普及水平时,就因其无与伦比的优越性能在汉文字处理领域被广泛使用,正在逐步成为继笔以后记录汉语言的又一新工具,同时也给汉文字的使用和改革带来了新的课题。

在汉语言记录方式的几何时代,人们是使用通过刀尖或笔尖(锋)这个“点”在龟甲、兽骨、简帛、纸张等“面”上的运动这种几何方式来记录汉语言的。在对语言的记录过程中,是以单个汉文字为单位,写完一个字,再写下一个字。在某一个单字的书写过程中,是一个线条一个线条或者按习惯的说法是一个笔画一个笔画进行的。这种几何方式决定了在这一时期内汉文字变革的内容是汉文字几何形态的变化和线条(笔画)数的增减。故而才有从篆到隶的古今汉文字分水岭的产生及其后的楷化;才有从古至今的汉文字简化运动。

学术界一直流行着一种观点,认为汉文字变革发展的总趋势是“由繁趋简”。其实,由繁趋简只是在对汉语言的记录采用几何方式这一特定历史阶段中的总发展趋势(诚然,这个历史阶段是足够长的,已有近四千年历史),当汉民族开始采用电子计算机为工具,以全新的电、磁、光方式来记录自己的语言时,就出现了新的情况,遇到了新的矛盾。汉文字的变革趋势也必将会发生新的变化。

在汉语言记录方式的电磁光时代,人们采用电磁光方式来记录汉语言。由于所有交给计算机处理的信息,包括文字、图形、图像、声音乃至视频,在机内都必须以二进制形式存储和传送,所以,汉文字处理过程中所用到的机内码、显示字形码、打印字形码和交换码[ 6 ]也均无例外。在采用GB231280标准或GBK标准条件下,每一个汉文字不论笔画数,其机内码均占用二个字节;在ISO10646多八位编码字符集中,每一个汉文字不论笔画数,均占用4个字节。字库方面,以点阵字库为例,显示字库一般采用16×16点阵,每一个汉文字的字形码均占用同等的32个字节空间;打印字库一般采用24×24点阵,每一个汉文字的字形码均占用同等的72个字节空间。不管是用笔写字时只有1笔的“一”,还是有24笔的“鑫”,无一能够例外。因此,所有的汉文字,不论其笔画数的多少,在主频和字长[ 7 ]相同的计算机内的处理速度都是相等的。即便在不同配置的两台计算机中,由于计算机极高的运算速度,由处理器主频和字长的差异所引起的处理速度上的差异,与用手执笔书写时由于笔画多寡引起的速度上的差异相比,也完全可以忽略不计。也就是说,在计算机处理汉字的过程中,原来用手执笔写字时由于字与字之间笔画多寡带来的记录速度上的差异完全消失了;原来用手执笔写字时不同字体在书写方便程度上的差异也消失了。由于汉文字在机内被转化成了二进制的数字形式,所以在整个的机内处理过程中,几何方式下的“点”、“线”和“面”也都消失了。据此,我们说汉文字在机内的整个处理过程对用户来说是透明[ 8 ],可以认为汉文字在计算机内的整个处理过程与用户无关。只有当在显示器上显示输出和在打印机上打印输出时,人们才能又看到自己所熟悉的汉文字。然而,汉文字在计算机显示器屏幕上以及打印纸上的形成过程,也已经跟几何方式下汉文字在记录介质上的形成过程完全不同了。显示器是经过逐行扫描在屏幕上显示汉文字的,每扫描一行,是显示文本中该行所有文字处于同一扫描行上的点,而不是以单个汉字为单位显示,更不是逐笔逐笔地显示。打印过程和显示过程相似,也不是以单个字符为单位进行的。打印头每运动一次,不一定都能打印出一行文字的全部,可能只打印出一行文字的半行,或者小半行,也或者是大半行。换句话说,就是同一行文字中的每个字可能都只被打印出了半个,或者小半个或大半个(见图四)。由于打印头的匀速运动和各个汉文字在打印纸上所占面积相等,每个汉文字不论其笔画多寡在同一台打印机上的打印速度都是相等的。至于在磁盘和光盘上的存储,就完全是利用电磁原理或光电原理以数字方式进行了。笔画数相异的两个汉文字,由于其二进制代码所占字节数相同,所以在存储设备上的读写速度也完全相同。

 

  图四 计算机控制下打印机的打印头运动一次的一种结果

 由以上分析可知,电磁光方式下汉语言记录过程的特点与几何方式下汉语言记录过程的特点已完全不同了,所以,在电磁光方式下汉语言记录符号与记录工具的矛盾,较之几何方式下汉语言记录符号与记录工具的矛盾,有着全新的内容和表现形式。它们必然会要求作为汉语言记录符号的汉文字进行相应的变革以适应之。

那么,在电磁光方式下,汉语言记录符号与记录工具的矛盾究竟有哪些具体内容呢?这一矛盾的运动对汉文字的改革又有什么要求呢?让我们在下面的章节中来作进一步的探讨。

2.2 信息时代汉语言记录符号与记录工具的主要矛盾

计算机处理信息,主要经过三大环节:输入、处理、输出。如上节所述,计算机机内对汉文字的处理过程对用户来说是透明的,其显示和打印输出也都由机器自动完成,所以,使用计算机记录汉语言过程的关键环节在于输入。

汉文字的计算机输入方式,主要有键盘输入、手写输入、语音输入和扫描输入四种方式。

键盘输入方式,是使用计算机标准配置中的通用键盘输入汉文字。手写输入是为计算机增配专门的硬件(手写板和手写笔)和软件,用平常在纸上写字的方法在手写板上写字来输入汉文字。语音输入是通过对着与计算机相联的话筒朗读文本来输入汉文字。扫描输入是通过扫描仪把汉文字输入计算机中。

上述四种方式中,手写输入、语音输入和扫描输入所使用的专用硬件和软件不是每台计算机都有的,不是计算机的一般配置(这里暂且不论这三种输入方式所达到的实用程度)。手写输入和语音输入又都有一个用户的笔迹和口音的差异问题,一般在技术上由相关软件的自学习功能来解决;在这种情况下,如果同一台机器换了一个新用户,或者同一个用户换用非本人专用的机器,都会发生机器对输入信息的识别困难。扫描输入主要用于印刷文本。因此这三种输入方式下汉文字与计算机的矛盾不具一般性。另一方面,手写输入的过程与人们用笔写字的过程并无不同;语音输入在输入过程中使用的是语音,与字形无关;扫描输入的信源是书面文本,是对汉语言的二次记录,所以在这三种输入方式下汉文字与计算机之间的矛盾不是汉语言记录符号和记录工具之间的新矛盾。键盘是计算机的标准配置,无论哪台计算机上都有。任何一个人,在世界任何地方的任何一台安装了中文操作系统的计算机上处理汉文字时,在不另加专用软硬件的情况下,可以使用的输入设备就只有键盘;而键盘上却又没有汉文字键。如何通过没有汉文字键的键盘把汉文字输入计算机,就成了用计算机处理汉文字的首当其冲的普遍性问题,因此,键盘输入方式下汉文字与计算机的矛盾是信息时代汉语言记录符号与记录工具的普遍性的或者说是主要的矛盾。近十年来出现的汉文字计算机键盘输入编码方案的“万码奔腾”现象,正是这一矛盾的集中表现。

通过以上讨论,我们可以得出:在汉语言记录方式的电磁光时代,汉语言记录工具对汉文字改革的主要要求,是汉文字要适应计算机键盘输入的需要。本文以下凡是提到计算机汉文字处理,均指汉文字的计算机键盘输入。

2.3 汉文字与计算机键盘的矛盾及其解决途径

2.3.1 汉文字与计算机键盘字符键在数量上的矛盾

通过计算机键盘输入汉文字,首先遇到的是汉文字与键盘上字符键在数量上的矛盾。

我们先看汉文字的情况。现代通用汉字约有7000。如果把历史上存在和使用过的都算进去,汉文字的数量又有多少呢?从历代辞书的收字数来看,收字最多的是中华书局1994年出版的《中华字海》,共收85000字。1986 年至1990年陆续出版的八卷本《汉语大字典》收字数为54678

再看计算机。计算机键盘打字键区的字符键有:26个拉丁字母键、10个阿拉伯数符键以及21 个常用符号键(包含32 个符号)。21个常用符号键中,有10个符号处于数符键的上档,另有11个键每个键均有二个符号分处上、下二档,所以共有21个符号处于键的上档。上档的符号输入时须按Shift键,操作上不方便,所以不能用作汉文字的输入键;其余符号在文档中经常用作标点符号,所以须留作专用。这样,可以用来输入汉字的字符键就只有10个数字字符键和26个字母字符键。而数字字符和字母字符分属不同的符号集,一般不混用,所以,在输入汉字时,要么用26个字母键,要么用10个数符键(也有个别键盘输入编码方案混合使用字母键和数符键)。

10个数符键或26 个字母键对数万汉文字,悬殊是何等之大!即便把用字范围限制在GB2312-80《信息交换用汉字编码字符集-基本集》(以下简称《基本集》)内,计算机键盘仍然面对着6763这个巨大字数。如果采用10个数字字符键输入汉文字,键数与字数的比例为1676.3;如果采用26个字母字符键输入汉文字,键数与字数的比例约为1260。怎么解决这个矛盾,就成了首要问题。

2.3.2 关于汉文字拉丁化的思考

由于计算机键盘字符键数量与汉文字数量的尖锐矛盾,人们自然就想到早就由汉字拼音化改革论者们提出的汉字拉丁化主张。如果改革表意的汉文字为表音文字,用计算机键盘上的26个拉丁字母作为汉民族文字,问题不就彻底解决了吗?

那么,这个办法到底是否可行呢?这个问题,必须通过考察汉文字与它所记录的汉语言的关系来回答。

汉文字之所以至今没有走上拼音文字的道路,而保持表意文字的体系历数千年而不衰,总有她的道理,这个道理,就是因为她“跟汉语相适应”(张志公1998P725)。汉语是非形态语言,不需要用音素来表示形态变化。汉语又是主要以单音节语素为发音单位的,而现代汉字是“表意体系的语素文字”(李禄兴2003P142)。在绝大多数情况下,它用一个符号来表示汉语中的一个语素,记录一个语素的语音和语义,用起来很方便。所以,“汉字是不应当废除的,也是废除不了的。”(张志公 1998:P728)作为自源文字的汉字是“不可能突变为拼音文字”的(李葆嘉  2001)。

从卢戆章1892年发表《一目了然初阶》到1923年钱玄同的《汉字革命》,再从1931年海参威的《中国新文字第一次代表大会》直到如今,100多年来汉文字拉丁化运动收效甚微的历史实践也说明:用拉丁文字记录汉语这条路行不通,起码在可以预见的历史时期内是这样。

2.3.3 解决汉文字与计算机键盘字符键数量矛盾的途径

既然在可以预见的历史时期内用拉丁文字代替表意的方块汉文字还行不通,那么我们就必须立足于现行表意的汉文字体系来解决其与计算机键盘字符键在数量上的尖锐矛盾。解决的办法就是利用数学上的排列组合原理来为汉文字编码。

根据排列组合原理,对m个元素,每次取其n个,设其中任一元素均可重复取用,则共可产生 个不同的元素组合。也就是说,要让10个数字字符键或26个字母字符键担当输入至少6763个汉文字的任务,就必须用若干个键符的组合来表示一个汉文字。以使用数字字符集的10个数字符为例,如果每组用4个数字符,则共可产生10410000种不同的代码组合,就可以表示10000个汉文字。

定义2。1:用小规模符号集(数字字符集或字母字符集)的元素组合序列表示大规模汉文字集元素(单个汉文字)的过程称作对汉文字的编码[ 9 ]

编码是我们解决键符和汉文字之间数量矛盾的唯一可行的办法,所以,在信息时代,汉文字必须适应编码的需要

为了探究现代汉文字与编码需要之间的适应性程度和尚待解决的矛盾,我们需要分别探讨汉文字编码原理和汉文字的相关特性。

----------------------------

 

[ 6 ]  关于计算机使用的汉字机内码、字形码、交换码,请参阅钱培德《计算机中文信息处理技术》P6~ P18及周浩华《计算机汉字系统的设计与实现》P10~ P22。

[ 7 ] “主频”指计算机中央处理器(CPU)的时钟频率即每秒脉冲数。“字长”指计算机中央处理器(CPU)一次能直接处理的二进制位数。这两项是决定计算机运算速度的主要指标。

[ 8 ]“透明”一词在IT业专业术语中可解释为“感觉不到”。

[ 9 ]  GB5271.4 – 85 中对“编码”的定义是:“用数据处理机可接收的符号形式来表示数据或计算机程序。”

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有

地址:中国湖南(湘潭市工贸中专学校)  电话:0731-52573192