中国文字浅谈与建议
王克斌
在世界上广为流传和使用的文字中,只有汉字特立独行,属于非拼音的文字。至于为什么汉族会采用方块文字,卓尔不群,那是大家都关心的问题。
从美学的角度观察,用汉语写作的文章,像一座用同样大小的砖砌成的楼房,拼音文字则像是用尺寸不同、形状各异的石块堆成的建筑,前者方方正正、齐齐整整;而后者错落有致,浑然一体。用英文写的诗只能论行,如莎士比亚的13行诗。而汉文却还可以论字,有 4言诗、5 言诗、7 言诗,按行数可以写出绝句和律诗,甚至字数参差的宋词以及 4-6 相间工整对仗的骈俪文。再加上平仄韵律,读起来抑扬顿挫,如珠落玉盘。这种集华丽与整齐为一体的诗文,乃是任何一种拼音文字所望尘莫及。唐初四杰有名句,如“一杯之土未干,六尺之孤安在”,“落霞与孤鹜齐飞,秋水共长天一色”。倘若中土文人拿着这样的文章到西方去设坛摆擂,不管是英格兰的莎翁,还是俄罗斯的托尔斯泰们,抑或法国的巴尔扎克,都会瞠目结舌,甘拜下风。不仅如此,汉文的发展过程中还注重了书法,一个字有真草隶篆及行书体等不同写法,把文字与艺术结合在一起。这也让拼音文字难于伦比。显然汉字的发展体现了古人的智慧与唯美的风尚,给后人留下了宝贵丰富的文化遗产。
此外、学习和使用汉字的人需要辨认和记住成千上万的方形符号,这些符号各自独立,各有特定的音、形、和意思。这就要求人们培养双眼的图像识别能力,还要逐渐培养和加强图像记忆能力。这些能力会对人们后来的发展与工作有潜在的帮助。比如,通过一点之差区分王和玉,大和太;还有考和孝,天与夭,人与入,低和氏; 通过上下笔画的不同区分田、由、甲、申;病入膏肓的肓与盲也区别隐晦。对这些微小差别的瞬时分辨实际上在培养人眼图像识别的能力和速度。读书快的人,识别能力就强。古人有“一目十行”,“走马观碑”之说,便是佐证。最需要这种人才的地方是刑警大队,他们可以协助电脑识别逃犯的面孔和指纹。
由于汉文的每个字都有意义,人们可以用几个字把一句话说清楚,言简而意赅,这也正是古文的特点。刘禹锡的《陋室铭》只用了81个字,就把作者的简陋住宅与鸿儒风度描述得如临其境,栩栩如生。当然,古代的纸笔不大方便,这也是古文简洁扼要的另一个原因。如果一个人造诣很深,可以达到用古文思维的程度,那么他的思考速度会大大超过拼音文字的使用者。此外,汉语在语法上约束较少,从这个角度来说,学起来比西文要轻快省事。如果在回忆往事时,得加上个ed ,在歌颂成就时得用个have ,在畅想未来时必须要will ,就会显得拖泥带水,哩哩啦啦,自然也就不会有精炼的古文,更不会有脍炙人口的唐诗宋词了。
到了全球信息化的时代,人们发现老祖宗留下的文字遗产遇到了一点麻烦,那就是数字化。拼音文字的特点是利用一定数量的字母,拼写出不同的字,词,用于记忆和交流。例如,英文有26个字母,俄文有33个字母,希腊文友24个字母,阿拉伯文有28个字母。用现代计算机的术语来说,字母文字本身就已经“数字化”了。比如,英文字母A可以被看作数字1,Z 可以被看作26,(在ASCII码中,A 的位置是65。) 实际上,英语字母可以被当成27进制的数字系统,每个词本身就是一个数字,例如,AAA就相当于一个10进制的数757 。由于这个特点,字母文字容易被直接用于计算机中,编码过程简单明了。与此相反,汉文更像是“模拟”化的文字,每个字都有着独立的形状,特征,发音和意思。常用的字大约的有5000个左右,新华字典(1979年版)中收集的字有一万一千一百个。康熙字典收集的汉字有四万七千多个。无论是印刷排版还是计算机编码,对汉字来说都是个繁重的工作。当然,这不会阻止汉文在计算机上的操作和应用,只不过要付出更高的代价。
以新华字典为标准,汉文的11100 个字被局限于400个音或称音节,平均每个音节要有28个字,若用拼音加数字的办法来编码,很繁琐冗长。不仅如此,汉语字数对音节的分布很不均匀。比如,森、僧、能、佛、欻、鞥、这(ZHEI)、得(DEI)、扽、 嗲、 丢、日、暖,您,谁,与挼等音,每个音节只设了一个字,大概这样的音发起来不大顺溜。而僧、佛等字又可能是外来语。对这些字,每音一字,注音编码显然比较容易。我们不妨称它们为单字音。
但是,有的音节包容着几十个甚至上百个同音字。比如,JIE 音节有59个字,BI 音节有61 个字,SHI 音有78个字, LI音有86个字,QI 音节有90 个字,XI 音节有92个字, YU 音节有103个字,YI音节有131个字。这些音节可称多字音。这些同音字分布密集,超出负荷,成了汉字的数码化的一大障碍。这倒有点像现代的大城市,人口扩张,拥挤不堪,无非是因为挣钱容易。用拼音式中文软件写作时,如果遇到的都是单字音,打字时很敏捷流畅;但如果遇到的尽是多字音里的罕见字,速度就会大打折扣。尽管如此,迁客骚人还嫌不乱,又强行安插进好几个语气词。诗仙李白在一首诗的开头,一下子就连用了三个,“噫吁嚱”。要直接数字化,这YI音节会有YI(1),YI(2),直到YI(131),单单YI音节的编码,就比门捷列夫周期表还长。同音字多也是汉语难学的一个原因,吝啬的老师在听写时只发了一个YI的音,没有平上去入的外国学生的脑中一下子得要闪过131个不同的字,无从下手。即使连发了两个音YIFU,你还是有点丈二金刚,摸不着头脑,可能指的是衣服或依附,或是姨父,或是义父,或是神枪手王毅夫。你要想知道老师的意思,必须还得麻烦他老人家再多吐出几个字来。 汉语的确不大好学。在病房里,病人有气无力,有了什么要求时只能说出一个字,他要说个“您”字或“佛”字还好; 他要是说个“医”字,那就得看护士小姐有多聪明了。天冷时,他可能要衣服,难受时他可能要医生,没妈的孩子可能在找姨,想吃糖了可能要高粱饴,糖尿病人可能要打胰岛素。如果是山东人,他可能想返回沂蒙山。如果是河北人,他可能想返回易县。如果是围棋八段,他可能要对弈。如果是老学究,他可能要背诵蜀道难。
我们的古人对400 个限定音节不是一视同仁,而是有亲有疏。比较喜欢使用元音I,U 发YI,YU,QI, 和XI等音节。 造成这种局面的一个客观原因可能是我们的祖先产生语言的意识超前于口腔的进化。当他们想表达某种意思时,由于舌头和口腔的限制,只能吐单个的音,为了能够让对方听清,几乎每个音都要带个辅音。舌头较厚和平直使得YI、XI、YU等音用得较多,卷舌音R用得较少,发不出俄语的P(大舌颤音),更不会法语的小舌颤音R。至今,不少华人都难发出这个法语R音。听说每天上午得含口水,仰着头,喝勒勒地练上20 分钟,几个月才能练好。幸亏我学得是英语,不必遭那个罪。因为腮帮的肉厚,活动不便,元音OU、A、AI等使用的也不多。由于S和F等音比较难发,至今,我们没有SI、ZI与FI等音。此外,从笑字的设计,似乎也支持这种推测。讲、谈和说用了言字边,吃、吐和叹用了口字旁,唯独笑用了竹字头。大概古人笑的脸型出现得较晚。开始会笑的那个人,躲在竹林下,别人还以为见了妖精。和西方人比,东方人表情比较严肃(比如新闻节目主持人),不苟言笑,这也许同口腔的结构与种族传统有关。这种舌与口腔进化的滞后大概也是汉语走上方块字形,一字一意的文字的生理原因。
按小孩学字的过程,人类应当先有的语言,后有的文字。 当人有了数字的最初概念时,就伸着食指,说YI; 见了妈妈的妹妹也说YI; 有个人用树叶编个遮身物,别人见了新鲜,也说YI;几个人聚在一起,打手势交换想法,也说着YI。 后来有个智商较高的聪明人站出来说:“你们老是YI、YI的,谁知道你们说的是什么呀,我给你们画些符号吧。"为了区分不同的YI, 把伸着食指的YI写成“一”,把母妹写成“姨”,把草裙写成“衣”,把开会写成了“议”。 再加上后来的语气词和外来语,又有了医、彝、夷等字。最后,竟弄出了131 个发YI音的字。
汉语是在我们的祖先生理条件尚不成熟时发展出来的语言,凸现了我们祖先的智慧、顽强和克服困难的精神。盖房时,他们用一个“建”来表达,由于没有舌簧之口,还说不出类似英语一个字母串“construction ”。尽管如此,他们还是建立了一个完备的系统,形成了我们祖祖辈辈延用了几千年的语言文字,这种文明后来还传播到之朝鲜和日本。如果没有高山和大漠的阻碍,汉语系或许还会往西扩散,那将会形成一个完全不同的世界语种的分布格局。当然,作为一个门外汉(物理学工作者),我就是刮尽枯肠,绞尽脑汁,所能得出的这些浅见薄知也还不过是班门弄斧,信口雌黄。汉语和文字的发展的确凿答案还得出自人类学者和语言学家的金口玉言。
除了一音多字,汉文还有一字多音和一字多声的情况。最典型的就是“和”字。
当连接词时,读成第二声的HE,文人回赠诗词时又读成第四声的HE, 和面时读作HUO, 和药时又读作第四声的HUO。面对麻将爱好者,字典专门为他们订了个字“和”(HU)了。如果这少数博客改改口,索性赢牌时说个“和”(HE)了,13 亿人岂不少记了一个字,省去不少麻烦。此外,还有调在“调查”时读成第四声的DIAO,在“调解"是又读作第二声的TIAO。劲在“劲旅 ”中读作JING, 姥在“天姥山”中读作MU。会在说“会计”时又读为KUAI。 无疑,这对初学者和外国人也是一大难点。干吗不干脆把“劲旅 ”读成“JIN旅”,这种小小的改动究竟能对国民经济有多大的影响。
由于汉字是在很长的历史阶段中由许多人创造而成,难免风格差异,各有千秋。麻烦的是有些造字者故弄玄虚,产生了一些似是而非的字,好像故意去引导别人犯错误,然后,他们在一旁捧腹一笑。比如,常常有人会把刚愎自用的愎读成复,把削足适履的履也读成复,把忐忑不安读成“上下”, 把同仇敌忾读成“敌气”, 把破绽都城“破定”,把不啻兄弟读成“不帝”,把匿名信读作“若名信”,把情窦读成“情卖”,把辣椒读成“辣叔”, 把吸吮读成“吸允”,把狺然读成“言”然,把胝读成底。总之,这些字创造得很不友好,似乎专门跟学生过不去,给别人找难堪。文字改革应当把这些字改掉,把文字当成友好方便的工具,让广大的劳动大众容易学容易懂。文字不是少数学者和豪门操纵把玩的古董。在新版《三国演义》剧里,有个演员把鄱阳湖说成番阳湖。我很同情他。一个演员如果把过多的时间用于咬文嚼字,演技发挥就要受影响。倒不如来个将错就错,官方出面,把鄱阳湖改读“番阳湖”。常贵田叔侄说过一个相声,《别字先生》。里边有莫明其少(妙),造旨(诣)很深,莫里衷(哀),京(凉)快, 等等。意图是讽刺那些读别字的人们。反过来,我们为什么不能讽刺一下某些造字的前人,为后人带来如此的不便,让他们在讥笑声中长大。这个相声也在提醒文字工作者如何把文字改革妥善推行。
还有些地名发音怪癖,而又很难引起大多数人的注意。 为了一个几十万人的地区,让13亿人的多学几个容易念错的字,有点不实惠。不如跟当地政府商讨,留字改音。比如,把涪江读作“培”江,把莒县读作“吕”县,把渑池读作“绳”池。这些字对于中央台的播音员来说也是地雷,一般情况下,踩不着。一旦踩上,就会有人哄然大笑。其实,把一个罕见的字读错了又有何妨。为了区区一个县、镇,让中央台的播音员读个别字出丑,遗笑他人,有点得不偿失。武则天为她自己起的名“瞾”字应当取缔。武媚娘没有资格搞特殊化。如果有一亿国人都亦步亦趋,为自己做个字,那还了得。画家米芾的“芾”字,看上去像草字头压个市字,但又不是那个市。查字典的时候连笔划都不易数清。
对于一个字或一个词,不管何种文字,都要有三个特征,即音、形、意。字母文字的发展决定了音和形密切连在一起。每个字母或字母组合都有确定的发音甚至口型的配合,只要掌握了英语的40几个音标,见到一个单词,基本上可以读出它的发音,即使你还不知道它的意思。反过来,你若听到一个单词,大致可以拼写出组成它的字母。因此,学习一个单词,只要记住两样,读音或拼写,和词的含义。这也是西文入门较快的原因,在短期内单词数量积累较多。
汉语文字的音、形、意有点像美利坚合众国的政体,三权分立,相互间基本各自独立,不能由此及彼。比如,我写了一个“彭”字,它只是个姓氏,你悟不出它为什么被读作PENG,你也猜不出,它为什么会写成这个样子。音、形、意之间没有联系,你要想学会一个字,就要死记硬背三样东西。这样汉文入门和学习的速度就会比英语慢了33.3% 的时间,在加上某些笔画繁多、不常使用的字,比如赢、彝、懿、彘 僰等,学习的时间会变得更长。若要与时俱进,迎头赶上,中国文字的改革势在必行。
汉文的发展起于象形文字,至今,不少汉字还保留了这个特征。从形入手的的文字有人、丁、日、月、田、蚤、水、火、门、马,目,鼎等,不一而足。先说这日字吧,把方框抻园了,就是太阳,中间的一点是韩国人早在5000年前发现的那颗太阳黑子,可惜他们忘了申遗。把月字的两竖拉成两道弧形,两端弥合,就是个上弦月牙。中间有两个人,一个是三里屯的调酒师,美籍华人MR刚吴,另一个是80后当红影星嫦娥小姐。二人相见恨晚,喝了过量的掺了茅台的人头马,一下子飘出了38万公里,羽化成仙,登上月球。听说中美双边正在接洽,应当由东方还是联航派出专机,把二位接回地球。
从意入手的字有臭、家、宝、富、闩,明、的,岔,活,忐忑,品,分,忍,孕孬等,不胜枚举。日月带来明亮,屋顶下有口猪,那就是家,把山分开两块,那就是岔,舌头上蘸点水就能活,在一个西瓜上切了八刀,就分成了16 块,胸口上压了把刀时,您就先忍忍。至于“的”字,大概是古人练习射箭时,把一个白勺挂在树上当靶子,故而后人以白勺为的(DI)。“我”字制作得也很巧妙,禾字边加个戈字,倒有点像阿尔巴尼亚歌曲《一手拿镐,一手拿枪》。但是和你、他同类代词相比,又缺个立人部首,有系统性不足之嫌。从意造成的字给记忆带来了方便,把形和意连到一起,比“三权分立”进了一步,但不易数字化。
从音着手的字情况比较复杂,需要分别讨论。首先要谈的是一批部首定意,字基定音的或称完全从音的字。典型的有三个字系,即方系、仑系与奴系。方系的字有房,放,防,防,仿,芳,纺等;仑系的字有论、轮、伦、抡、纶、沦等;奴系的字有怒、努、弩、弩、驽、胬、孥等。这些字的特点是发音完全由字基方、仑和奴来确定,而偏旁则用来决定字的含义,比如轮为车旁,应指轮子;抡是提手,应指动作;纶有丝旁,应是丝织品。只要记住这三个字基和几个字旁部首,几十个字很快就会被学生掌握。迎刃而解。这些字或许出自同一个学派,思路名了,条理清晰。这些字应成为汉字的典范,应当成为汉字改革的出路。这类的字还有据、剧、距、炬、锯,厦及远、近、遐、迩等。后边这四个字也很友善考究。
另一种是部分从音的字,这又分成两种。一种是借用字旁或字基的辅音,一种是借用元音。借用辅音的字有破、颇、婆、披。这些字借用了“皮”字辅音P;至于谋和煤则借用了“某”字的辅音M。借用元音的有魂字,其音借用了云字的UN。挫借用了坐的UO。狢借用了各得E。济借了齐的I。矫借了乔的AO。客借了各得E,猫接了苗的AO。这类字也为数不少,对于记忆也有一定的辅助作用。
还有几个特别的从音字,他们是借了一部分的辅音和另一部分的元音拼成的。比如就字,利用了京字的J和尤字的OU;晕字借用了曰的Y和军的UN;甭自借用了不的B和用的NG;舒借了舍的SH和予的U。这类字不知是有意栽花花才长还是无心插柳柳自活。还有一组“尚”字头的字也很奇特,比如堂、常、党、當等,他们的辅音不同,但都是江阳辙,用了元音 ANG。难道尚字头的字同出于一家之手,想来个别出心裁,也未尝可知。
当然相当多的汉字既非从音,又非从形,也非从意。比如,上面说的彭字,元、大、光、文、用、永、丑,薛,贵,使,拾,於,是,事等,很难想到音、形、意间有什么联系,很难想到,造成这样的字的原因。似乎只有专攻文字起源的专家们才能解释。
有些汉字制作草率,有急于应付之嫌。汉字里有不少万能部首(WILD CARD),诸如佳字,页字,和且字等,以及简化字里的又字,似乎在找不着合适的部件时,就拿它们当O型血充数。带佳字的字有淮,唯,准,谁,堆,雄,雌,难,隼,集,进(繁体),稚,椎,焦等,这些字无论就发音还是含义很难有个统一的解释。至于在简化字里,找不着合适的部件时就搭上个又字,也屡见不鲜。这类字有观,鸡,艰,难,欢,劝,对,汉,仅,权、圣,叹,凤等,你也说不出这里为什么用“又”字的理由。其实劝不如用口字旁,鸡不如用几字旁,欢不如用竖心,仅不如用斤。这些字的制造过程中凸现了汉文符号的贫乏以及某些人不大严肃认真的创作态度。再有含青的几个字,青,情,静,菁的读音尚且接近青字,但是倩与靖的发音离青字就远一些了。另如“听”应当用耳,“笑”应当用口。这两个字的设计也不够和谐系统。我很难想出“这”字和脚有何关系,“这”字和“那”字应当协同产生,宛若左、右。狗字不如把句字换成勾字,小孩学了勾字后,可以直接读成狗,而不至于读为“宠物句”。
汉文里有许多偏旁立意清新,有助记忆,比如提手表示手的动作,草字头、木字旁、马字托能给出类别。汉文共有212个偏旁,存在着意思模糊使用浪费的现象,有待去粗取精,实行兼并。例如与脚有关的就有三个,足字旁,小走枝(近)和大走枝(赶)。这三个偏旁可以合三为一。穴字头可以合并到宝盖。这种兼并已在简化字中牛刀小试,把原来的猫字的豹字旁换成了狗字旁,但豹字的偏旁却仍保留,兼并得不够彻底。另如龟字头和彰字的三撇部首也可被精简掉。稍加努力,重新组合,把212个部首降到150个不无可能。
文字不过是个符号或是工具,为了交流和记忆的方便。因此,应以简单易学为重。正由于这个原因,才使得阿拉伯数字广泛通用在经济学,物理学、数学与工程技术当中。如果有人用罗马数字来表示一个国家的GDP 精确数值,那麻烦可就大了。 同样的道理,中国的文字应当简化,这是客观形势的需要。在信息化的年代,人们要学得知识越来越多,如果把大部分时间用于掌握和使用文字,即语言符号,再加上书法,那么学习其他科目的时间就会大大缩短。汉字的革命与改革刻不容缓,时不我待。
一个可能的出路就是选定大约150个部首和400个音节符号,并把它们分别数字化。按照完全从音的方系,仑系的原则重新造字。每个字都由两个数来确定,比如118069是一个字,它的偏旁序号是118,它的发音是第069个音节。数字到文字的转化是中心处理机的工作。打字员的任务就是从键盘上输进两个数。这样的文字处理机的键盘原则上有0到9 十个键就可以满足。如果打字的人受过弹钢琴的训练,可以配备左、右两个键盘,左手输入偏旁数(低音),右手同时输入音节数(高音),可以把速度提高一倍。在中心处理机早已奔腾的今天,制造出这样的一台文字机,不过是举手之劳。