§ 4.3 涵盖性原则 涵盖性原则是指:编码的使用既然相等于汉字的使用,设计时就应该考虑所有汉字使用的时间和空间,所有使用汉字的领域,和使用汉字的人们。 涵盖性是对局限性的否定,因为:汉字编码的实质是为汉字设计一套有序的符号系统。局限性的根源是设计思想上的键盘本位。键盘本位有时空的局限,拓宽它的使用范围和能力,几乎是不可能的。 汉字编码应该是所有汉字的编码,而不应该是某几个常用之外 编码。涵盖所有的汉字才能涵盖所有的汉字文化典籍,中华民族的文化才不致因编码设计而断层。确立设计思想的涵盖性就是立足汉字本位,实现汉字的所有应用范围的功能。 五千年的文化积累,都是依靠汉字来完成的;浩瀚的书册典籍,都记满了用笔画构成的方块汉字。汉字编码设计出来的符号系统,是要使所有的汉字都带有直接的序性,都可以直接排序,迅速检索,这就需要它具有涵盖性。 汉字编码的涵盖性,要求设计编码时就应该考虑:排序、检索的通用性、广泛的易学性、字形教育的规范性和拆分、分类、代码映射的可扩展性。现在,许多编码方案还在不断出现,我们提出设计思想涵盖性要求,可以成为治疗“编码污染”的一剂良方。 当前键盘本位的设计思想,对编码应用,缺乏宏观的、长远的战略考虑,以为只要把几千个常用字打出来就行了;在部件选择上,主张把使用频度、组字频度高的主观选出来就可以了。电脑作为全社会的信息传播工具,就应该是全体汉字使用使用的全部汉字,不允许受任何时间(包括进入全面应用的时间)和空间的局限。它必须包匆促所有的汉字使用者、所有的汉字和所有的部件,不允许主观挑选;它将带着所有汉字文化进入一个新时代——信息化时代,因此 ,必须包容所有的汉字文化遗产,不允许只考虑常用字;计算机的中文应用将为全民族所使用,只考虑会正确拼音的人,记忆力好的人是不能允许的。这就要求设计时应在考虑它使用的广泛性的同时,也必须考虑使任何一个汉字使用都都易学、难忘。 贯彻涵盖性原则的要求是: 一、编码必须能使用于所有使用汉字的领域 汉字使用的领域是指所有汉字记载的文化典籍和汉字使用的空间。 字典、档案、图书、资料等方面的检索,应该使用一个统一的有序的汉字符号检索系统。计算机软硬件技术和生产的发展表明,计算机将走人家庭,社会将走向信息化,全社会要实现计算机网络管理。各样汉字字形不具备序性,就无法通用于所有使用汉字的检索领域。不能设想,一个崭新的信息时代,作为信息的载体——汉字,会使用多种多样的符号检索系统。 也许有人认为,任何一种输入法都可以作为汉字检索系统,但军令还是受设计方法的局限,在进入实际使用时会产生一定的难度,而需要作某些修改。这就涉及方案自身系统的完善程度,涉及它的使用者。 由于汉字排序系统的缺陷,现在全国的图书、资料、档案的管理,都是各自为政,不能统一。将来的计算机联网,就无法使用多种排序系统。假设温州的读者需要看北京图书馆的书,就没有办法直接查到;北京公安局要查看温州的某某人的资料,也还需要学温州的排序方法,这怎么可以?这就是排序的通用性的要求。 字典检字一直是中国人的历史难题。自《说文解字》至今两千多年来,我们使用部首检字法。近几十年又加上拼音检字,两种检字法一起使用,还是无法彻底解决某些汉字检索的困难。这说明部首检字和音序检字都有它长远利益系统的局限性。现在全国的各种汉字排序检索,各地方、部门都自设一套,不能统一。 汉字有6万多个,3500个常用字已占使用频度的99.48%。大多数字很少用到。它们不是拼音文字,用不到的字就不会读;偶然用到的字,就是学会了,很久不用,也会忘记。所以,一般人都只能读准四千来个字的音,绝大多数是难以读准的。而且因为行业的不同,各行各业都有自己的常用字,因此,常用字也是没有标准的。字音是有序的,但音序检字只能检常用字;不会拼音的人不能检字,即使会拼音的人,也无法检不知读音多汉字。检索的目的是检不认识的字,字音检却只能检认识的字,与检索的目的来违背。这说明它有读识字的局限和使用人群语音的局限。检索的全面性就是任何字都能直接检到。普及中文应用已指日可待,键盘将很快取代我们手中的笔杆。拿笔可以书写任何一个认识或不认识的字,拿键盘也应该可以打出任何一个认识或不认识的字。 涵盖性就是有否定键盘本位的局限性,确立汉字本位。汉字本位的意思就是要把编码的使用看作汉字的使用。把基础教育中的编码应用教育看作是识字教育。汉字编码必须涵盖所有的汉字使用者、汉字使用工具、汉字使用的时空,让它们都参与汉字使用的实践:这一切都要在我们设计的考虑范围之内。 人们往往把易学性看作单一的键盘应用,而忽视它的通用性。王永民先生认为“汉字的查字法与计算机输入编码法,严格来说是两回事。……汉字编码输入法的设计,常常用不着考虑倒回来作汉字工具书的查字法。”⑹这个观点,就成了他的“好学不好用,好用不好学”的依据。在这个基础上设计出来的五笔字型,当然就只能到专业打字员为止了。当然,我们不能用那些死记硬背的简码去查字;简码只是一些使用频度极高的常用字在键盘上的硬性安排,它不是五笔字型编码方法而只是一种输入法。正是这种局限性使五笔字型不能成为查字法。如果编码要实现汉字直接排序,使人能一眼看出它们的序性符号,那么当我们需要检一个不认识的字,即能知道它的序位。有局限性的方案就更显得无能为力。 二、编码必须能使用于所有使用汉字的人们 汉字字形编码的设计,应考虑使所有的汉字使用都能很方便地学会。这就是说,易学性是设计的重点考虑的问题之一。 通用性是指一种汉字编码(不要把输入法混入其中)既能作为输入法,也能作为查字(排序)法,又能有利于识字教育,有利于书写规范,那么等于它把易学性增加了四倍(假设它们都是相等的),就会适合所有的汉字使用者,适合整个汉字社会。汉字编码的设计,不仅考虑要在中小学实行计算机中文输入教育,也需要考虑广大的中文工作者,包括高龄知识阶层。中小学生记忆力好,可以死记硬背;但高知阶层记忆力差,他们更需要计算机的帮助,以减轻他们的工作负担。同时,社会也需要他们的知识,由于计算机的参与,社会上这一阶层的作用得到更快、更多的发挥。 计算机把人们间的距离大幅度地缩短,把信息交换的速度提高几十倍至上万倍,几万公里间的信息传输,就象在同一间屋子里的谈话。计算机可以使所有汉字使用国,成为一统的汉字工作圈。因此,汉字编码的学习对象,不仅只是专业输入员,更多的是非专业人员;不仅只是年仅几岁的小学生,也应该包括七八十岁的老人;不仅只是中国人,也应该包含日本、韩国、新加坡和其他国家使用汉字的人们;不仅考虑能说准普通话的人们,还要考虑更多的说不准普通话和不会说普通话的人们。因此,汉字编码的设计应该考虑一个很广泛的使用面,不能把设计思想局限在很狭窄的使用范围之中。 汉字编码只有具有易学性,才能与识字教育融为一体;汉字编码只有有利于识字教育,才能获得识字教育的支持。 计算机要进入识字教育系统,汉字编码自然而然地也会进入中小学。汉字编码的教学,也是一种识字教育,学习汉字编码需要学生付出一部分学习时间,增加一部分学习负担。但是,有客观规律支撑的汉字编码,对儿童的识字教育会带来很多好处:如果学会一种编码,既可以打电脑,还可以帮助识字,防止写错别字,提高识字规范质量,又可以查字典,还可以打电报,同时,儿童从学校里学来的东西,到社会上之后,就可以应用,那么将可大大节约全社会对语言文字学习所作的智力投入。 中央教育科学研究所所长卓睛君对为中小学计算机教育的选码,提出了五点要求。她说:“将来的汉字编码将是汉字与电脑的中介,是汉字的另一种形式,是人脑与电脑共同使用的文字。”“汉字是一种拼形文字,是由几个笔画结构块拼起来的。这些‘块’,就是部件。它们是字形编码的基础。现在的字形编码方案,选取的部件大小和多少都没有一定之规,差距很大。这说明部件的选取和拆分都没有客观的标准。我们必须要求编码方案的设计者给部件的大小寻出一个客观标准来。”“我们要求编码方案的设计者拿出一张规定的字符集中的部件清单……”。“中文电脑应用也是一种识字教育。因此,要求设计者在汉字的拆分上要有严格的规范性……”“我们要求一个汉字字形编码方案在设计时就要考虑它的全汉字性,不应受某一字符集的局限,要考虑它的可扩充性。”“汉字字形编码方案的设计者,应努力寻找汉字字形规律,减少娃娃们的记忆负担。”(7)归结起来,五点要求是:选取部件必须有个客观标准;应该拿出一张全面的部件清单;制订拆分规则要注意识字教育中的规范性;设计部件代码不仅是代表某一字符集的,它应有代表古今中外所有方块汉字的功能(即可扩展性);要把设计方案的立足点建立在汉字字形客观规律的基础上。 设计编码需要拆分汉字,为部件分类,为部件类编代码,我们现在只能在国标二级汉字库6763个汉字上进行。拆分、分类、编代码的方法,如果不具有涵盖性,就说明还没有找到客观规律。就不能使所有的汉字使用者利用它。 计算机应用很快就要铺开,我们不能因年龄(记忆能力)、工作、语音的各种关系,把一些人关在门外:老年人利用计算机的帮助,更多、更快地把他们的知识留给他们的接班人;小孩子利用计算机接受更多的知识,同时籍此学习和熟悉它的各种性能,以便掌握和利用。广泛的易学性才可使所有低记忆力和低理解力的人都能学会汉字编码并所 计算机上操作使用。 三、编码必须能继承五千年的汉字文化 计算机不仅会普及到家庭,还会建成全社会网络,那时,我们在家里,可以直接查看图书馆书籍,查询各种各样的资料。当然,这些资料库的建成,有赖于汉字的输入。据估计,汉字累积量已达六万多个,如果,我们的编码方案只考虑把现在使用频度高的万来个汉字打出来,图书馆的许多资料就无法进入计算机。如果,字符集的汉字,一批批地增加,还需要不断地修改或增加规则,拆分、分类,仍须一个字一个字地再加说明和记忆,那就不对了。就是说,设计编码时,能使汉字的拆分、部件的分类,以及键符代码映射,都必须具有可扩展性。孩子在识字教育时学会的输入方法和规则,将来到任何地方,干任何职业,都能利用计算机提高工作效率。人们面临五千年来积累起来的文化,都能借助计算机顺利实现人机对话。 生命对于我们任何一个人来说,与汉字使用的历史相比,只是一段很短暂的时间。一个最有学问的人,在汉字文化宝库中,他所吸取的知识也只是大海中的一滴水珠;他所发挥出来的才能,与汉字文化库相比,也不过只是大沙漠中的一粒沙子。计算机的键盘既然要换掉我们手中的笔杆子,如果不考虑它全面继承这五千年来的汉字文化能力,我们就会成为历史的罪人。解决这一问题的唯一方法,就是使编码设计具有可扩展性,即使编码方法能涵盖所有已知未知(指当前字库未曾收集的)的汉字。 汉字字形编码的发展过程,是汉字字形规律的探索过程;汉字字形编码的成熟过程,也就是汉字字形规律的发现过程。符合汉字字形规律的汉字编码方案,才具备涵盖性。 |