§1.2 汉字编码设计学的学科性质和研究任务 一、 学科性质 汉字编码设计学是汉字字形现代应用研究的一个边缘学科。它是文字学、教育学、谁知心理学、统计学、信息应用科学等多种学科综合的边缘学科,主要是文字学。因为它的目的是为了解决几千年来汉字遗留的序性问题,为现代误字教育、科技应用和社会管理提供方便。 文字是信息的载体;计算机是提高信息运转和交换速度的工具。但是,它只是适合使用有序的文字,而汉字却缺乏相应的序性。许多人设计汉字编码,使汉字序性他,这样不仅有利计算机应用,还可以彻底解决汉字史上未曾解决的汉字直接排序和检索,以及识的字教育中的书写规范等问题。汉字序性化就是使我们能一眼看出每个汉字在字符集中的序位,即表述每个汉字的序性符号能视之即得。 中国人要使汉字序性化只有两种方法:一是利用音素,分解汉字的读音,称为音码。但是音码有时空的局限,不能普及应用。二是把汉字拆分为部件,对它进行分类,映射以相应的代码,称为形码。形码没有时空的局限,但它却是学术界的一个陌生的领域,人们不知道如何拆分汉字并建立映射关系。汉字编码设计学即研究运用系统原理,在分析汉字和编码发展的历程,结合当前实际需要,找出并运用这些规律。 计算机教育一定要从娃娃抓起,它必然进入中小学教育系统。因此,汉字的序性教育必生行之。过去我们没有把汉字的排序检索列入基础教育课程,因为,部首、拼音排序这两种方法不能为全社会统一使用。计算机进入了我们的生活以后,汉字的序性就有了全社会的使用要求。时代迫使我们一定要为汉字设计一套有序的符号系统,字形编码的实践,揭示了设计它的许多规律,并预示实现它的可行性。 设计一套提供给基础教育使用的有序的汉字符号系统,当然不能背离识字教学中的认知心理规律:高度的易学是编码设计者首先要考虑的问题;与学习者认知心理规律的相符程度是决定编码设计关键。几千年来汉字使用的历史和发展,以及人们在长期探索汉字检索方法的实践中所取得的经验,都能够给我们提供不少的寻找线索。 在我们探索编码设计客观规律的过程中,统计学是我们非常重要的助手。我们藉助各种频度统计,或研究结果的分析统计,作为判断摆在我们面前的各种论点的是非和调整设计方法的依据。 简而言之,汉字编码设计学就是研究汉字现代应用规律的一门新学科。 二、 研究任务 (一)将汉字拆分为部件 汉字编码之风带来了汉字现代化,使之成为汉字史上一场比“隶变”更伟大的革命。这个革命的目标就是将汉字拆分为部件。 汉字编码要将汉字拆分为部件。部件参入识字教育有利于缩短识字时间,提高识字速度。二级汉字库的6763个汉字,八个以上笔画的字占大多数,记忆比较麻烦。拆分为几百个部件后,常用(国标一级字库)3755个汉字,六个部件以上的仅占5.43%,其中最高为九个部件,仅两个字(参见本书135页~161页)。儿童识字教育初期,教会全部部件只需很短的时间,学会后再学笔画复杂的汉字就只要教方位和拼合,既提高识字记忆速度,又培养了组合思维能力。有的人认为在低年级儿童中,进行编码和计算机应用教育不合适。实际是对编码与计算机键盘应用的性能不理解。汉字拆分为部件,部件的笔画数少,笔画须序易学易记,学会后利用部件拼合,能提高记忆汉字的能力也不容易出错别字;汉字拆分为部件使汉字形成线性,配上有序符号,汉字就有了直接的序性,排序、检索、计算机输入(输入法和键盘指法、简码安排、词组取码、键盘功能等,要另外安排课程施教)都一起解决了。书写习惯从幼年养成,学会后一生牢记。少年儿童正处在智力发展的关键期,学会使用键盘打字,两手十指不断活动,对开发左右脑思维都有很大帮助。 部件的笔画数少,主要依靠笔形和笔画结构的变化进行区分。教学时教师就需要准确描述部件的每一个笔画和笔画结构。通过教学,有的教师就可以纠正自己的错别字和导体字,也给了学生以正确的指导。 早在清代,文字学家王筠就说过:“人之不识字也,病于不可分。苟能分一字为数字,则笔画必不可缺,易学难忘矣!”。“点画必不可缺”是说书写能规范他;“易学而难忘”是说能提高识字速度。汉字拆分为部件,就可以把王筠的愿望变为现实。 汉字本身没有序性,部首排序借用笔画数。拼音排序借用拼音符号。它们都是间接的序性,有很大的局限性。例如部首的笔画数,不仅要计数,有的字还难以判别部首;拼音排序无法检不认识的字。 确定编码的部件清单后,通过分类,按类取得代表符号,用代表符号直接检字,比拼音和部首检字就方便多了。汉字找到了序性,全国就有了统一的汉字排序,于是,计算机联网的前提得到了彻底的解决。计算机所提出的设计汉字字形编码方案的要求:拆分汉字、给部件分类、使用部件、汉字用部件直接排序等。用这些方法来提高识字速度、统一书写规范、统一排序检索和统一电脑汉字输入,都是汉字史上前无古人的事。 (二)设计一套符合汉字现代应用的汉字字母系统 现在的电脑用的汉字输入法,字典用的检字法,发电报用的电报码,各行各业的档案索引,都各自不同,严重影响信息交换。古代社会,对信息交换的速度要求不高,对社会统一检索的需求不那么迫切。现在,社会的文化科学高度发达,尤其将面临计算机网络的全面建成,国家需要文字、资料、档案的统一排序管理,才能迎接信息高速公路的到来。 外国人查字典,可以直接翻页检字。中国人使用部首笔画查字法,却要翻好几次,其中还有一些字很难查到(难检字)。中国人的图书、档案、资料的排序检索,各个地方、单位都不一样;拼音文字的国家却是统一的一套,交往查对,都很方便。他们使用统一的拼音字母,几十个键符,可以打出所有的文字来。汉字是拼形文字,没有拼形字母,不能在键盘上像外国人一样地使用自己的文字。 外国人的拼音文字都有字母,这使他们的社会管理,使用现代化科学技术,做文字工作都非常方便。文字是信息的载体。信息的流通是社会进步的重要标志。使用计算机可以大大提高工作效率,节约社会精力,节约下来的精力就可用于促进文化科技发展。国外许多先进国家,在没有普及电脑之前,打字机已经普及了。这对文化的发展,信息的流通,科技的进步,起了很大的作用。周有光先生痛惜我们丧失了一个打字机的时代,就是这个原因。如果中国人有了自己的有序性的汉字拼形字母,字典、档案、资料的排序检索和计算机汉字输入,就会出现完全不同的前景。 汉字有一套拼音字母,它的音母,而不是形母。它不能拼出汉字,只能拼出汉字的读音,因此,它不能起着汉字字母的作用。时代要求汉字必须有字母。 经过无数编码专家的努力,使我们打开了汉字字母之门。上面我们提到过汉字编码的任务就是要求设计一套规范的汉字拼形字母。不过,中国的字母跟外国的字母可不一样。中国的字母是从部件类中“抽象”出来的部件类的同一性。它是这个类的代表,真正的字母还是那些部件。三百多个部件有四十多个类,就有四十多个部件类代表。四十多个部件类代表,还要依据一字多形的原理,合并为二十六类,统一使用键盘上的二十六个符号。因此,汉字的字母有两种,两个称谓:部件,称为原形字母;部件类代表,称为代表字母。原形字母用于识字教育,即以拆分和拼合的方法减少识字的记忆负担;代表字母用于排序检索和电脑输入,即借用键符序性完成汉字排序检索。 我们认为,作为汉字的字母,必须实现以下几点要求: 1.对一个指定的字符集,能提出一张最简约的部件清单; 2.这张清单能拼出这个字符集的全部汉字; 3.必须具有序性; 4.只需最少的记忆量; 5.要适合中文电脑应用; 6.要有利于识字教育。 归根结蒂,汉字有了字母,我们就可以不再为汉字的电脑应用而设计编码方案,也解决了汉字识字难的疑虑。 (三)构成汉字拼形字母系统 汉字从古代甲骨文的不规范的图形线条,到大篆、小篆,逐步演变为规范的圆曲笔。在“隶变”后,平直的笔画系统取代了圆曲笔,拼字的基本单元,已不再象形,只能说它们是一些约定的笔画构成的符号了。钱伟长先生提出了“笔画结构块”的新概念,陈爱文先生又整理成笔画结构系统,在这个基础上,形成了我们的“笔画结构符号”概念。例如“氵、扌”,没有“水”和“手”的形象了,它们只是“水”和“手”两个字的约定的笔画结构符号而已。 计算机中文输入使有的人“一叶障目,不见泰山”。这个“叶”是汉字输入;这个“泰山”就是汉字规律的全方位应用。如果要真正落实“计算机从娃娃抓起”,就应该知道只有把汉字的排序检索、中文输入、识字教育和书写规范四项任务并列,设计和完善汉字拼形字母系统,才能走出当前汉字陷入的“战国时代”。 汉字拼形字母的意思是汉字的字形用拼形字母的字形拼合而成(拼形字母由笔画构成)。拼形字母要从拆分汉字中得到。拼合与拆分,相反相成,互为因果,使汉字产生了拼形字母(部件)。拼形字母借用键符的序性,使自身构成一个有序的系统,故可以称为拼形字母系统。 有的人不赞成提出这个新概念,认为汉字根本不存在“拼形字母”。国家标准局1990-02-01《汉语信息词汇处理》4.1.4.1中提到:“汉字编码——按照一定的规则,对汉字[汉语汉字]集内的元素编制相应的代码”。汉字集的“元素”是什么?就是:以最简约的数量,能覆盖全部汉字的字音和字形的基本单元。因此,汉字集的元素有二:音素和形素。音素指的是拼音字母;形素就应该是拼形字母。拼音文字音素和形素合为一体。但是,汉字是一种拼形文字,音素不能构成汉字的字形,只有使用形素。形素就是拼形字母。不承认有拼形字母,那么,形素是什么?我们认为,形素是拼合汉字的的基本单元——部件。 文字学是应用科学,是为社会的应用需要而产生、存在和发展的。找出汉字的形素,想出排序的方法,使汉字能直接翻页检字,是社会前进的需要,是文字学家几千年来的梦想。新概念都是从无到有产生出来的,所以,我们不必拘泥于“过去没有”,或者“未曾统一”而缩手缩脚,科学的大门,总需要有人先踩进去。 对什么是汉字的拼形字母,学术界颇多争议,有人认为是笔画,有人认为是部件。既然,文字学是为应用而产生、存在和发展的,是笔画是部件应根据其可使用性来判定。实践证明笔画编码的实用性能比部件编码差,人们在理论上和应用中已经予以否定。所以,简单地指定笔画作为汉字的拼形字母是不可行的。 有的人认为,借用键盘符号给汉字排序不能算拼形字母。 键盘符号确实不是拼形字母,它们拼不出汉字的字形。但是,拼形字母和拼形字母系统是两个不同的概念。拼形字母相当于汉字的部件(汉字集中的形素);拼形字母系统是指产生和构成整个汉字集的元素和其他所有因素,如定义、拆分原则和规则、分类方法和类别、对应方法和代码等等。我们借用键盘符号的序性,为汉字集元素的分类系统排序。它们使汉字有了序性,就好比笔画数使部首带上序性,成为部首检索系统的一部分一样。被借用的键盘符号使汉字拼形字母的各个类别带上序性,方便汉字排序和键盘输入,我们就应该承认它们是汉字拼形字母系统的一部分。 汉字排序与汉字输入是一个问题的两个方面,解决了排序等于解决了输入。当然所有的编码方案都能排序,问题在于这些编码方案的排序方法,是否易学难忘。我们为掌握排序方法付出了记忆量,就要考虑它带来的收获量,付出少,获益多,才是最佳的方案。汉字拼字母系统把提高识字速度、统一书写规范、汉字排序检索和汉字输入一起解决好,绝大部分采用形(部件形)形(键符形)对应(映射),少数采用形音对应,都是直接而有理的,只需很少的记忆量,就能取的最大的收获,因此是可行的。随后,本书将对此作出严谨的论证。 时代总是不断地向汉字提出新的要求(而拼音文字却没有这种无形的负担)。因为,汉字没有自己的有序的拼形字母符号系统。汉字编码设计学发展结果是在汉字编码的基础上,研制出有序的汉字拼形符号系统——汉字拼形字母系统。 |