三,编码与输入法
编码跟排序很有关系,排序的方法,是编码的出发点。
(一)汉字编码
英语只有26个字母,大写小写加起来才52个符号。给这些少量的字母,加上0—9十个阿拉伯数字,和一些标点符号编码,就可以用键盘直接输入电脑。汉字的情况不同,常用字3500个,通用字7000个,不可能直接用键盘输入,必须另想办法,间接输入。
1,电报码、区位码
早期电报用的电码,实际上就是为汉字编码。它将实用汉字给定一个四位数字,拍发电报时,先将汉字译成数字电码,拍发出去,接受电码者再将数字译成汉字,于是就完成了信息的传递。虽然比信件快速,但还是要费两道手续。而且这种电码跟汉字没有必然的联系,不容易记忆,再好的电报员也难以熟记,只能翻阅电码本。但想出这一个办法,还是很有意义的,这两道手续,就是电脑的汉字输入、转换、输出的过程。它给予人们一种启示,即:可以用数字作为汉字的代码,输入电脑。最早出现的电脑区位码,就是根据这一思路编制出来的。
2,笔形码
前面提到的“四角号码”,“上下形检字法”,把笔形转换为数字,也是一种编码,而且跟汉字的笔形发生了关系,比电报码前进了一步。这些编码尽管只是为了查字,不是为了电脑输录,但也为电脑汉字编码拓宽了思路。王码五笔型输入法、郑码输入法,也是用这一思路设计的。不同的是:不是转换成数字,而是转换成英文字母。不过这些字母同汉字的读音无关,只是汉字笔形的替身。
3,拼音码
给汉字注音,有实际应用价值的,有1867年的韦氏音标,1918年的注音字母,1958年的《汉语拼音方案》。
韦氏音标,一称威妥玛式拼法。英国人威妥玛于1867年(清同治六年)编了一本汉语课本《语言自迩集》,用英文字母拼写汉字读音。后被用来在英文中拼写中国人名、地名等,称为威妥玛式(Wade System)。韦氏拼音并不严格,在运用中还有歧异,现在已经用汉语拼音方案来代替。但以往出版的书刊中,特别是外文图书,曾经使用过。这种标音法,一般的知识分子也不怎么熟悉,只有少数跟外国文化有联系的知识分子也许使用过。但它用拉丁字母拼写汉字,这种形式却是一种有益的尝试。
如前所述,民国时期公布了注音字母。它确定了汉字的声母、韵母和拼法,但其形体,是从汉字的偏旁演化而来。1958年,国务院批准公布了《汉语拼音方案》,方案对汉字的声母、韵母作了更细致的表述,比注音字母又前进了一步。它巧妙的利用了拉丁字母,跟国际上通行的英文字母一致。这样就为电脑输入汉字,搭起了一座桥梁。可以利用英文字母来为汉字服务,间接在键盘上输入汉字。为汉字的现代化,汉字电脑软件的设计,带来了方便。
(二)汉字库
把汉字按一定的顺序,编成字典,我们可以查阅。用电脑查找汉字,也得编一部字典,预先存放进去。再用一种输入法把它找出来,显示出来,打印出来。电脑里的字典,就是字库。所谓输入汉字,其实是调出汉字。
电脑里的汉字,是用点阵扫描的方法把汉字字形作为图象,变为二进制信号,按代码的顺序,存放在字库里。使用电脑制作一个文挡,先输入代码,找到这个汉字的信息,电脑把二进制的信号再转换成汉字的图形,便可以输入新的文挡中。
1,汉字交换码(GB2312—80)
1981年国家标准局公布了GB2312—80《信息交换用汉字编码字符集·基本集》,规定了6763个汉字的交换码。第一级3755个字,按汉语拼音顺序排列。第二级3008个字,按部首顺序排列。这是汉字的区位码,把它编成程序,就是电脑的字库。这也是其他简体字输入法的字库。但是,输入法编码不等于交换码,它还需要由电脑转换成交换码,才能查找到需要的汉字。
2,通用多八位编码字符集(UCS)
1993年5月,国际标准化组织正式发布了《通用多八位编码字符集》(UCS)。为了解决全球所有不同文种之间的信息交换,制定了这个统一的编码方法。这样,每个文种的每一个字符,都能够获得一个唯一的代码。第一部分编号为ISO 10646.1,我国与此相对应的国家标准为GB 13000.1
3,汉字扩展内码规范(GBK)
汉字内部码,包括简化字、繁体字、日本汉字、朝鲜汉字在内,共20902个字。与UCS的第一部分ISO 10646.1字符相同,但代码不同,而与GB 2312—80兼容。它把6763个汉字扩展的20902字,是GB 2312—80向ISO 10646.1的过度的内码。这是全拼输入法的字库。
4,Big 5
台湾使用的繁体字代码和字库。GBK尚不能兼容。
(三)汉字输入法
现在常用的输入法有下列几种。
1,王码五笔型输入法
王永民设计,字库为GB。这一输入法将汉字拆分为130个字根,分配到键盘的25个键上,z为功能键。每个字取其第一、第二、第三,和末尾四个部件编成英文字母码。可以输入单字、词语,可以用简码。笔形码与读音没有关系,需要先学会拆分字形,记住笔形对应的打字键。
2,智能ABC输入法
用汉语拼音方案拼音输入,字库为GB。分标准和双打两个系统。标准系统可以全拼,也可以简拼,或混拼。可以输入单字、复音词、成语、惯用语。全拼输入音节的全部字母,简拼只须输入声母,混拼可以将全拼与简拼混合使用。遇到零声母的音节,或简拼字母音节容易混淆时,要使用隔音符号。
双打是把字母较多的声母韵母用另一个字母代替。减少击键的次数,奇数为声母,偶数为韵母。但须确认牢记代替的字母,不能弄混。
智能ABC输入法,以拼音输入为主,同时还可以用形码输入。把笔形转换成数字,计有:1横、提(一),2竖(丨),3撇(丿),4点、捺(丶 \ ),5横折(┐),6竖弯(乚),7叉(十ㄨ),8方(口)。也可以音码、形码并用,拼音加数字,可以更准确的排除同音字。
这一输入法还设定了一些功能键。如: i,I,u,v,[,],等。
3,全拼输入法
用汉语拼音方案全拼输入,字库为GBK。可以输入单字,也可以输入词语。他的特点是简体字、繁体字混合编排。GB字库中所缺少的字,可以用这一输入法输入。
4,微软拼音输入法
用汉语拼音方案全拼或简拼输入,可以输入单字、词语,还可以输入语句。但输入语句这一功能不精确,容易被同音字混淆。字库包括GB和GBK,它的特点是简体字、繁体字分两套系统并存,而且可以转换。可以将繁体字转换成简体字,也可以将简体字转换成繁体字。当然,有少量字的转换,还有待改进,如:里裏(千里、家裏),后後(皇后、前後),等。
这几种输入法,各有千秋。可以根据使用者的具体情况来选用。最早使用者,多为王码。能说普通话的人,用拼音比较方便。而微软的输入法功能比较齐全,有后来居上之势。