阅读文章

汉字编码与互联网域名

[日期:2008-11-19] 来源:原创  作者:高国鹫 [字体: ]

 

  前言

 

汉字编码自上世纪八十年代末诞生以来,经历了字处理阶段、词处理阶段、句处理阶段,未来汉字编码将由单一的输入功能向多功能演化,这是汉字编码的最高阶段,是汉字编码演化的必然趋势,实现这一目标是个里程碑,标志着中国汉字编码最终走向成熟。

笔者在《论汉字编码数学原理》一文中,提出了汉字编码三要素:汉字、构件、汉字码,在这里,汉字、构件属汉字文化范畴,那么汉字码属什么?根据汉字码定义:表示汉字的字母、数字及其它符号组合叫汉字码,因此汉字码属工具,目前汉字码的工具属性是单一的,就是为了用于输入汉字,将汉字编码由单一的输入功能向多种功能演化,就是要改造汉字码属性,让汉字码在汉字文化的不同领域扮演更多角色。

汉语拼音是汉字的辅助工具,所以直接采用汉语拼音编码,主要还是为了输入汉字,但汉语拼音在拼写专名等方面又表现出文化属性,另外采用英文编码构成的文字码也具有文化属性,而且这种文化属性要比汉语拼音强烈得多,从这里我们似乎得到启发,改造汉字码的属性,拓展汉字码的使用功能,这在实践上是可行的。

拓展汉字码使用功能,需要在汉字编码理论上的创新和制定新的规范标准来支撑。汉字编码理论上的创新,就是要坚持科学发展观,丰富和发展汉字编码理论。制定新的规范标准,会涉及当前国际标准化问题,如果国际标准领先时,我们要在国际标准下“中国制造”,但是,当国际标准滞后时,我们要考虑中国制造“国际标准”。

汉字码包括字母组合和数字组合,对应字母键盘和数字键盘,代表设备计算机和手机。对计算机字母键盘,没有规定汉字的哪些构件和笔画对应哪个字母键位,完全是汉字编码的行为,因此在这一领域没有争议;但对手机数字键盘就不同了,如果手机保持原始状态,没有对字母和汉字构件、笔画进行设定,完全由汉字编码来决定,那也不会有争议,但是,一旦对数字键盘进行字母和汉字构件、笔画的设定,就具有排它性,如果这种设定方法不科学或不具代表性,就会保护落后或限制其它方法发展。

从目前数字键盘的各种输入方法看,种类比较多,方法也各异,规范的制定既要体现出科学性、先进性、还要兼顾不同类型,目前看来还是制定几个不同标准为宜,以满足不同企业和不同人群的需求,在市场竞争中逐渐淘汰。另外,因涉及知识产权问题,委托企业制定国家标准会具有局限性,也难以保证先进性,应该在国家有关部门主持下,在全国范围内进行征集,无论是企业还是个人都可以参与,经过专家团评审,媒体公布,最后经国家审批。

规范制定主要是考虑大结构,对细节不宜纠缠,这属企业行为,因此,对数字键盘字母键位设定规范征集后的评测,这里提出如下分三个层次评测方法供参考:

1、输入26个英文字母

这是第一个层次,是硬指标,是把中国标准推向世界的重要保证,首先应该确保。优秀的数字键盘字母键位设定方法,要最大限度保证26个英文字母的简单、快速输入。因为26个英文字母个数大于10个数字键,因此每个字母只按1键且不重复是不可能的,最好的结果是每个字母都按2键,且都不重复,还要记忆方便;其次是不等长码长的字母键位设定方式。

2、输入400多个不标调汉语拼音

这是第二个层次,是为输入汉语拼音制定的标准,这是在满足第一个层次之后的评测指标。最理想的数字键盘字母键位设定方法,是在满足第一个层次条件下,按照数字键上字母直接输入汉语拼音而不重复(指400多个不标调汉语拼音),这难度比较大;退一步即使不能做到理想化,也要考核接近这一理想化目标的程度;再退一步才能考虑联想输入,也就是先输入字,再联想输入词。

3、输入汉字形码

这是第三个层次,是最后要考虑的,目前汉字形码的研制,还处于发展之中,除了笔画输入法之外,其它方法目前还没有哪一种能得到人们的普遍认可,因此对输入汉字形码不宜统得过死。

以上条款是数字键盘字母键位设定评测和规范制定的核心内容,至于其它字符、重字键选率、平均码长等指标,属企业行为,要在市场竞争中优化,不宜在规范中具体化。另外,科学设定数字键盘字母键位,不但要有先进性,还要把环保和能源作为重要指标来考核,要节省空间容量和降低研发成本。

 

  复码数字键盘简介

 

由笔者研发的《汉语拼形系列》输入技术,包括汉语拼音、汉语拼形、数字汉语拼音、数字汉语拼形,英文、数字英文六项内容,这在汉字编码由工具属性向文化属性转型中将起到桥梁的作用,其中汉语拼音和英文是已知的;汉语拼形、数字汉语拼形、数字汉语拼音、数字英文是新开发的;汉语拼音、汉语拼形、英文采用计算机通用字母键盘,数字汉语拼音、数字汉语拼形、数字英文采用复码数字键盘(详见《数字键盘复码字母键位设定原理》)。

在下图中,图1是目前流行的数字键盘,这是参照国际标准制定的《国家数字键盘汉字输入通用要求》(GB/T 18031——2000),这种键盘科技含量差,后来采用T9技术解决不少技术难点,但因先天不足造成本身固有的缺陷是难以克服的,表现如下:

1、在输入英文字母或缩写词时,每个字母是不等长码,最少要按1键,最多要按4键,这种码长不等长数字键盘字母键位设定方法,不利于信息产业深入发展。

2、没有考虑中国的国情,如果直接用于汉语拼音字母键位设定,会造成用汉语拼音每次只能输入单个汉字,不能直接输入汉语词组,汉字输入仍滞留在字处理阶段。

3、使用范围仅限于短消息、通讯录、问候语等短文领域,阻碍了数字键盘产品向深层次拓展和开辟新的领域

4、因字母在数字键的分布欠规律性,而且手机键位小、嵌入的字母不好识别,这对初学者门槛高,阻碍了中老年人发送文字信息的积极性,目前在使用手机的用户中,用于发送文字信息的用户估计不会超过三成,这与目前数字键盘字母键位的设定不能说不无关系。

2是笔者研发的复码数字键盘,有一定的科技含量,特点如下:

1、采用复码技术输入26个英文字母,每个字母都是按两键而且都不重复,见《汉字编码与密码设置》文章附录1,这是复码数字键盘推向世界的重要保证。

2、采用复码技术输入汉语拼音400多个不标调音节,也都是不重复,见《汉字编码与密码设置》文章附录2,这是汉语拼音能够直接输入汉语词组的重要保证。

3、这种数字键盘考虑了中国国情和在世界范围推广,应用在手机上,只要多按一键,其功能趋近于计算机字母键盘,堪称手机中的“计算机”,能把汉语拼音输入法(全拼)直接转换成数字汉语拼音,而不必重新学习其它输入方法,可把数字键盘中文输入技术由字处理阶段过渡到词处理阶段,使用范围可由短文延伸到文章。

4、这种数字键盘分布规律性强,可以直接通过联想不用记键盘,因输入汉语拼音几乎没有改变原来的输入方法,这对于初学者入门的门槛低,能够拉动更多的人使用手机发送文字信息,有利于用手机进行银行存储、证卷交易、网络浏览、收发电子邮件等业务的推广,并推动固定电话早日开通短信增值业务,因此推广普及具有重要意义。

5、这种数字键盘可把计算机键盘汉语拼音输入法直接移植到手机,而不必花很多人去研发新的汉语拼音输入法,因此能够降低研发成本,另外还可节省空间容量,相比之下属环保型产品。

 

1

 

2

 

a b c

3

 

 d e f

 

 

1

 

 I  J  L

   2

 

  N  Z

3

 

E M W

4

 

   g h i

5

 

   j k l

6

 

  m n o

4

 

A  K

5

 

S  T

6

 

C  G

7

 

  p q r s

8

 

  t u v

9

 

  w x y z

7

 

  U V Y

8

 

  B H X

9

 

  F P Q

 

0

 

0

 

  D O R

 

 

 

  1 (普通数字键盘)                            2(复码数字键盘)

 

复码数字键盘使用简单方便,基本原理是:按字母排列顺序,字母和排序在后面与其相邻的那个字母所构成的字母组合,就称作该字母的复式字母,表现形式为:字母a的复式字母是ab,字母b的复式字母是bc,……,字母z的复式字母是za。采用复式字母输入技术,每个字母都用2个字母表示,但在数字键盘上,每个字母都只对应1个数字键,复码数字键盘应用如下(在这里只要键入数字,输出的就是汉语或英文):

 

汉语       汉语拼音              复变                          数字汉语拼音

         Zhong                    ZAhong                         248026

         Guo                       GHuo                            6870

中国     Zhong guo              ZAhong guo                   248026670

 

汉语       汉语拼音          数字汉语拼音      汉语拼形       数字汉语拼形

         Zhong                   28026                     oi                  01

         Guo                       670                       qel                931

中国       Zhong guo           28026670              oiqel               01931

 

英文字母或缩写词                复变                            数字英文

a                                            ab                                  48

EMBA                              EFMNBCAB                      39328648

 

英文                                                                      数字英文

English                                                                   3261158

China                                                                       68124

Science                                                                  5613263

       

以上只是简要介绍了汉语拼音、汉语拼形、英文,以及数字汉语拼音、数字汉语拼形、数字英文的转换关系,在应用时,如果用数字键输入汉语拼音、输入英文字母或词库没有的英文词语时,要采用复变技术,如果英文词库已经有了该词语,或在其它领域应用时,例如密码设置、互联网域名、电话网码号、邮政编码等应用就完全没有必要复变了。

 

域名设置

 

  问题的提出

互联网包括以计算机固定设备为终端和手机等移动设备为终端两种。

据统计,随着互联网技术在中国普及,目前用户已达二亿多户,而且每年还以百分之三十的速率递增,然而互联网域名用户却只占百分之五,这是极不相称的。

中国使用手机目前已达五亿多户,然而手机上网用户还不足十分之一,手机域名用户更是凤毛麟角,这又是一个不相称,当然影响手机用户上网的原因,除了上网费用高和速度慢等因素之外,目前还没有找到用数字键简单、快速输入汉字或字母的方法,因此,只要能够在技术上取得突破,后续发展空间巨大。

随着中国信息产业发展,按目前域名资源状况,在不久将来一定会有那么一天,就像当年人们购买彩电、冰箱;像现在人们购买汽车、住房那样,域名数量会有一个突飞猛进的发展势头,届时人们将会发现,有价值的域名资源会像当今矿山、煤炭、石油资源那样面临枯竭,域名资源的枯竭会阻碍信息产业进一步发展,这不但是中国未来要面临的问题,也是世界很多国家未来都要面临的问题,这为我们敲响了警钟,我们应该建立一种预警机制,树立前瞻性,寻找一种有价值的域名资源转换技术,这对于信息产业未来发展具有重要意义。

  域名设置与密码设置的区别

1、密码设置一般不希望被别人知道或被破译,追求的是保密性;而互联网域名是考虑让更多人记住,追求的是公开性。

2、密码设置在选择上是考虑自己怎样能够记得住而不会被忘记,域名设置在选择上是考虑别人怎样能够记得住而不会被忘记,当然能够记住的人越多越好,一个复杂难以记忆的域名肯定是没有人会用的。

3、密码对资源的占用共有性,同一个密码很多人可以同时占用,域名对资源的占有排他性,根据优先原则,一个域名如果已经有人占用,其他的人就不能再使用了,

域名作为一种资源容量是无限的,但与密码资源相比,域名资源的选择面要窄得多,特别是有价值的域名资源容量是有限的,如果不能合理开发利用,不久将面临枯竭的那一天。

  域名种类与现状

域名按字符分,可分成字母域名、数字域名和字母数字混合域名,汉字和其它符号也可用作域名,但不在本文讨论范围之内。计算机终端互联网以字母域名为主数字域名为辅,手机等移动设置终端产品以数字域名为主字母域名为辅。

域名按等级划分,可分成基础域名、系统域名和顶级域名三个级别,其中基础域名涵盖了系统域名和顶级域名,系统域名涵盖了顶级域名。

1、  基础域名

由字母、数字、以及字母数字任意组合构成的域名称为基础域名。例如123812cncom4u9toj9pz、采用汉语拼音、英文词语等域名也都属于基础域名,基础域名资源容量是无限的。

2、系统域名

在基础域名中,把有规律可循、容易被人们掌握的域名称为系统域名,系统域名往往自成一个体系,是域名资源的主体,系统域名组成如下:

1)字母或数字按一定规律组合构成

例如abcwwwAAAQQ等。

2)英文域名

英文是一种拼音文字,可直接用作域名,当然在外国语中,德文、法文、意大利文、西班牙文等都可用作系统域名,但最常用的是英文,本文着重讨论英文域名。英文词语是十分丰富的,用作系统域名资源,容量十分巨大,英文域名在使用英语的国家特别方便,但在我们中国,能够熟练掌握英文的只占少数,因此使用英文域名具有局限性。

3)汉语拼音域名

在中国大陆使用汉语拼音,汉语拼音用作域名,这是汉语用字音和字母表示的域名,具体应用主要是国家、省、市、自治区等地名的汉语拼音域名,企业或知名人士的汉语拼音域名等。汉语词语资源容量十分巨大,因此汉语拼音系统域名资源容量也是十分巨大的,因为汉语拼音毕竟不是汉语,而是帮助学习汉语的重要工具,因此还不能等价于汉语词语,把汉语拼音用作汉语词语的域名资源,因重码问题使用有局限性。

3、顶级域名

把字符排列简单、个数相对比较少、或有特殊意义的字母或数字组合叫顶级域名。例如wwwQQcomcn163。“911”事件以后,数字组合911也成为顶级域名,这样的域名还有315315日消费者维权日)等,顶级域名属稀有资源。

与计算机固定设备终端域名设置相比,在手机等移动设备域名设置使用数字域名更为方便,然而数字的系统域名资源和顶级域名资源目前尚属希有资源。

从互联网域名发展远景看,未来只要通过申请域名,每台计算机、固定电话和手机都可以搭建一个自己的网站,因此,固定电话和手机直接采用电话号码域名从长远考虑是发展方向,问题是固定电话或手机用户目前还没有任意选择号码的余地,即使将来可以自选号码,如果这种电话号码没有个性,不方便别人记忆,作为对外宣传窗口恐怕还难以达到预期效果。

  域名资源开发战略对策

基础域名、系统域名、顶级域名在容量上呈金字塔形,在塔底座是基础域名,塔腰是系统域名,塔尖是顶级域名。

基础域名资源容量巨大,因杂乱无章难以记忆,人们肯定不会使用。

系统域名资源容量也是十分巨大,是用作域名的主体,但能够提供系统域名资源的种类有限。在系统域名资源中,最重要的是依托语言文字构成的域名资源,例如英文词语十分丰富,直接采用英文词语用作系统域名资源,容量十分巨大,但在我们中国使用具有局限性,汉语拼音用作系统域名资源,容量也是十分巨大,因重码问题,汉语拼音域名资源在容量上远不如汉语词语,而且能够提供有价值的汉语拼音域名资源是有限的,因此,汉语拼音还不能等价于汉语,汉语拼音与英文的系统域名资源相比,汉语拼音系统域名资源还有一定差距。

顶级域名资源属稀有资源,虽然好记,但目前所剩无几,甚至已经枯竭。

目前能为人们提供有价值的系统域名资源和顶级域名资源并不是很丰富,特别是有价值的数字域名资源更是紧缺,属稀有资源,目前在数字域名这一领域,汉语和英文差别不大,尚在同一起跑线上。

随着不同地区和不同应用群体,上述这三种域名之间往往可以相互转化,例如在使用英文的国家,能把很多系统域名升级到顶级域名,在中国大陆,也能把很多汉语拼音系统域名升级到顶级域名,这里把基础域名资源升级成系统域名资源,或把系统域名资源升级成顶级域名资源的过程称作域名升级,域名升级的作用是能够把人们不愿使用的域名资源,经过某种人们很容易掌握的方法转换之后,成为人们愿意使用的域名资源,这样人们在选择域名时就有了更多的选择。

域名资源战略对策的重要内容就是实施域名升级,也就是设法把更多的基础域名资源转换成系统域名资源,或将系统域名资源转换成顶级域名资源,因为每个人几乎都离不开语言文字,语言文字资源是十分丰富的,因此,依托语言文字把基础域名资源升级成为系统域名资源,这是域名升级的重要组成部分,主要包括以下内容:

1、汉语用字形和字母表示的系统域名。

2、汉语用字形和数字表示的系统域名。

3、汉语用字音和数字表示的系统域名。

4、英文用数字表示的系统域名。

以上这四种系统域名与现有的英文和汉语拼音构成的系统域名,是未来人们设置域名的主体,开发利用具有重要意义。

  系统域名资源的开发与利用

计算机字母键盘与手机等复码数字键盘联袂输入技术,能把汉字、字母、数字纳入统一域名体系,形成一一对应的链条关系,而且这种链条对应关系是很容易掌握的,利用这种链条关系可以把基础域名资源升级成系统域名资源,这种链条关系共有3条,下面分别介绍:

1、汉字—汉语拼形—数字汉语拼形域名链

在这链条的始端是汉语,在中国,人们生活在汉语世界,天天都在使用汉语,汉语词语的容量是十分丰富的,我们每个人几乎都能掌握相同的汉语词语;在链条的中端是汉语拼形,这是通过近形关系由汉字转换构成,是用字形和字母表示的汉语,资源容量等价于汉语词语,这是一个容量十分巨大的系统域名资源;在链条的末端是数字汉语拼形,这是汉语拼形通过复码数字键盘转换构成,是用字形和数字表示的汉语,资源容量亦等价于汉语词语,这也是一个容量十分巨大的系统域名资源,举例如下:

 

汉语域名   汉语拼形域名      简称     数字汉语拼形域名    简称

长城长     tgfajcltg         tft        569416156          595

黄山       hibvw             hw         81873              83

秦始皇     zvfvagojbe        zaj        2797460183         241

 

2、汉字—汉语拼音—数字汉语拼音域名链

汉语拼音也可以通过复码数字键盘转换成数字汉语拼音,这是用字音和数字表示的汉语,汉语拼音系统域名资源容量等价于汉语词语,因此数字汉语拼音域名资源容量亦等价于汉语词语,这又是一个容量十分巨大的系统域名资源,举例如下:

 

汉语域名    汉语拼音域名       简称     数字汉语拼音域名    简称

长城长     changchengchang     ccc      684266832668426     666

黄山       huangshan           hs       874265842           85

秦始皇     qinshihuang         qsh      91258187426         958

 

3、英文—数字英文域名链

链条的始端是英文,把英文用于系统域名资源,容量是十分巨大的,在这链条的末端是数字英文,是英文通过复码数字键盘转换构成,是用字母和数字表示的英文,因此,数字英文域名资源容量等价于英文词语,这也是一个容量十分巨大的系统域名资源,举例如下:

 

英文域名                              数字英文域名

Jack                                  1464

LISTSERV                              11555307

WWW.CHINA.COM                     333.68124.603

CHINA NETCOM                          68124235603

TCL                                   561

 

以上域名包括汉语拼音、汉语拼形、英文,以及数字汉语拼音、数字汉语拼形、数字英文6个系列,在实际应用中,如果字母组合已经被注册或码长比较短,可以对上述任意两种域名进行组合,通常是字母和数字进行组合。

例如把英文Jack和采用复码数字键盘转换构成的数字英文1464组合构成域名Jack1464等。再如,笔者用这种方法注册邮箱,用“汉语拼形”每字的首位汉语拼音字母HYPX注册,因已经有人注册,故未能注册成功,后来用HYPX对应的数字8798挂接,即用HYPX8798注册成功,用同样方法也可以挂接居住地名称汉语拼音对应的数字,也可以用个人的字号、出身、职业、师傅(指有名望的)、嗜好,以及别称如笑口常开、情诗佳人、梨园杏花、天山蛟龙等汉语拼音对应的数字挂接,但是,挂接的数字一定要与字母在意义上要有对应关系,不能造成脱节,否则别人也不好记忆。

在对外推广时,采用汉语对应的汉语拼音域名、汉语拼形域名、数字汉语拼音域名、数字汉语拼形域名,以及英文转换成的数字英文域名,都需要注示,也就是用汉语或英文注明或介绍域名的字母和数字含意,否则别人不好解析你的域名含意,也就谈不上好记忆了。

在记忆域名时,并不要求刻意去背域名本身,而是通过联想记忆产生域名链条的初始端:对于汉语拼形域名、汉语拼音域名、数字汉语拼形域名、数字汉语拼音域名,要记的是汉语词语;对数字英文域名,要记的是英文词语。

无论是使用汉字的国家还是使用拼音文字的国家,着力推广普及计算机字母键盘与手机等复码数字键盘联袂输入技术,对于推动信息产业发展、方便人们生活都具有普遍意义。


 

《汉字近形编码论文之十》

辽宁省/本溪/高国鹫

E-mailhypx8798@yahoo.cn

注:hypx——“汉语拼形”每字的首位汉语拼音字母;

8798——是HYPX经复码数字键盘转换构成的一组数字。

新浪网博客:汉字道

20081119

 

目前已发表的文章有:

1 《汉字编码三大定律》(20071213日)

2 《笔画组合理论与汉语拼形方案》(2008228日)

3 《数字键盘复码字母键位设定原理》(2008229日)

4 《挑战天下编码人》(2008319日)

5 《汉语拼形汉字输入法》(200847日)

6 《汉字编码——未来推动汉字演化的动力》(200866日)

7 《关于汉字编码第二次整理探讨》(200876日)

8 《论汉字编码数学原理》(2008820日)

9 《汉字编码与密码设置》(2008119日)

10 《汉字编码与互联网域名》(20081119日)

近期要发表的文章有:

11 《汉字编码与电话网码号》

12 《汉字编码与邮政编码》

13 《从汉字简化运动到汉字编码运动》

                    




阅读:
录入:

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:汉字编码与密码设置

下一篇:关于改良汉字的研讨
相关文章       汉字  汉字编码三大定律 
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章