湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南
 

汉字输入技术与应用研讨会论文集

  

智能汉字输入平台生成系统

   

  朱荫牛

  

【摘 要】本文阐述了汉字编码输入软件发展历程和简要介绍了智能汉字输入平台生成系统的七种技术和十项功能。

 

一、汉字输入软件发展历程

 

随着计算机处理能力的提高和各种与汉字有关法规文件的出台,汉字编码变得越来越简单,越来越规范,而软件则越来越复杂。越来越庞大。智能输入平台的开发成本也变得很高。纵观汉字编码输入软件的发展历程大致分为五个阶段:

1、人工编制单字码表和专门编写的程序构成输入法软件;

2、人工编制字词码表和专门编写的程序构成输入法软件;

3、人工编制字词码表和构词规则用输入法生成器生成输入法软件;

4、人工编制单字码表用智能输入法生成器生成智能输入平台;

5、定义编码规则和构词规则用智能输入平台生成系统自动生成智能输入平台。

为此研发《智能汉字输入平台生成系统》有着重要的意义。它不仅可以分散成本,减少低水平重复劳动。更可使各种汉字输入平台物美价廉,易于普及应用。系统能够生成的编码是字符键区所有键的全排列和数字键区所有键的全排列。这是一个天文数字。包括了所有的已有编码方案和还未有的编码方案。汉字从此不再需要人工编码,人工进行汉字编码的路已经走到尽头。

 

二、智能汉字输入平台生成系统

 

智能输入平台生成系统可以生成满足以下条件的中文输入平台:智能码元集合是键盘的字符键区的94个键和数字键区的15个键;其最大编码长度为28个字符,最短编码长度为2个字符。

输入平台能容纳四种以上的输入法。信息元为单符或多符代码的形码或音码或音形码。

参数文件是一个文本文件,它包含了目标智能输入平台全部的特征信息和编码规则信息,是对目标的完整描述。

用户只要提供规定格式的输入平台参数文件,或者按照智能输入平台生成系统界面指示操作,创建智能输入平台参数文件,通过生成系统,即可生成完全具有Windows特性和功能的智能中文输入平台软件。

智能输入平台可以在键盘上或者鼠标软键盘、触摸屏及写字板上使用。

系统可以直接调取WINDWOS格式的码表文件转换生成智能汉字输入平台软件。

生成系统有GBK字符集版和GB18030字符集版两种。系统内有全部的属性库和部件库。部件库基于GB1803027533字和GB1300020902字。

包含将汉字拆分二部分约2900个部件;将汉字拆分三部分约1070个部件;将汉字拆分四部分的560个部件。和比GBK字符集增加了6651字的GB18030字符集所增加的几十个部件。

 

智能输入平台具有七种技术和十项功能。

七种技术是:基于统计的智能输入技术;上下文关联技术;模糊识别;语言模型技术;人工智能预测和数据挖掘技术;压缩技术;快速检索技术;

十项功能是:

1.智能整句、字段、词语、字混合输入;

2.全拼、双拼、形码、数码输入;

3.海量知识库支持;

4.智能词语记忆;

5.词的歧义处理;

6.用户个性词库;

7.中英文混合输入;

8.中英繁简自由切换;

9.智能模糊音识别;

10.预存网址一键上网;

 

限于篇幅就部分技术和功能进行描述。

 

压缩技术

 

现在的智能汉字输入平台占用空间十分庞大,有的软件开销已经占据了540M字节以上。这样不仅资源浪费,而且速度很慢。本方案使用了压缩算法使整个5000万字的知识库用了不到50M空间。同时也提高了检索速度。压缩索引表将索引表设计成多重变址寻址方式分配在扩展内存中,减少硬盘的调用;压缩词语关系表动态压缩300万条词语关系库成21MB,减少软件开销。

 

词的歧义处理

 

用内字法克服了歧义。以使用频率高达4%的这个“的”字为例。

“的”的读音是dí、dì、de。的(dí)士。在任何权威的字典、词典中都没有dī声。而读音是dī的字是“啲”、“嘀”、“滴”。

但是无论是中央还是地方电视台、广播电台、报刊杂志。都一致将“的士、的哥、的妹、的嫂、摩的、板的、面的”中的“的”字读为dī声、印为“的”字。。这实际上是一种约定俗成。是认定了读音,并没有认定这个字。电脑在处理时就会产生歧义。“的”已经忙不过来,人脑和电脑都不易分辨,而“旳”(“的”古字)和“啲”却在那里闲着没用。要使汉字的有理化,所以在这些词中的“的”字在内部变形处理将“的”字改为“啲”,称谓内字。从而克服了歧义问题。

当然某个词典如果新加上一条:“啲”字就转正了。

读音:dī。名词:出租车的简称。方言:一点的意思。象声字:啲啲。啲啲:鸣喇叭的声音;啲士:小型出租汽车;摩啲:出租摩托车;板啲:出租板车;面啲:出租面包车;啲哥、啲爷:对男性出租车司机的一种简称;啲姐、啲妹、啲嫂:对女性出租车司机的一种简称。

例句:给我一啲糖。给我一点儿糖。

由“夏的、富的、桑的、奥的”改为:夏啲(夏利出租车)、富啲(富康出租车)、桑啲(桑塔纳出租轿车)、奥啲(奥迪出租车)。

 

智能混合输入

也可称为“双智能输入”优势在于人脑与电脑并用,双管齐下.

非智能输入时编码的转换需要用人脑来完成,电脑仅仅起到检索的作用;字词的确定由人脑决定,没有充分发挥电脑的作用。智能输入时编码的转换用电脑来完成,人脑仅仅起到检索的作用;字词的确定由电脑决定,没有充分发挥人脑的作用。所以智能、非智能两种输入方法都走了极端。

例如:输入“中华人民共和国”。

在智能输入中用全拼需要输入“zhonghuarenmingongheguo23个字符,双拼或者形码也需输入“vjhdr mqgghegj14个字符;单字节输入“vhrmghg7个字符。在非智能态中无论是音码还是形码都只需输入34个字符,如:“vhrg”。相对来说在这种情况下还是在非智能输入用脑强度低。

采用智能混合输入显然是非智能态的输入码长较短。所以用一个转换符将输入状态从智能态转至非智能态。如用空格键,这时只需输入5个字符“ zhrg”。能够缩短码长提高速度,使汉字输入的平均码长短于2码。具有一定的优势。

 

人工智能实时预测技术

汉字输入的人工智能要求比象棋的人工智能还要高难度大,并且必须实时处理不能等待,一旦造成输入等待就没有价值了。

智能预显示,从而解决了“回头看”的问题。降低了键选率。

 

生成系统从开始创建到生成软件包光盘只须一天时间,与过去的数个月以至大半年相比,具有重要的意义。

具体功能为:

定义键盘,创建平台,自定义词,词语排序,生成词库,阅读训练,仿真检验,制作图标,制作帮助文件,生成软件,试用安装,制作母盘,设置,还原码表,帮助,版本信息。

 

三、智能规范码输入平台的实现

 

智能规范码输入平台是有八个编码方案的复杂系统。由智能规范拼音、智能规范双拼、智能规范形码、智能规范数码和普通规范合码所组成。其中普通规范合码包括规范拼音、规范双拼、规范形码、规范数码。智能、普通规范数码在数字键区输入汉字。平台初始状态为智能态。智能规范拼音最大输入6码,智能规范双拼与智能规范形码为2码,智能规范数码为3码。用快捷键相互转换。智能状态由转换符转至普通状态时,首字符为数字时码长最长为6码,输入普通规范数码,首字符为字母时码长最长为4码。不足码长时用空格返回智能状态。

智能规范码的用户范围是普通人群,特别是中小学生。所以学生版在GBK字符集中异体字与不规范字不参加编码。由于GBK的字符集里包含了中日韩三国所使用的汉字,所以日本和韩国用的汉字也不参加编码。普通版为GBK字符集,超集版为GB18030字符集。

智能规范码输入平台采取双智能输入的混合输入方式,可以减少输入量即减少码长,减少键选率。加快了输入速度。

 

汉字不再需要人工编码,智能非智能输入方法已有长时的研究和应用,关于智能混合输入,作者进行尝试,特点很多,尤其对词的岐义处理具有一定的特色。可以说是具有独特风格的智能汉字输入平台生成系统。

 

 

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有