论汉字输入技术的总体进程分析与普及对策 赏宝珩 浙江大学 一、汉字输入法的发展前景分析 观察1.形码 2.拼音 3.声形 4.手写 5.语音 这五类汉字输入法的发展状况来看,作者分析其前景最终将由语音法来统一天下。理由是 a.客观的需求所决定。人类社会交往活动的主体手段是语言。从会议,上课,电话,家庭生活均是相通.现网上交友只文字无语言,才出现男女假冒。b.语音输入项目本属于计算机技术的升级,发展的份内课题。实现更高智能化人机对话,互动纠错。比如当人发话“任命”二字不够准,pc会问“是人民还是姓名”,人即答“新官上任的任,命令的命”,pc听清后便能正确显示“任命”二字,同时准确发出“任命”的读音。一旦PC具有人机互动纠错功能, 则挑剔口音和苛求pc识别率便成为过去。对整句,片语,上下文的输入,PC会用先念信息以减少发问.有了这样功能的PC机,将大超现时水准。中科院语音输入用15年时间已有重大突破,还望再过15年有二次智能化大突破。难处仍在总体设计思路的创新方面,这也是印度的经验。他们除规模更大的软件队伍之外,另有一支专业专家中心队伍.好比演出班子与创作班子,但关系更趋紧密。创新发明的普遍规律是多年苦功积累之下,突然迸发一个创新思维火花,再以配套软件来实施完善,最终取得成功。待到那时多种输入法,也就完成历史使命,万花纷谢一时稀了。 二、现存可用的汉字输入法的功过与该担当任务 现存可用的形码,拼音,声形,手写共四类输入法,可说各有千秋.各自拥有一片天空.例如拼音的天空在学子和中青年. 五笔的天空主要在专业打字.以降低拼音重码为目的,而派生的声形码,种类繁多. 这种以拼音为主体的复合型体制,40岁以上人群中不会拼音的人仍感怯步.即便打出"一分钟学会"的广告,动心者仍不多.当前的情况是约占一半天空的40~ 80岁的人群是社会精粹骨干. 他们既有条件又有学会汉字输入的需求.尽快让他们掌握汉字输入法为社会生产力发展作积极奉献.自责年老难记不学计算机,如同"老不入川"根源还是在于"蜀道难". 众多输入法发明人均夸自个发明易学好用,从不自责为"蜀道难". 说明客观评判输入法难易的指标有多重要.因此,有必要科学审视现有汉字输入法的功过.以图获得有益的启示,以面对未来15年的过渡期中的汉字输入,傲好服务工作.总不能原样停滞,冻结起来,干等新发明. 本文侧重举例于形码法指标描述.但评测方法及相关软件,仍具普遍性实用意义. 三、汉字输入法的科学判定指标. 以"单字高速盲打"为目标的输入法,虽宜于专职打字, 但要全民普及多年证明确难.意外的不幸是"单字高速盲打"竟因俗成章,便成"垄断性标准".作为打字行业的软件标准尚可.全国专职打字员,虽百万,仍少数."单字高速盲打"之外,仍应另设<易学难忘,多用词汇>的输入法标准. 为上亿中国人普及使用需求.也是向科学性,先进性回归的问题.没有指标即无科学性.判别计算机汉字输入法的优劣,应以多项技术数据指标为准.包括 a.难度系数[3].b.静态重码率.c.词汇总量等.同时还应依据我国国情的特点:1.我国有12亿人口东西南北中口音方言差异大.2.56个民族,语音统一,决非一个世纪所能完成.3.中老年(40 ~80岁)对汉字输入有强烈的<易学难忘>的愿望和要求.不能说他们笨(或自责年老,记性差).实质是软件不科学.4.科教人员有方便输入大量专业词汇要求(尤其是医学词汇最多, 百万大军等着用). 5.海内外两岸三地有方便统一的要求. 6.汉字是我中华民族光辉灿烂的文化遗产.汉字词汇量大精深,是构成中文文字美,语言美的要素.其深厚文化底蕴,睐力无穷.此外汉字还有图形记忆的独特优点.以此六点审视,当会发现改进后的形码的真实的价值. 1.硬输入难度系数Dh指标 硬难度系数Dh可定义为平均每打一个英文字(Word)或汉字,其操作复杂程度(操作难度)和所需的记忆量.键盘码元K多(指键多).每码元所代表的字元数N多(如指部首多),每字击键次数L多.需背记的量大,难度系数就高, P.2反之则低.Dh为无量纲而可对比的量化指标.英文是最便于对比的对象.例平均每打一英文字的难度系数为:Dh= 26x(5.2~5.8)=143 因英文每字平均长为5.2~5.8个字母.按英文的Dh值计算方法推广普遍得:公式(1) Dh = AxB(加权系数) x K(码元数)x N(每码元含义数)x L(码长)公式(2)软难度系数Ds--系数Ds例如:复体制(音形码)暂取加权为1.4, 及难以量化的难度如:部首难读,难分,难记,取码常用规则多,特殊规则多等.公式(3)综合难度系数D(平方) = Dh(平方) + Ds(平方) 是按非相关随机量求统计和法得出.一般当Dh值较高时,Ds可忽略,但Dh值低时则极需考察Ds的情况.例如编码规则,拆字取码规范程度等.实例很多, 不少已成过眼烟云编码法即是教训.一般最基本,直观可算,便于比较的是Dh指标. 按上列Dh公式和静态重码率Pc的通用公式,作者对国内外十余著名汉字输入法的此两项重要指标(Hh与Pc),进行费时了解和计算. 为取得综合对比清晰效果.用直角座标同时显示两项指标已于表1. 表1注: a.图中多种编码的难度系数Dh,为计算数据的大约值. b.右上端画出的金,银,铜三区,清楚表示出难度低,重码少的码型区: "金"区 (Pc<10%,Dh<100),冠军暂缺. "银"区 (Pc<20%,Dh<200),澳大利亚笔型编码每字需1~ 7键,需查Ds值. "铜"区 (Pc<30%,Dh<300),目前只有米字码进入.小键盘字词有冲突. c.米字码给出的静态重码率.由专用search软件对米字码字库扫描统计不会遗漏,计算无误.看出米字码指标居优(下节将予介绍).所示的数据指标,显示了科学性和先进性,是进行对比的客观语言.重要性不仅是编码发明人可对其先进性定位,并获知继续改进的方向. 指标数据既反映亮点,亦反映问题.应属学术主管部门及领导掌控要点.以下是对表1的注解: 1.五笔字型的难度系数Dh值有变化.因改进版本,所使用的汉字部首从先前200个,已增至240个,相应的Dh值由1500增至2000左右.
2.表1.证实声形码确比五笔难度下降3~ 4倍,但使用者未见大增.是缘于五笔先入为主?或者是Dh公式中复体制加权,取值1.4偏小所致?需待考查. 3.四角号码的Dh=200左右属较低.只是重码偏高. 如借助现代计算机帮助改进,四角号码有望出现枯木逢春局面.数码在手机运用中前景看好. P.3 表1.十种著名汉字编码的两项重要指标(Pc,Dh)的同显对比表 五、介绍米字码 作者发明两项算机汉字入法(形码法大,小键盘各一项). 首创汉字笔划的"米字定律"而称<米字码>.以概率理论,科学指标论证为特色.其<键,码>配置是按<米字笔划>象形排序.降低背记难度近八倍.专利(94104738.5,)及(95104620.9)公告.其中<小键盘米字码>在香港列入"世界优秀专利集".<大键盘米字码>汉字输入法.科学设计限定单字三码规则,精心实现较低的单字重码率.使字三码词四码的系统方案得以确立.终于使字,词互不相扰,词量猛增10倍,且又不影响单字重码率.现有12万词汇标准版,14万词汇医学专业版.有光机电,生化农,政法史,经贸商等多科学应用潜能.突显米字码的词汇操作为主的特色.简捷明快胜过西文输入.指标数据见表2. 1.重码指标的统计 Pc = (重字总数-重码组数)/(总字库量) 表2:米字码的重码统计 汉字国标 6763 字 | 一级国标3755字 | 二级 3008字 | 重字组 1096个 重字分布 2字组 820 74.8% 3字组 202 18.4% 4字组 59 5.5% 5字组 12 1.1% 6字组 3 0.27% | 428个 重字分布 353 82.5% 63 14.7% 10 2.3% 2 0.5% | 317个 重字分布 269 85 % 39 14.5% 7 2.2% 2 0.6% | 静态重码率 (重字总数 = 2560个) Pc 6763 =(2560-1096)/6763 = 21.6% Pc 3755 =( 939-428)/3755 = 13.6% Pc 3008 =( 687-317)/3008 = 12.3% | 主要结论(一) 1.重码率约占20% 2.80%是重2字(便于软件消重) 3.常用字的重码率为13.6% | | | | |
2.<米字码>的研究工作还包括: A.词汇量与词汇重码的关系试验曲线,获得极为有用的结论:当词汇量由3万个线性增加至11万个时,静态重码率由10%呈线性上升至26.8%. 得出:主要结论(二) (1)重码线性增长的斜率 S =< 2 %词量(万) (2)15万词量的重码率Pc≤30%.予测到创建各类大词量专业输入法的可能性. Pc % 词汇静态重码率 30 ┨ + + 20 ┨ + + + + 10 ┨ ┗━━╈━━┿━━┿━━┿━━┿━━┿━━> 2 4 6 8 10 12 词汇量(万) 图1:实验得出的汉字词汇量与词汇静态重码率关系曲线 B.<米字码>词汇操作增速倍率Q的理论,计算公式及曲线,从曲线得出的Q值≈2,说明当所输入的汉字文件带有60(常规情况)词汇时, 可比全单字操作增速约2倍.见文献[5].过去认为只有难度系数极高的五笔码靠单字盲打(只此一条路),才能实现高速输入. 尔今此项论证实验改变了上述论断 P.4.现另僻溪径,采用难度小8倍的米字码(十万词汇),词汇输入为主的汉字输入法,同样可获高速,今后成句的语音输入则将更高速. C.米字码中英文键盘输入对比的理论分析<米字码>可否挑战英文的键盘输入?中英文的击键次数比较, 英文平均每字为5.5个字母,<米字码>单字3码,比英文少击2.5键,中文比英文的单字缩减系数Dce Dce= 3/5.5=0.54倍 又因英文始终只能一个一个地字母输入.而中文可用词汇输入,视词汇长短不同,词汇击键的缩减系数Dw值,按取中值三字词进行比较则: Dw=≤4/(3x5.5)=0.24 进而求出中文(单字+词汇)的击键缩减系数Dm Dm = 40%(单字比例) + 60%(词汇比例) X Dw = 0.44 考虑词汇比单字缩减系数Dw,及单字中对英,比英缩减Dm,得出中对英综合缩减系数Dq Dq = Dce X Dm ≤ 0.54X 0.44 = 0.356 中英文输入对抗赛,由<米字码>引发,仅为纸上理论竞赛.请看结果: 表2:键盘输入的中英文指标性能对比 米字码: 英文 输入难度系数Dh≤250 : 143 ≈2 : 1 A.单字击键次数:≤3次 : 5.5次≈1 :1.8 B.词汇击键次数: 4次 : 3x5.5≈1 :≥4 | 主要结论(二) 1.单字难度米码比英文高≤2 倍 2.单字英文比米码击键多 1.8倍 3.中词优势,英文需多击键≥4倍 | 总体评估(单字+词汇) 英文比中文(米码) | 4.总体英文多击键>2.8倍 |
对比目的:宏扬中华文化,汉字瑰宝.激发国人对汉字形码法兴趣和信心.以上反映<客观物理结构的输入速度>.排除了<竞技与训练>.常见广告:速度200字/分钟等.1分钟学会等.它非随机抽样,无概率分布,违反统计学原理,不科学. 六、计算机汉字输入的应用软件汇总建议: 计算机汉字输入的研究,应用需要一些软件的支持,才能科学,优化, 好用.目前不少发明人已拥有一些专用软件,为有效利用这些软件资源,节省人力时间,降低研究成本和周期.建议:这些软件集中起来,统一管理.让需用者登记申购,一次发放.这样供,需,管均受益,并助学术繁荣.软件举例: 1.静态重码率自动收索统计软件 search <hz.lib> erro 2.汉字词汇自动排序删除重复软件 3.各种输入法教学软件等 4.计算机降低重码软件 5.计算机操作记忆增速软件. 6.汉语各种专业词汇库(20多专业)软件 7.汉语综合词汇库软件 8.直接挂接进入windows9x 编码生成器的软件 七、三种编码的专业人才大联合,大合作建议. 过去有"万码奔腾"的说法,后来又冷落.组织者是有责任的.本次会议的征稿通知我认为大有起色,科学性增强了.重视了理论总结.本文作者建议三种编码的专业人才大联合,大合作建议.或一个公司三个专业.或三个公司各一个专业.发明人技术入股.学会当董事长在全国各省含港澳台引资.既是软件产业必有立足之地的.一旦启动,慢牛会变磁悬浮. 赏宝珩相关论文 [1]输入编码"分子码"(现称米字码)编码理论与应用 '95第四届全国电子技术应用会议(成都) [2]输入编码"分子码"软件辅降重码 '95第三届全国计算机学术报告会(北京) [3]<形码法>汉字输入法的部分规范化,标准化论证 '96中国计算机学会中文信息技术五届年会及中国中文信息学会汉字编码专业委员会七届年会 (苏州) [4]计算机汉字输入法的进展,及其科学判定指标 电子科技导报1996第7期 [5]论中西医药计算机信息处理与米字码汉字输入法 '97中国第七届医药信息学会 (承德) [6]汉字编码中<软件辅降重码>效果的数学论证 '97中国电子学会资深专家委员会第一届学术报告会(杭州) |