计算机处理汉语汉字的问题可以从研制和使用两个方面观察。
从研制方面看。计算机处理汉语汉字要遇到汉字的输入、输出和传送,字形的计算机识别,汉语语音的识别和合成,汉语词的切分,语句的形式化,歧义词语、句子的形式确定,以及汉语语义系统的分析等问题。解决这些问题除了要加强汉语的形式化研究等基础研究,还必须以推行国家通用语言文字作为前提条件。
1955年,我国确定了普通话的标准,1958年,国家公布了《汉语拼音方案》,后来又对普通话异读词的读音进行审定,于1985年公布了经过修订的《普通话异读词审音表》。在汉字方面,国家先后公布了《简化字总表》(前身是《汉字简化方案》)、《第一批异体字整理表》、《印刷通用汉字字形表》等。这些,都为电子计算机汉字键盘输入(包括音码、形码等)和语音输入的规范化、标准化提供了基础条件,也促进了国家标准《信息交换用汉字编码字符集·基本集》(GB2312—80)及辅助集文本的及时颁布。《信息交换用汉字编码字符集基本集》的及时颁布使计算机各种输入输出设备系统之间的汉字信息交换能够互通,使我国各类计算机之间的汉字通信成为现实。
计算机处理汉字又对汉字的规范化和标准化工作提出更高的要求。例如:希望对横向笔画超过七笔、竖向笔画超过八笔及其以上的字进行笔画减省,希望对汉语中的同音字、同音词进行字形、词形分化,而用读字、说话方式输入、输出中文信息的声控技术的发展则要求人们进一步提高普通话水平,等等。
继“字处理”问题逐渐解决之后,计算机技术正在向更新一代——智能型计算机发展。这就需要语言文字信息处理从“字处理”向“词处理”再向“语句篇章处理”的方向发展。在智能型计算机的研制中,随时都需要汉语词法、句法、语义和语用各方面研究成果的支撑,尤其是自动分词,它是机器翻译、自然语言理解、文献检索、词频统计等多种工程的基础。《汉语拼音方案》和1988年公布的《汉语拼音正词法基本规则》为计算机技术处理词切分问题做了一定的准备,但是,还远远不够。中文信息处理每前进一步,都遇到语言文字方面的许多难题。人们热切希望尽快突破这些难点,使中文信息处理的成就和水准更快地提高。
从使用方面看。输入和处理中文信息是计算机的基本功能之一。计算机的击键输入汉字的方式虽然有字音输入、字形编码输入和形音结合编码输入三个大类,但是,三个大类中最受欢迎,使用得最多的还是字音输入法。因为字音(包括音节全拼和声韵双拼)输入法的基础是普通话和《汉语拼音方案》,而这二者是在小学阶段就已学会而且经常在使用的,不用另学另记。即使是使用字形编码输入法和形音结合编码输入法,人们也要求方案在分解字形、设计编码时认真遵从汉字汉语的规范,符合人们分解、组合汉字汉语的习惯,这样的方案才易于被人们接受和长期使用。现在,公共信息网已开通,国际互联网也可以长驱直入,一条能够通达全国、联接世界的信息高速公路已经铺设在我们面前。如果我们有条件使用计算机,那么,如何让计算机自由地驰骋在这条“高速公路”上,共享全世界的信息资源?除了器件、技术方面的条件外,还有使用者自身的条件。使用者如果正确掌握了规范的语言文字和《汉语拼音方案》,那么将在工作中获得异乎寻常的便利。