阅读文章

陈明然:关于非一一对应简繁字研究的系列问题

五、非一一对应简繁字问题的解决办法

[日期:2009-08-24] 来源:语言文字网  作者:陈明然 [字体: ]

五、非一一对应简繁字问题的解决办法

 

  目前为止,学界对非一一对应简繁字的调整,归纳起来有不做调整,依靠计算机简繁汉字转换软件解决问题、全部恢复相关繁体字、部分恢复相关繁体字、全部或者部分恢复相关繁体字以后再酌情简化其中部分字等四种意见。

本文否定依靠计算机简繁汉字转换软件解决问题这一观点。电脑本身是没有思维能力的,它是严格按照人预先设定的程序进行工作的。把希望寄托於计算机技术水平的提高,试图依靠转换软件解决问题,是行不通的。用这个办法,永远无法把简繁转换的准确率提高到100%;即使是提高到99.99%,这最后的万分之一还是要通过人工甄别来解决。在一万个字中找一个别字,简直是大海捞针!会使我们的文字处理效率降到多么低下的程度!而我们只要是赞同文章不能有错别字这一点(这一点是肯定无疑的),就不能容忍这种状况的存在;另一点就是,为提高转换软件的准确率而投入的研发经费将肯定是一个天文数字;而目标的实现又将是遥遥无期;这意味着巨额科研经费的浪费和计算机简繁转换的长期混乱。

汉民族社会的语言是极其丰富的,是任何语料库都无法穷尽的;再次,随着社会的发展和人们生活内容的变化,大量新语汇不断涌现,而需要投入巨大的人力物力来制作的语料库却不可能时时更新[[1]]

    冯寿忠教授曾经指出:

大家都把注意力投向了软件方面,企图通过软件的不断改进,彻底消灭简繁转换的文本错误,最常见的办法就是采用词语转换。这种做法理论上就存在先天不足,因为,词语是语言系统中最活跃的因素,吐故纳新的频率比较快,任何词典都不能穷尽所有的新生词语,而计算机软件则不能随时改进;如果解决了文字的一一对应问题,就可以一劳永逸,因为任何词语都是用单字组成的[[2]]

詹鄞鑫教授也指出:

由于繁简汉字的关系并非简单一一对应的关系,在计算机进行繁简字转换处理的时候,不能不投入大量人工甄别的劳动,使得本来一瞬间就能完成的任务,变得需要投入大量的人工劳动和时间。Office2000以上的Word软件虽然有智能化的繁简字转换功能,能在一定程度上根据上下文作出相应的用字选择,但其转换是以预先设定的词汇搭配为前提的,凡设定之外的搭配就无能为力。在实际应用中,还有大量汉字是没有词汇搭配语境的。例如表示说话义的‘云’,以及汉字举例,字典的字头等。这点成为计算机汉字自动化处理提高效率的一个瓶颈问题[[3]]

胡双宝先生以大量的例证充分地说明了计算机正确进行简繁转换的困难。他指出,要使计算机正确进行简繁转换,“实际上是要从不同角度‘教’会电脑各种各样的本事,也就是要针对每一组字的不同情况规定若干条件。而情况常常是难以穷尽的,这时候想到这些情况,不知道什么时候又可能出现别的情况。‘已有情况’也并不容易搜罗齐尽。”“社会文化生活中的实际情况是,知道可能混淆的混淆不了,不知道可能混淆的常常会混淆。”[[4]]

这里列出胡先生所举众多例证中的3个:

例1.白居易《秦中吟·歌舞》中的诗句“秦城岁云/雲暮,大雪满皇州”中“云/雲”,不容易根据条件确定是“云”还是“雲”。

例2.对于冯霞女士提出的,在把表示“街坊、家乡”之义的“邻里”、“乡里”等词都穷尽收入词库的前提下,“只要当‘里’出现在数词后面,就可以判断其对应的繁体字形为‘里’”[[5]]。胡先生举例道:“市里”是指市政府大院或者某城市里(裏)面,还是指和“公里”相对的长度单位“市里(里)”?“海里”是指“海里(裏)面”还是长度单位“海里(浬)”?

例3.“制表”是指“编制表格”还是“制(製)造钟表”?

   “编制”是指“制(製)定规划”还是“人员编制(制)”?等等,等等。

本文也不赞同在全部或者部分恢复非一一对应简繁字集合中繁体字的规范字地位以后,再酌情简化其中部分字。理由是这样会产生新的汉字字形。如果采用这种办法,所有用作汉字处理的计算机里的汉字字模库都要进行更新,需要付出高额的成本;还有一个问题就是计算机字模库里的字形更新以后,以前的计算机汉字文本如何使用?

本文倾向于部分取消非一一对应简繁字之间的简、繁对应关系,恢复这部分繁体字的规范字地位。这里的“部分”,有两种解读:

一是根据各相关字组中的原简化字是不是在现代通用字范围内这一尺度,把非一一对应简繁字分成两部分。只取消原简化字属于现代通用字范围的这部分字组内简繁字的简、繁对应关系,恢复相关繁体字的规范字地位。例如“板”就属于这种情况。本文把这一方案称作“局部调整方案”。

二是按二字组和三字及三字以上字组把相关字组分为两部分。取消全部二字组内简繁字的简、繁对应关系,恢复相关繁体字的规范字地位。三字及三字以上的字组有26组,按各组中的简化字是否是古已有之分别处理:

1.“当當噹、尽盡儘、弥彌瀰3组中的“当當、尽盡、弥彌”是3对异体字[[6]],宜归入异体字处理,即把“当、尽、弥”定为正字,把“當、盡、彌”作为异体字淘汰;取消“当噹、尽儘、弥瀰”这3对简繁字每对内部的简繁对应关系,恢复“噹、儘、瀰”3字的规范字地位;

2“复複復、干幹乾、了瞭暸、卤鹵滷、蒙矇濛懞、台臺檯颱、团團糰、系繫係、只隻衹” 929字,均古已有之,而且每组中各字字义有别,宜取消每组内部的简繁对应关系,恢复“複復、幹乾、瞭暸、鹵滷、矇濛懞、臺檯颱、團糰、繫係、隻衹20个原繁体字的规范字地位;

3“余馀餘”字组中,取消“余”二字的繁简对应关系,保留“馀”做“”的简化字;

4.“摆擺襬、恶惡噁、发發髮、汇匯彙、获獲穫、历歷曆、签簽籤、苏蘇囌、坛壇罎、纤縴纖、须須鬚、脏臟髒、钟鍾鐘13组中的简化字都是简化时新造的字,根据一对一的原则,保留“摆擺、恶惡、发發、汇匯、获獲、历歷、签簽、苏蘇、坛壇、纤縴、须須、脏臟、钟鍾”13对字的简繁对应关系,取消“摆襬、恶噁、发髮、汇彙、获穫、历曆、签籤、苏囌、坛罎、纤纖、须鬚、脏髒、钟鐘”13对简繁字的简繁对应关系,恢复“襬、噁、發、彙、穫、曆、籤、囌、罎、纖、鬚、髒、鐘”13字的规范字地位。

这样,这26组三字或者三字以上的字组中的简化字,除个别不属于现代通用汉字(如读qíu的“团”、同“西”的“卤”)外,绝大多数都可以得到保留。

本文把这一方案称为“全面调整方案”。

考虑到当今计算机已经在包括出版业在内的所有汉字处理领域的普遍应用,建议还是全面调整为好。不能把解决非一一对应简繁字问题,仅仅看成是为了解决当代两岸四地交流的需要。由于简化字和繁体字将长期并存,就是在大陆内地,也有不少场合需要进行简繁、繁简转换。“文字用于记录语言不仅要使人们克服空间上的障碍以利交际,还应该使人们克服时间上的障碍以了解历史,也使将来的人们了解现在和古代。”[[7]]

具体调整建议如下:

首先,按前述“全面调整方案”取消各相关简繁字对的简繁对应关系,恢复相关繁体字的规范字地位。

其次,把被取消简繁对应关系的字对中属于现代通用汉字的原简化字(如“板”字)收到规范字表中,;不属于现代通用汉字的相关原简化字,不收入规范字表。

第三,由各相关软件公司对有关软件进行修改,去除程序中原来处理非一一对应简繁字转换的语句,同时去除程序中原来的词语辅助辨别部分,实现简繁汉字的一对一转换。

第四,196组非一一对应简繁字中有24组《总表·第二表》中的字组,对这些字组的调整,会涉及《总表·第三表》中的相关字组。涉及的字组有以下74组:

蛊蠱、㳠澾、闼闥、挞撻、哒噠、鞑韃、挡擋、档檔、裆襠、铛鐺、谠讜、傥儻、镋钂、

迩邇、弥彌瀰、祢禰、玺璽、猕獼、、泼潑、废廢、拨撥、䥽鏺、邝鄺、圹壙、扩擴、犷獷、纩纊、旷曠、矿礦、㧟擓、讥譏、叽嘰、饥饑、机機、玑璣、矶磯、虮蟣、鞯韉、浕濜、荩藎、烬燼、       赆贐    漓灕、篱離沥瀝、坜壢、苈藶、呖嚦、枥櫪、疬癧、雳靂、棂欞、鹾鹺、箓籙、滤濾、摅攄、泞濘、拧擰、咛嚀、狞獰、柠檸、眝矃、忾愾、饩餼、跹躚、柽檉、蛏蟶、莸蕕、屿嶼、欤歟、、芸蕓、昙曇、叆靉、叇靆。

74组中,“弥彌瀰、机機、虮蟣、漓灕、篱離箓籙、泞濘、柠檸、忾愾、柽檉、芸蕓、昙曇”等12组已经在196组内;“蛊蠱、迩邇、祢禰、玺璽”4组每组中的两个字是异体关系[[8]],宜归入异体字处理,也即把“蛊、迩、祢、玺”作为正字,把“蠱、邇、禰、璽”作为异体字淘汰;其余58组如何处理?也是需要考虑的问题。如果把这58组的简繁对应关系也一并取消,也就是调整的字组数一共为254组,就显得调整面有点过大,因为我们还要为由于其他原因需要调整的少数字组留出余地。是不是可以考虑对这些字组不做变动,将其从《总表·第三表》移到《总表·第一表》中。

另外,“坝壩、购購、饥饑、识識、药藥、钥鑰、证證、钻鑽”8组虽然是一对一的简繁字组,但是由于存在“垻、 飢、 、葯、鈅、証、鉆”8个形近字,容易因表外类推而引起错觉和混乱,也需要予以调整。可供选择的调整方法有两个:一个办法是取消各组两字之间的简繁对应关系,停止使用“坝、购、饥、识、药、钥、证、钻”8个简化字;另一个办法是把“坝、购、饥、识、药、钥、证、钻”调整为“垻、 飢、 、葯、鈅、証、鉆”8字的类推简化字;自然不管采用哪种办法,都需要恢复“壩、購、饑、識、藥、鑰、證、鑽”8个字的规范字地位。两种办法的利弊,需要权衡。本文倾向于前一种办法,因为采用第二种办法会改变“坝、购、饥、识、药、钥、证、钻”这8个简化字长期以来所承载的字义,多多少少会带来这8个字使用上的混乱。

由上所述,调整的字组数,最多为178组(196组减去26组再加8组)。



[1] 陈明然《论信息时代的汉文字改革》,第七次汉字书同文学术研讨会论文。载《语言文字网》,

URLwww.yywzw.com/cmr

[2] 冯寿忠《关于统一两岸四地汉字字形的几点设想》,《汉字书同文研究》第6辑,7页,鹭达文化出版公司20055月第1版。

[3] 詹鄞鑫《关于简化字的一点思考》,《语文建设通讯》第91期,5页。

[4] 胡双宝《繁简异体字转换模糊消解方法补苴》,载《语文建设通讯》第88期,20页。

[5] 冯霞《繁简字字形转换中模糊消解的非统计方法》,载《语文建设通讯》第87期,43页。

[6] 《汉语大字典》一卷563页“当”条:“当”同“當”;二卷966页“尽”条:“尽”同“盡”;二卷993页“弥”条,“弥”同“彌”。

[7] 李长仁《关于汉字规范化问题的探讨》,载《松辽学刊》1990年第3期。

[8] 请分别参阅《汉字大字典》四卷2843页(),八卷5406页(蠱);六卷3826页(),八卷5431页();四卷2394页(),八卷5392页();二卷1109页(),八卷5363页()。



上一页 [1] [2] [3] [4] [5] [6] [7] 下一页   
【内容导航】
第1页:内容提要
第2页:一、问题的提出
第3页:二、本文的系列观点
第4页:三、讨论
第5页:四、非一一对应简繁字字组数探究
第6页:五、非一一对应简繁字问题的解决办法
第7页:六、尾声


阅读:
录入:湘里伢子

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:陈明然:非一一对应简繁字研究的概况(提纲)

下一篇:胡百华:汉字“和谐体”与“同文”大业
相关文章       繁体字  简化字  异体字  繁简之争  第十二次汉字书同文学术研讨会 
本文评论
  個人支持第四種意見”全部恢复相关繁体字以后再酌情简化其中部分字“,全部復繁是與歷史與世界接軌并解決現實存在的問題,酌情簡化部分字是在復繁後對特別繁雜的字進行優化,但這些字的優化一定要得到充分論証,兩岸一致認可才行,否則便不動。   (davix ,2009-08-25 )
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章