阅读文章

关于非一一对应简繁字的若干问题

[日期:2012-07-09] 来源:语言文字网  作者:陈明然 [字体: ]

关于非一一对应简繁字的若干问题

陈明然*

. 術语使用

1. 简化字:指中华人民共和国国务院于1956年公布,中国文字改革委员会、文化部、教育部1964年3月7日联合颁布的《关于简化字的联合通知》中所规定,并由国家语言文字工作委员会于1986年10月10日重新发表的《简化字总表》(以下简称《总表》) 中的2235个简化汉字。

2. 繁体字:指《简化字总表》中2235个简化(体)字所对应的简化以前的字形。

3. 沿用字:《总表》以外的汉字1

4. 规範汉字:简化字集合和沿用字集合的并集2

5. 非一一对应简繁字:指一个简化字(或者一个繁体字)对应于两个或者两个以上繁/简体字的汉字集合。

6. 一对多简繁字:指一个简化字对应于两个或者两个以上繁/简体字的汉字集合。

7. 一对多繁简字:指一个繁体字对应于两个或者两个以上简/繁体字的汉字集合。

 

. 非一一对应简繁字字组数探究

本文严格以《总表》和《一异表》为研究依据,不承认《总表》以外的类推简化字,并且不考虑字形上的微小差别,即平常所说的“新旧字形”,如字头上的“丷”和“八”;以台湾国语推行委员会《国字标準字体宋体母稿》及香港教育学院《常用字字形表(2000年修订本) 为参照,在冯寿忠3、莊泽义4、周勝鸿5、苏培成6、张书岩7、连登岗8、杨蓉蓉9;李牧10、冯霞11;胡双宝12;香港《语文建设通讯》编辑部13 等研究成果的基础上,进行归纳整理,得出的结论是:非一一对应简繁字总数为192组;其中同时兼有一对多繁简字属性的有8组。分列如下:

(一) 192组一对多简繁字

肮骯、摆擺襬、板闆、币幣、辟闢、表錶、别彆、卜蔔、才纔、蚕蠶、忏懺、厂廠、柽檉、冲衝、虫蟲、苁蓯、丑醜、出齣、达達、担擔、胆膽、当噹當、党黨、灯燈、邓鄧、籴糴、敌敵、淀澱、吨噸、冬鼕、斗鬥、垩堊、恶惡噁、发發髮、范範、丰豐、奋奮、复複復、干乾幹、赶趕、个個、巩鞏、沟溝、谷穀、刮颳、广廣、柜櫃、号號、合閤、后後、胡鬍、划劃、怀懷、坏壞、还還、回迴、汇匯彙、伙夥、获獲穫、机機、几幾、积積、极極、家傢、虮蟣、价價、茧繭、荐薦、姜薑、胶膠、洁潔、借籍、仅僅、尽盡儘、惊驚、旧舊、据據、卷捲、忾愾、克剋、垦墾、夸誇、块塊、亏虧、困睏、腊臘、蜡蠟、累纍、里裏、离離、漓灕、篱籬、历歷曆、隶隸、怜憐、帘簾、了瞭暸、猎獵、灵靈、岭嶺、芦蘆、卤鹵滷、录錄、箓籙、虑慮、么麼、霉黴、蒙矇濛懞、弥彌瀰、蔑衊、面麵、柠檸、泞濘、凭憑、苹蘋、扑撲、仆僕、朴樸、启啟、气氣、千韆、签簽籤、迁遷、秋鞦、曲麯、确確、扰擾、洒灑、舍捨、声聲、沈瀋、胜勝、圣聖、术術、松鬆、苏蘇囌、台臺檯颱、坛壇罎、昙曇、叹嘆、体體、听聽、涂塗、团團糰、洼窪、袜襪、万萬、芜蕪、系繫係、吓嚇、纤縴纖、咸鹹、宪憲、向嚮、须須鬚、旋鏇、痒癢、样樣、叶葉、邺鄴、医醫、佣傭、踊踴、优優、忧憂、犹猶、邮郵、余馀餘、吁籲、郁鬱、御禦、园園、愿願、云雲、芸蕓、运運、杂雜、脏髒臟、折摺、征徵、症癥、只隻衹、制製、致緻、钟鐘鍾、众衆、种種、朱硃、烛燭、筑築、庄莊、准準。

(二) 8组一对多繁简字

乾 (干/乾)、夥 (伙/夥)、藉 (借/藉)、瞭 (了/瞭)、麼 (么/麽)、餘 (余/馀)、摺 (折/摺)、徵 (征/徵)14

 

. 非一一对应简繁字问题的解决办法

目前为止,学界对非一一对应简繁字的调整,归纳起来有不做调整,依靠计算机简繁汉字转换软件解决问题、全部恢復相关繁体字、部分恢復相关繁体字、全部或者部分恢復相关繁体字以後再酌情简化其中部分字等四种意见。

本文否定依靠计算機简繁汉字转换软件解决问题这一观点。电脑本身是没有思维能力的,它是严格按照人预先设定的程序进行工作的。把希望寄托於计算機技術水平的提高,试图依靠转换软件解决问题,是行不通的。用这个办法,永远无法把简繁转换的準率提高到100%;即使是提高到99.99%,这最後的萬分之一还是要通过人工甄别来解决。在一萬个字中找一个别字,简直是大海捞针!会使我们的文字处理效率降到多麽低下的程度!另一点就是,为提高转换软件的準率而投入的研发经费将肯定是一个天文数字;而目标的实现又将是遥遥无期;这意味着巨额科研经费的浪费和计算機简繁转换的长期混乱。

汉民族社会的语言是极其豐富的,是任何语料库都无法穷尽的;再次,随着社会的发展和人们生活内容的变化,大量新语彙不断涌现,而需要投入巨大的人力物力来制作的语料库却不可能时时更新15

冯寿忠教授曾经指出:

大家都把注意力投向了软件方面,企图通过软件的不断改进,彻底消灭简繁转换的文本错误,最常见的办法就是采用词语转换。这种做法理论上就存在先天不足,因为,词语是语言系统中最活跃的因素,吐故纳新的频率比较快,任何词典都不能穷尽所有的新生词语,而计算機软件则不能随时改进;如果解决了文字的一一对应问题,就可以一劳永逸,因为任何词语都是用单字组成的16

詹鄞鑫教授也指出:

Office 2000 以上的 Word 软件虽然有智能化的繁简字转换功能,能在一定程度上根据上下文作出相应的用字选择,但其转换是以预先设定的词搭配为前提的,凡设定之外的搭配就无能为力。在实际应用中,还有大量汉字是没有词搭配语境的。例如表示说话义的‘云’,以及汉字举例,字典的字头等。这点成为计算機汉字自动化处理提高效率的一个瓶颈问题17

胡双宝先生以大量的例证说明了计算機完全正確地进行简繁转换的困难。他指出,要使计算機正確进行简繁转换,“实际上是要从不同角度‘教’会电脑各种各样的本事,也就是要针对每一组字的不同情况规定若干条件。而情况常常是难以穷尽的,这时候想到这些情况,不知道什时候又可能出现别的情况。‘已有情况’也并不容易搜罗齐尽。”“社会文化生活中的实际情况是,知道可能混淆的混淆不了,不知道可能混淆的常常会混淆。”18

这里列出先生所举众多例证中的3个:

例1. 白居易《秦中吟·歌舞》中的诗句“秦城岁云(雲)暮,大雪满皇州”中“云/雲”,不容易根据条件確定是“云”还是“雲”。

例2.“市里”是指市政府大院或者某城市里 (裏) 面,还是指和“公里”相对的长度单位“市里 (里)”?“海里”是指“海里 (裏) 面”还是长度单位“海里 (浬)”?

例3.“制表”是帝王的命令(制)和臣子的奏章(表)的连称,还是“制(製)造钟表”?“编制”是指“制(製)定规划”还是“人员编制(制)”?

本文倾向于部分取消非一一对应简繁字之间的简、繁对应关係,恢復这部分繁体字的规範字地位。这里的“部分”,有两种解读:

一种是根据各相关字组中的原简化字是不是在现代通用字範围内这一尺度,把非一一对应简繁字分成两部分。取消简化字属于现代通用字的这部分字组内简繁字之间的对应关係,恢復相关繁体字的规範字地位。例如“板/闆”就属于这种情况。本文把这一方案称作“局部调整方案”。

另一种是按二字组和三字及三字以上字组把相关字组分为两部分。取消全部二字组以及归入异体字处理的各组内简繁字的简、繁对应关係,恢復相关繁体字的规範字地位。三字及三字以上的字组有26组,按各组中的简化字是否是古已有之分别处理:

1.“当當噹、尽盡儘、弥彌瀰”3组中的“当當、尽盡、弥彌”是3对异体字19,宜归入异体字处理,即把“当、尽、弥”定为正字,把“當、盡、彌”作为异体字淘汰;取消“当噹、尽儘、弥瀰”这3对简繁字每对内部的简繁对应关係,恢復“噹、儘、瀰”3字的规範字地位;

2.“复複復、干幹乾、了瞭暸、卤鹵滷、蒙矇濛懞、台臺檯颱、团團糰、系繫係、只隻衹”9组29字,均古已有之,而且每组中各字字义有别,宜取消每组内部的简繁对应关係,恢復“複復、幹乾、瞭暸、鹵滷、矇濛懞、臺檯颱、團糰、繫係、隻衹”20个原繁体字的规範字地位;

3.“余馀餘”字组中,取消“余餘”二字的简繁对应关係,保留“馀”做“餘”的简化字;

4.“摆擺襬、恶惡噁、发發髮、汇匯彙、获獲穫、历歷曆、签簽籤、苏蘇囌、坛壇罎、纤縴纖、须須鬚、脏臟髒、钟鍾鐘”13组,根据一对一的原则,保留“摆擺、恶惡、发發、汇匯、获獲、历歷、签簽、苏蘇、坛壇、纤縴、须須、脏臟、钟鍾”13对字的简繁对应关係,取消“摆襬、恶噁、发髮、汇彙、获穫、历曆、签籤、苏囌、坛罎、纤纖、须鬚、脏髒、钟鐘”13对简繁字的简繁对应关係,恢復“襬、噁、髮、彙、穫、曆、籤、囌、罎、纖、鬚、髒、鐘”13字的规範字地位。

这样,这26组三字或者三字以上的字组中的简化字,除个别不属于现代通用汉字(如读 qíu 的“团”、同“西”的“卤”)外,绝大多数都可以得到保留。

本文把这一方案称为“全面调整方案”。

考虑到当今计算機已经在包括出版业在内的所有汉字处理领域的普遍应用,建议还是全面调整为好。不能把解决非一一对应简繁字问题,仅仅看成是为了解决当代两岸四地交流的需要。由于简化字和繁体字将长期并存,就是在大陆内地,也有不少场合需要进行简繁、繁简转换,比如古文、历史、考古、中醫藥等领域的教学和研究;古籍和辞书的出版等。“文字用于记录语言不仅要使人们克服空间上的障碍以利交际,还应该使人们克服时间上的障碍以了解历史,也使将来的人们了解现在和古代。”20还有需要特别指出的一点是:文字记錄语言的便利性要求,必须以不影响记錄的準確性为前提。

192组非一一对应简繁字中有22组《总表·第二表》中的字组,归入异体字处理的“尔爾、杀殺、网網、与與”4组字中有“尔爾、与與”2组,对这些字组的调整,会涉及《总表·第三表》中的相关字组。涉及的字组有以下74组:

蛊蠱、㳠澾、闼闥、挞撻、哒噠、鞑韃、挡擋、档檔、裆襠、铛鐺、谠讜、傥儻、镋钂、迩邇、弥彌瀰、祢禰、玺璽、猕獼、泼潑、废廢、拨撥、䥽鏺、邝鄺、圹壙、扩擴、犷獷、纩纊、旷曠、矿礦、㧟擓、讥譏、叽嘰、饥饑、机機、玑璣、矶磯、虮蟣、鞯韉、浕濜、荩藎、烬燼、   赆贐、漓灕、篱離、沥瀝、坜壢、苈藶、呖嚦、枥櫪、疬癧、雳靂、棂欞、鹾鹺、箓籙、滤濾、摅攄、泞濘、拧擰、咛嚀、狞獰、柠檸、眝矃、忾愾、饩餼、跹躚、柽檉、蛏蟶、莸蕕、屿嶼、欤歟、芸蕓、昙曇、叆靉、叇靆。

这74组中,“弥彌瀰、机機、虮蟣、漓灕、篱離、箓籙、泞濘、柠檸、忾愾、柽檉、芸蕓、昙曇”等12组已经在192组内;“蛊蠱、迩邇、祢禰、玺璽”4组每组中的两个字是异体关係21,宜归入异体字处理,也即把“蛊、迩、祢、玺”作为正字,把“蠱、邇、禰、璽”作为异体字淘汰;其馀58组如何处理?也是需要考虑的问题。是不是可以考虑对这些字组不做变动,将其从《总表·第三表》移到《总表·第一表》中。

另外,“坝壩、购購、饥饑、识識、铁鐵、药藥、钥鑰、证證、钻鑽”9组虽然是一对一的简繁字组,但是由于存在“垻、 、飢、 、鉄、葯、鈅、証、鉆”9个形近字,容易因表外类推而引起错觉和混乱,也需要予以调整。可供选择的调整方法有两个:一个办法是取消各组两字之间的简繁对应关係,停止使用“坝、购、饥、识、铁、药、钥、证、钻”9个简化字;另一个办法是把“坝、购、饥、识、铁、药、钥、证、钻”调整为“垻、 、飢、 、鉄、葯、鈅、証、鉆”9字的类推简化字。自然,不管采用哪种办法,都需要恢復“壩、購、饑、識、鐵、藥、鑰、證、鑽”9个字的规範字地位。两种办法的利弊,需要权衡。本文倾向于前一种办法,因为采用第二种办法会改变“坝、购、饥、识、铁、药、钥、证、钻”这9个简化字长期以来所承载的字义,多多少少会带来这9个字使用上的混乱。

由上所述,调整的简化字,最多为175个(192减去26再加9)。

恢復非一一对应简繁字集合中相关繁体字的规範字地位以後,要不要再酌情简化其中笔画较多的部分字?这个问题还有待讨论。如果再简化一部分字,会产生新的汉字字形,所有用作汉字处理的计算機里的汉字字模库都要进行更新,汉字编码字符集也需要修订;还有一个问题就是字模库和字符集更新修订以後,以前由计算機产生的汉字文本如何使用?如果这部分字不简化,单字的笔画数確实较多,就是从计算機处理的角度来讲,有些字显示在屏幕上和打印在纸上都不够清晰;另外,字表内部也不统一。这个问题,需要有关部门和汉字信息处理的相关管理部门、字库公司等协同研讨解决。

 

. 调整非一一对应简繁字的现实可行性

目前微型计算機普遍使用的操作系统 Windows XP、Windows7 等版本,都能够支持 GBK《汉字扩展内码规範》,而 GBK 已经包含了192组非一一对应简繁字中的所有繁体字;另一方面,现在已经有许多输入法支持 GBK。Windows XP 中自带的“全拼”输入法,就是支持 GBK 的;这篇文章里的所有繁体字,除了“ 22 字,都是用一种称作“古文五笔”的输入法打出来的。这就是说,取消非一一对应简繁字的简繁对应关係以後,只需要对现有汉字处理软件中的简繁转换功能作相应调整,在近期内,今古、两岸、四地以及全球华人之间汉字文本的无障碍交换就可以在所有安装了中文操作系统的计算機上实现!让人费解的是,这样的好事,要犹豫拖延再三,却把希望寄托在旷日持久、耗资巨大且前景渺茫的转换软件功能的改善上面。

笔者估计,不同意调整非一一对应简繁字的人士,可能是出于以下两点考虑:一是担心引起社会上文字使用的混乱;二是担心恢復这部分繁体字的规範字地位不利于鞏固汉字简化的成果。实际上,这两种担心都是没有必要的,对这部分字的调整是完全可行的。调整的175字(192组减去26组再加9组)只占2235个简化字的7.83%,根本动摇不了整个简化字体系的地位;又由于调整後恢復为规範字的这部分繁体字几千年来本来就一直存在,社会对其有一定的认知度,取消这些简繁字之间的对应关係以後,再辅以相应的措施予以宣传贯彻,社会的适应期是不会太长的,完全可以避免出现文字使用上的混乱。实质上,调整非一一对应简繁字,正是为了从根本上结束计算機简繁文本转换方面存在的混乱状况;是为了增强简化字的“持久的生命力”,得到在包括文言古籍在内的更廣泛范围内的使用23也使得简化字比较容易被港澳台民众以及海外华侨接受;是在信息化条件下对《总表》的完善;是对汉字简化成果的鞏固;而不是相反。

 

【主要参考文献】

《第一批异体字整理表》,中华人民共和国文化部、中国文字改革委员会。

《汉语大字典》,湖北辞书出版社、四川辞书出版社1986年10第1版。

《汉字书同文研究》第一、三、六、七辑,沈克成、冯寿忠、周勝鸿,陈明然等主编,北京气象出版社、香港华夏文化出版有限公司、香港鹭達文化出版公司出版。

《简化字研究》,史定国主编,商务出版社2004年9月第1版。

《简化字总表》(1986年新版),国家语言文字工作委员会。

《语文建设通讯》第87、88、89、90、91期,香港中国语文学会出版发行。



* 陈明然先生,温州语文工作者。本文由作者根据其在2009年8月於河北秦皇岛市召开的第十二次汉字书同文学術研讨会上宣读的论文《关于非一一对应简繁字研究的系列问题》删改而成。

1. 参阅詹鄞鑫《关于简化字的一些思考》,《语文建设通讯》第91期,1页,2009年1月发行。

2. 傅永和:“规范汉字包括经过整理简化的字和未整理简化的传承字。”《汉字七题》。周有光:“规范汉字,包括简化字和传承字”,教育部著名语言学家及有关人士与记者座谈会,2006年3月22日。作者按:傅、周所述“传承字”,即本文所称的“沿用字”。

3. 冯寿忠《“非对称繁简字”对照表》,载《语文建设通讯》53期,1997年9月出版发行。

4. 莊澤義《簡繁互轉易錯字辨析》,三聯書店(香港)有限公司1998年12月版。

5. 周勝鸿《<简化字总表>中的“非对称繁简字”形音义简析表》,第十二次汉字书同文学術研讨会论文,2009年8月。

6. 苏培成《重新审视简化字》,载史定国主编《简化字研究》,65~75页,商务印书馆2004年9月第1版。

7. 张书岩《简化与同形字》,载史定国主编《简化字研究》,212页,商务印书馆2004年9月第1版。

8. 连登岗《简化字总表归并字代替字研究》,载史定国主编《简化字研究》,118页,商务印书馆2004年9月第1版。

9. 杨蓉蓉《需要·合理·可行——关于修订〈简化字总表〉的意见》,载史定国主编《简化字研究》,272页,商务印书馆2004年9月第1版。

10. 李牧《两岸汉字字形的比较与分析》,载周胜鸿、陈明然主编《汉字书同文研究》第6辑,52页,香港鹭达文化出版公司2005年5月第1版。

11. 冯霞《繁简字字形转换中模糊消解的非统计方法》,《语文建设通讯》第87期,40页,2007年9月发行

12. 胡双宝《繁简异體字转换模糊消解方法补苴》,《语文建设通讯》第88期,20页,2007年12月发行。

13.《语讯》编辑部《汉字简一繁多对应表》,《语文建设通讯》第90期,34页,2008年9月发行。

14. 参阅陈明然《一个繁體字对应多个简繁字字组细探》,载《语文建设通讯》第90期,30页。

15. 陈明然《论信息时代的汉文字改革》,第七次汉字书同文学術研讨会论文。载《语言文字网》,URL:www.yywzw.com/cmr 。

16.冯寿忠《关于统一两岸四地汉字字形的几点设想》,《汉字书同文研究》第6辑,第7页,鹭达文化出版公司2005年5月第1版。

17. 詹鄞鑫《关于简化字的一点思考》,《语文建设通讯》第91期,第5页。

18.胡双宝《繁简异体字转换模糊消解方法补苴》,载《语文建设通讯》第88期,20页。

19.《汉语大字典》一卷563页“当”条:“当”同“當”;二卷966页“尽”条:“尽”同“盡”;二卷993页“弥”条,“弥”同“彌”。

20. 李长仁《关于汉字规范化问题的探讨》,载《松辽学刊》1990年第3期。

21. 请分别参阅《汉字大字典》四卷2843页 (蛊),八卷5406页 (蠱);六卷3826页 (迩),八卷5431页 (邇);四卷2394页 (祢),八卷5392页 (禰);二卷1109页 (玺),八卷5363页 (璽)

22. GBK 中没有这个字。这是 GBK 的缺陷,建议补上。

23.苏培成《重新审视简化字》,载史定国主编《简化字研究》,第66页,商务出版社2004年9月第1版。

 

此文原载香港《语文建设通讯》94期




阅读:
录入:湘里伢子

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:汉字“和谐体”的倡议、研究及相关成果

下一篇:“识正书简”面面观
相关文章      
本文评论
  赞成!!!!   (草根 ,2012-07-26 )
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章