繁简转换与非对称繁简字使用简体汉字是我国的语文政策,但由于种种原因,我们还不能彻底抛弃繁体汉字,在可预见的将来,繁体汉字与简体汉字还必须长期并存并用下去,因此,我们就不得不面对一个很现实性的问题:繁体与简体之间的转换。首先,我们要继承古代文化遗产,要整理古籍,把它用简化字排印出来,就必然要进行繁简转换。其次,大陆与港、澳、台在未实现汉字使用标准的统一以前,要进行文化交流,也必然要面对繁简转换的问题。 从转换的目的看,繁简转换大体可以分为繁转简和简转繁两种;从转换的操作界面来说,则有人工界面和电脑界面两种。人工界面的繁简转换不管是繁转简还是简转繁,都可以通过学习获得有关知识得以解决。为帮助想进一步学习繁体字或简体字的朋友顺利突破繁简转换的障碍,笔者曾编制了“非对称繁简字对照表”,刊登在本刊总第53期上(《语文建设通讯》(香港)1997年9月号,第22—29页)。该表已将绝大多数的不对称繁简字列了出来,对于解决阅读和写作过程中的繁简转换有一定作用,但解决计算机文字处理过程中的繁简转换问题,还需要另想办法。 要解决计算机文字处理过程中的繁简转换问题,最通常的办法是使用桌面编辑系统(如华光排版系统、WORD、WPS等)中的“字体变换”功能。对于一一对应的繁简字来说,一般是不成问题的;但对于那些一对多或多对一的非对称繁简字来说,问题就大了。记得几年前有一位来自开封的客户,想印一份关于开封市古文化一条街的材料,要求印刷厂使用繁体字排版,由于打字员都是年轻人,根本不认识几个繁体字,更不知道还有非对称繁简字,全凭机器自动转换,结果令客户大伤脑筋:许多不该“繁”的字“繁”了,该“繁”成甲字的却“繁”成了乙字,不得不逐个进行校改。由此我们想到,要是有一张列举较全的非对称繁简字对照表,校对员校改时只要专门对付这些非对称繁简字就省事多了,而由录入人员利用机器进行校改则更为方便。例如,假若我们的文稿是用简体字进行输入的,要转换成繁体字的文稿,可以按以下步骤进行: 第一、先将文稿内属于不对称繁简字中的简字的,一一用数码替换。目的是防止它们在执行下一步时被转换成不正确的繁体,并为执行第三步提供方便。如我们可以作如下规定:
板=001,表=002,才=003,丑=004,出=005,淀=006,冬=007,范=008,丰=009,刮=010,后=011,胡=012,回=013,伙=014,姜=015,借=016,克=017,困=018,漓=019,里=020,帘=021,霉=022,面=023,蔑=024,千=025,秋=026,松=027,咸=028,向=029,余=030,郁=031,御=032,愿=033,云=034,芸=035,沄=036,致=037,制=038,朱=039,筑=040,准=041,厂=042,仇=043,广=044,体=045,辟=046,别=047,卜=048,沈=049,冲=050,种=051,虫=052,担=053,党=054,斗=055,儿=056,干=057,合=058,谷=059,柜=060,划=061,坏=062,几=063,系=064,家=065,价=066,卷=067,腊=068,蜡=069,了=070,累=071,么=072,蒙=073,万=074,宁=075,朴=076,苹=077,仆=078,曲=079,确=080,折=081,舍=082,胜=083,适=084,术=085,台=086,涂=087,叶=088,吁=089,旋=090,与=091,佣=092,征=093,症=094,摆=095,当=096,恶=097,发=098,复=099,汇=100,获=101,饥=102,尽=103,历=104,卤=105,弥=106,签=107,纤=108,苏=109,坛=110,团=111,须=112,药=113,脏=114,只=115,钟=116,据=117。 这一步可以通过编一个程序来完成。例如使用WORD编辑软件的朋友,可以将上表制成一个文本文件,然后用WORD编制一个将汉字变成数码的宏(详见附录)。该程序执行后,文稿中属于不对称繁简字的简体字都变成了数码。 第二、将文稿用“字体”命令简转繁。这时只剩下数码需要再改为汉字。 第三、用“查找替换”命令将每个数码替换成相对应汉字的简体或繁体。这一步需要“人脑”来判定:如果同表中(非对称繁简字对照表)“○”行意义对应,就应恢复为简体;如果同表中的某个繁体的意义对应,就应改为该繁体。例如:如果数码是092,联系上下文为“發092金”,查表中同“○”行意义对应,因此就应恢复为简体,即成为“發佣金”;如果联系上下文为“雇092軍”,查表中同“傭”行意义对应,因而应改为“雇傭軍”。手工查找的简便方法是:先查找“00”开头的,再查找“0”开头的,最后查找“1”开头的。由于在一篇文稿中并不是这117个字都能用到,每个字的出现频率也不是都很高,因此查找替换起来一般不会太麻烦;即使有时费时一些,但总比无目标的寻找要可靠、方便、快捷得多。如果想用编程来实现,可以编一个对话框,查到一个数码后,对话框中立即出现与该数码对应的汉字的简体和繁体,然后根据上下文选用你所需要的那一个。(该程序较长,恕不附录。) 如果我们的文稿是用繁体输入的,要繁转简,目前还没有较简便的办法。因为现在还没有将繁体转换为简体的字体转换程序。例如用GBK全拼输入法或繁体注音输入法等输入的繁体字,都无法通过字体转换程序变成简体。这项工作还有待于专业编程人员来完成。其实,编这样一个繁转简的程序并不比编简转繁的程序更复杂。因为一一对应的和多个繁体对应于一个简体的,都可以作统一性处理,只有少数在部分读音或意义上简化而在其他读音或意义上不简化的繁体字,才需要作个别性处理。它们是: 讎(仇、雠)、兒(儿、兒)、乾(干、乾)、閤(合、閤)、夥(伙、夥)、藉(借、藉)、剋(克、剋)、瞭(了、瞭)、麼(么、麽)、蘋(苹、)、餘(余、馀)、摺(折、摺)、徵(征、徵) 从当前和今后汉字使用的具体情况来看,编一个繁转简字体转换程序,是大有必要的。例如随着扫描输入技术的发展,在整理古籍时,我们可以直接将古文资料扫描输入,然后利用繁转简字体转换程序,变成今天大多数人都能看得懂的简体字,既可靠又方便。起码比先由文字家翻译、誊抄出来,再由打字员输入要省事得多。 当然,如果彻底消除了非对称繁简字,使每个字的简体与繁体都一一对应,简转繁或繁转简都将顺利得多,但这种想法是不现实的。消除不对称繁简字的办法不外乎两种:恢复繁体和另造简字。然而不管是恢复繁体,还是另造出一些陌生的简化字来,群众都是难以接受的。首先,恢复繁体并不是轻而易举的事情。尽管当时的简化有某些欠周到之处,但并不都是毫无道理。在这些非对称繁简字中,大多数的繁简体之间在意义上都有某些瓜葛(如彼此包孕等),或者没有瓜葛而其简体属古今罕用字,“以简代繁”实际上起到了整理异体字和充分挖掘字形资源的作用。况且简化后,新的音义对应关系已经为人们所熟悉、习惯,如果恢复繁体,必然造成音义纠葛上的新的混乱。其次,另造简化字必然增加汉字数量,使已经很庞大的汉字系统更加庞大,人们的记忆力将难堪重负。总之,笔者以为,对待非对称繁简字应以采用保守疗法为宜,即暂且维持现状,有什么问题尽量在使用中设法解决,在适当时候也可以做点修修补补的小手术(如恢复“薑”、等字的正体字地位等),但尽量不要做可能导致不良后果的大手术。 附录:Dim Shared Fj$(116) Dim Shared fjn$(116) '主程序 Sub MAIN GetFile Replace End Sub '本子程序用来打开FJDATA.DAT '注意:FJDATA.DAT应在C:\Win-dows目录 '文件格式为:字=数码 ' 字=数码 ' …… Sub GetFile Open "C:\Windows\FJDATA.DAT" For Input As #1 For i = 0 To 116 Line Input #1, T$ fj$(i) = Left$(t$, 1) fjn$(i) = Right$(t$, 3) Next i Close #1 End Sub '本子程序用来将文字替换成数码 Sub Replace EditBookmark .Name = "FJ1234567890", .Add StartOfDocument EditFindClearFormatting For i = 0 To 116 StartOfDocument EditReplace .Find = fj$(i), .Replace = fjn$(i), .Direction = 0, .ReplaceAll , .Format = 0 Next I EditBookmark .Name = "FJ1234567890", .Goto EditBookmark .Name = "FJ1234567890", .Delete End Sub
----------------------------- 本文刊登在《BYTE中文信息》1998-7,收录时略有改动。 |