阅读文章

汉字应分类改革

[日期:2025-04-22] 来源:  作者: [字体: ]

汉字的优点

1. 汉字每字一个读音,字宽与读音长度比较合拍,也就是说,方块汉字字宽一致与单音节汉语高度匹配。

2. 汉字字形之间的视觉差别度相对较高(与字母文字相比),辨识度较高,大部分情况下不需要细看,目光扫过轮廓就能识读,阅读效率特别高。

3. 汉字的传承性很好。特别是正体字,字形与1700年前的魏晋时期几乎相同;而稍作学习,还可以与2200年前秦代小篆相通,具有很好的传承性。汉字经过规范字简化以后,这种传承性有所降低,但通过“用简识繁”的学习之后,基本上能够延续这种传承性。

4. 汉字字形有助于人工智能扫描和解读。通过与deepseek交流得知,汉字字形特征有利于AI解读,尤其是形声字,对于字形形部扫描,可以比字母文字有更快的扫描速度,从而提高文本处理速度,与英文相比较,中文指令训练效率提高17%,模型相应速度提高23%

汉字的问题

1. 汉字表音规则混乱,表音不准确,大部分形声字读音与声部不对应,如:蔼、扮、蚌、衬、嗔等;有的声部有多个读音,如艮部,读音有根、很、银、恳、限等;有一字多音问题,如称(cheng2chen4等)少部分字有多个读音,如和(he2he4huo2hu2)在不同的词句中有不同的读音。

2. 表意不恰当,相当大一部分字义与表意偏旁不匹配,在这方面,没有看到相关研究和文献,但问题显而易见,如桶、机的木旁,在古代桶和机多为木制,用木旁和字义有些关联,但现在已经跟木几乎没有了关联,导致部分形声字的形旁与字义脱节,表意能力减弱。

3. 部分汉字结构复杂,笔画繁多。早期汉字都是象形、指示、会意字(可称之为形义字)一个字表示一个意思,形义字数量较多,一级字中形义字有977个。其中少数字结构简单,笔画数较少(5画以下,如一二三,上下大小等),其他大部分笔画较多(6画以上)。后来在形义字基础上发展出形声字,形声字是由形义字拼合而成,笔画更多,结构更复杂。一级字总,1517画的字有255个,1824画的字有63个,这些字字形结构复杂,书写不便,小字号时模糊不清。

4. 不标准形声字不利于AI扫描识读。如制造的“造”,字义与制作有关有关,应该用“扌、工”之类偏旁,但“造”表意偏旁却是“辶”,与“制作”的字义不符;而“造”的声部是“告”,也与“造”的读音不一致。而标准形声字如“沐”,表音()和表意()都比较准确,是标准形声字。根据deepseek回复,非标准形声字(如"")会使单字处理效率降低约34%(相应速度0.87毫秒/1.32毫秒),响应时间增加52%(但通过上下文补偿和混合训练策略,实际系统级影响可控制在12-15%)。

汉字优化改良的必要性

汉字数量多、表音字部多而且准确度低,造成汉字学习难;而部分汉字(主要指形声字)表意不准确,给学习者造成理解困难,进一步增加了学习负担。形部表意不准,不利于学习者规则意识和逻辑思维能力的培养,也有损汉字表意文字的称号。

汉字的繁难,使得我国儿童在母语文字学习中,需要耗费更多的时间和精力,挤压了其他学科的学习时间,从总体上降低了低学生的学习效率。对部分“问题”汉字进行优化改良,可以降低低学龄儿童少年汉字的学习成本和学业负担,使得学生有更多的时间和精力学习其他学科的知识,助力我国人才的培养。

通过优化改良汉字,还可以使AI提高运算速度。人工智能方兴未艾,未来应用必将更加深刻而广泛,文字对人工智能的友好性,也是一个需要考虑的重要的方面。

汉字改良的原则

首先要保留汉字的优点,如:字形差别度高、辨识度高,与汉语单音节特征相匹配的方块字形,优良的文字传承性等。在继承汉字优点的基础上,改进汉字的缺点,如:表音不准确的形声字,表意不准确的形声字,笔画过于繁复的字。

据统计资料,3755个一级字在现代文章中使用总频率超过99.7%。改革是为了方便使用,对用得到的字进行改进有意义,对用不到的字改进没意义。国家法令法规、行业规范标准、专业学科、生产生活基本在一级字范围内,改革的范围应确定在3755个一级字范围内。

少数的近代新造字(如熵、㶲、钍、铑、苄、胍、蒽醌、哌嗪等现代新造字)在二级字范围内,但这些近代字几乎都是标准形声字,很少有读音与声部不符的情况,而且义符也都是按现代意义赋与的,可以比较准确的表达字义,所以没必要改。其他二级字主要是在古文中使用,可归入古文学习的内容,同时也作为文字传承的部分,在古文中用原汉字更相配,改了反而有损其内涵和韵味。上述的现代新造字和古文用字可以归纳为“专用字”,与常用字(一级字)相区分,常用字是人人都要掌握的字,而专用字只对“专业人员”有要求,而不是普遍要求。对于一级字而言,如果写错、认错问题更严重一些,而二级字即便是有写错认错的情况,其影响范围也小很多,因为能大量认识二级字的人毕竟是少数。

常用一级中,高频字由于使用频率高,同样的学习成本,分摊在高频率上就大降低(详见末段“注2”说明)。另外,高频字数量相对较少,低频字数量相对较多,因此,高频字不合规则,可以给予更高的宽容度,以保留为主。今后文本中加入改良字,阅读时保留字占大部分,改良字占一小部分,这样可以以旧带新,便于衔接过渡。

低频字字使用频率低,单字的学习成本与常用字大体一致但由于使用频率低,成本无法被摊低,致使相对成本较高。改革这部分字,可以有效降低学习成本,这部分字应该是改革的重点范围但这部分字中一部分字有较强的文化属性,如:历史上重要的地名、朝代名、官爵名,及天干、地支、姓氏等,从文化传承的角度,应该单列保留;另外,笔画简单的低频字,由于易学易用,也应该保留。

既然要保留多数汉字,改良后的字就要跟汉字相容。首先是字形,要保持方块形,字的笔画、构件、间架结构与汉字相同或近似,改良字跟汉字混用时字形相互协调,不违和。其次,表音、表意的构件首选汉字部件或整字,尽可能减少新增字件的数量,如表音的部分用保留汉字做声部,或用笔画简单的字当“字母”,利用切音方法表音(如:大+=di音),以减少新文字的陌生感。表意部分的改造较为复杂,首选汉字偏旁或形部,如果汉字的偏旁和形部不能合理表达字义,则需要引入新的表意符号。这些新符号也要与汉字字形相近,以减少新文字与汉字的违和感。

汉字有漫长的历史沿革和传承,每改一个字,就给一条贯通的传承线打一个结,增加一个驿站,破坏一条文字的直通路,每个字的改动有一定的破坏性,应谨慎对待。应从历史、当下和未来三个方面衡量得失,得大于失才能改。所以,改良优化的范围指向那些作用小(使用频率低)、问题多(表音、表意、笔画数等方面)的少部分一级字。

保留字与“当改字”的筛分

一级汉字的分组:多数汉字都是成组的,如青、情、请等共用一个声部青,读音(忽略声调)都是qing;精、睛、静读音都是jing。为了方便筛分,可以将这些共用一个声部,且读音一致的字(忽略声调)称为一个字组,使用频率最高的字称为主字,同组的其他字称为从字。而哪些没有共用声部的字称为独字,如:“在”字,除了“在”这个字以外,没有其他读音为zai且声部为“在”的字,这样的字只有主字,没有从字。

一级汉字的频率分级

对每个字组和独字按使用频率排序;

使用频率高于万分之三的字为高频字,高频字及其从字合称为甲类字。其中频率最高的那个(主字)字称为甲A字;与甲A字同一个字组的其他字(从字)为甲B字(独字没有从字,甲B空缺),甲A字与甲B字原则保留。如:“把”字,使用频率为万分之16,大于万分之三,为甲A字,这个字保留;跟“把”共用一个字根(巴)的有:芭吧疤笆巴靶耙爸等字,因为字根相同,且读音相同(忽略声调不同),这8个字属于“把”的从字,与“把”一起保留。又如:“光”字,频率为万分之14.8,为甲A字,读音为guang且用“光”做声部的字没有,则只保留光字。甲A字共513个,甲B字共613个,合计1126个字。其中,独字207个,读音与声部一致的字781个,读音与声部不一致的字138个,占甲类的12.3%,约八分之一,占比较小。

使用频率万分之一到万分之三之间的为中频字,中频字及其从字合称为乙类字(中频甲B字已筛出,不属于乙类字)。其中,读音与声部相符的形声字为乙A,与乙A有相同字根的字为乙B,乙A、乙B原则保留;乙A字有376个,乙B字有396个,共762个。读音与声部不相符的形声字为乙C,与乙C同组的字为乙D,乙C有有203字,乙D字有180个,共383个。

剩余的一级字均为使用频率小于万分之一的低频字(已筛除了甲B、乙B、乙D中使用频率低于万分之一的字),可以称为丙类字。其中,有历史意义地名朝代名、有文化意义的姓氏、官爵名及干支等笔画简单的一级字等为丙A字,作为文脉传承字保留。这类字共有461组,从字53个,共514个。

一级字中除了甲乙类和丙A类汉字,剩余的为丙B类字,共672组、778字,是4类一级字中组数最多的一类(组数意味着字根数,字根数决定学习难度),占一级字总组数2231组的30.1%

1:字的分类问题比较复杂,统计工作量较大,统计结果可能有出入!

2:甲类字共1126个,分属513组,每组都是共用一个声部,并且是同一个读音,也就是说,学会513个甲A字,甲B字差不多就会读了。丙B类字共672组,778字,并且读音跟声部都不相符,每一组都需要反复诵读、机械记忆量大。甲类字的使用频率在80%以上,丁类字的使用频率在5%以下。量化一下两类字的“学用比”,甲类字为513/80=6.4,丁类字为678/5=135.6,丁类字比甲类字的学用比为135.7/6.4=21.2,也就是说,在同样效用的前提下,丁类字比甲类字要多付出20多倍的学习成本。

改进方法

一、表音的改进

1.C和乙D声部做增减笔或变笔,与读音正确的字根分化,字形大致与原汉字趋同,但个别笔画有差别。

2.B字用汉形拼音加义部替代,做成新的“标准形声字”。

两类汉字的改进方法只是大原则,执行中如果具体字与原则不适配,也可以换另一种。

二、表意改进,对汉字形部进行分化、减并后适配,如扌,分化为又(收入)、寸(抛出)、“秉”(据有、证据、权柄、操控等)、扌(其他手部动作)。另外,在需要的情况下新创一些的新意符。

三、保留字中繁笔字改进

如:霸、蠢、壤、嘴等用音义法或换声部改进,总数量较少,在10个字以内。

四、分化多音字

使用频率最高的音用原字,其他音用音义字取代。

五、分化多义字

使用频率最高的义簇用原字,其他义簇用音义字替代。(义簇分析工作量艰巨,对文字学功底要求高,需团队合作完成)。如:造访的造,形部用辶;制造的造,形部用扌。

改进后的汉字分为保留字和改良字。保留字包括:甲类字(甲A和甲B)、乙类字(乙F、乙A、乙B)、丙A类字;改良字包括:1.B类字;2.乙类字(乙C和乙D);3.多音分化字;4.多义分化字。第34两项为新增字,预估会增加一千到两千字。但这些字都是音义字,拼读规则和字义推理逻辑可以方便的识读,表音部分都是笔画简单的汉字,学习成本的增加十分有限。而多音字、多义字分化以后,字音、字义更单纯,歧义更少,更有利于人们使用,同时也有利于人工智能的识读和运算。

改机效果预测

经统计,一级字共分为2231组,每组一个声部。其中,甲类513组,乙A376组,乙C203组,丙A461组,丙B678组。将要改良的乙C/D和丙B类字读音与声部不相符的有210+672=882组,改后形声字准确率将提高882/2231=39.5%有大幅度的提高。字组数减少672组,减少比例为672/2231=30.1%,有明显的降低。而新分化出的1000-2000字,均为音义字,声部为简笔汉字切音组成,不增加传统声部数量。

通过对一级汉字的分类改良,学习难度下降20-30%,表音准确率提高39.5%,表意细化度提高(按分化出1245字计算,与原一级字3755合计为5000字)1245/3755=33.15%,约提升三分之一。三项指标均有较大幅度提升。一级字保留率为(3755-778/3755=79.3%,约为五分之四。由于保留的一级字都是高频和中频字,以及一些低频率的从字,保留字的总使用频率在95%以上,在使用场景下最大限度保留了汉字的传承性。




阅读:9
录入:易林

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:中文普通话读音标注方式改革刍议

下一篇:
相关文章      
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名: (限会员登陆后发表评论)

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询