汉字应分类改革

汉字的优点

1. 汉字每字一个读音，字宽与读音长度比较合拍，也就是说，方块汉字字宽一致与单音节汉语高度匹配。

2. 汉字字形之间的视觉差别度相对较高（与字母文字相比），辨识度较高，大部分情况下不需要细看，目光扫过轮廓就能识读，阅读效率特别高。

3. 汉字的传承性很好。特别是正体字，字形与1700年前的魏晋时期几乎相同；而稍作学习，还可以与2200年前秦代小篆相通，具有很好的传承性。汉字经过规范字简化以后，这种传承性有所降低，但通过“用简识繁”的学习之后，基本上能够延续这种传承性。

4. 汉字字形有助于人工智能扫描和解读。通过与deepseek交流得知，汉字字形特征有利于AI解读，尤其是形声字，对于字形形部扫描，可以比字母文字有更快的扫描速度，从而提高文本处理速度，与英文相比较，中文指令训练效率提高17%，模型相应速度提高23%。

汉字的问题

1. 汉字表音规则混乱，表音不准确，大部分形声字读音与声部不对应，如：蔼、扮、蚌、衬、嗔等；有的声部有多个读音，如艮部，读音有根、很、银、恳、限等；有一字多音问题，如称（cheng2、chen4等）少部分字有多个读音，如和（he2、he4、huo2、hu2）在不同的词句中有不同的读音。

2. 表意不恰当，相当大一部分字义与表意偏旁不匹配，在这方面，没有看到相关研究和文献，但问题显而易见，如桶、机的木旁，在古代桶和机多为木制，用木旁和字义有些关联，但现在已经跟木几乎没有了关联，导致部分形声字的形旁与字义脱节，表意能力减弱。

3. 部分汉字结构复杂，笔画繁多。早期汉字都是象形、指示、会意字（可称之为形义字）一个字表示一个意思，形义字数量较多，一级字中形义字有977个。其中少数字结构简单，笔画数较少（5画以下，如一二三，上下大小等），其他大部分笔画较多（6画以上）。后来在形义字基础上发展出形声字，形声字是由形义字拼合而成，笔画更多，结构更复杂。一级字总，15到17画的字有255个，18到24画的字有63个，这些字字形结构复杂，书写不便，小字号时模糊不清。

4. 不标准形声字不利于AI扫描识读。如制造的“造”，字义与制作有关有关，应该用“扌、工”之类偏旁，但“造”表意偏旁却是“辶”，与“制作”的字义不符；而“造”的声部是“告”，也与“造”的读音不一致。而标准形声字如“沐”，表音(木)和表意(氵)都比较准确，是标准形声字。根据deepseek回复，非标准形声字（如"造"）会使单字处理效率降低约34%（相应速度0.87毫秒/1.32毫秒），响应时间增加52%（但通过上下文补偿和混合训练策略，实际系统级影响可控制在12-15%）。

汉字优化改良的必要性

汉字数量多、表音字部多而且准确度低，造成汉字学习难；而部分汉字（主要指形声字）表意不准确，给学习者造成理解困难，进一步增加了学习负担。形部表意不准，不利于学习者规则意识和逻辑思维能力的培养，也有损汉字表意文字的称号。

汉字的繁难，使得我国儿童在母语文字学习中，需要耗费更多的时间和精力，挤压了其他学科的学习时间，从总体上降低了低学生的学习效率。对部分“问题”汉字进行优化改良，可以降低低学龄儿童少年汉字的学习成本和学业负担，使得学生有更多的时间和精力学习其他学科的知识，助力我国人才的培养。

通过优化改良汉字，还可以使AI提高运算速度。人工智能方兴未艾，未来应用必将更加深刻而广泛，文字对人工智能的友好性，也是一个需要考虑的重要的方面。

汉字改良的原则

首先要保留汉字的优点，如：字形差别度高、辨识度高，与汉语单音节特征相匹配的方块字形，优良的文字传承性等。在继承汉字优点的基础上，改进汉字的缺点，如：表音不准确的形声字，表意不准确的形声字，笔画过于繁复的字。

据统计资料，3755个一级字在现代文章中使用总频率超过99.7%。改革是为了方便使用，对用得到的字进行改进有意义，对用不到的字改进没意义。国家法令法规、行业规范标准、专业学科、生产生活基本在一级字范围内，改革的范围应确定在3755个一级字范围内。

少数的近代新造字（如熵、㶲、钍、铑、苄、胍、蒽醌、哌嗪等现代新造字）在二级字范围内，但这些近代字几乎都是标准形声字，很少有读音与声部不符的情况，而且义符也都是按现代意义赋与的，可以比较准确的表达字义，所以没必要改。其他二级字主要是在古文中使用，可归入古文学习的内容，同时也作为文字传承的部分，在古文中用原汉字更相配，改了反而有损其内涵和韵味。上述的现代新造字和古文用字可以归纳为“专用字”，与常用字（一级字）相区分，常用字是人人都要掌握的字，而专用字只对“专业人员”有要求，而不是普遍要求。对于一级字而言，如果写错、认错问题更严重一些，而二级字即便是有写错认错的情况，其影响范围也小很多，因为能大量认识二级字的人毕竟是少数。

在常用一级字中，高频字由于使用频率高，同样的学习成本，分摊在高频率上就大为降低（详见末段“注2”说明）。另外，高频字数量相对较少，低频字数量相对较多，因此，高频字不合规则，可以给予更高的宽容度，以保留为主。今后文本中加入改良字，阅读时保留字占大部分，改良字占一小部分，这样可以以旧带新，便于衔接过渡。

低频字字使用频率低，单字的学习成本与常用字大体一致，但由于使用频率低，成本无法被摊低，致使相对成本较高。改革这部分字，可以有效降低学习成本，这部分字应该是改革的重点范围。但这部分字中一部分字有较强的文化属性，如：历史上重要的地名、朝代名、官爵名，及天干、地支、姓氏等，从文化传承的角度，应该单列保留；另外，笔画简单的低频字，由于易学易用，也应该保留。

既然要保留多数汉字，改良后的字就要跟汉字相容。首先是字形，要保持方块形，字的笔画、构件、间架结构与汉字相同或近似，改良字跟汉字混用时字形相互协调，不违和。其次，表音、表意的构件首选汉字部件或整字，尽可能减少新增字件的数量，如表音的部分用保留汉字做声部，或用笔画简单的字当“字母”，利用切音方法表音（如：大+乙=di音），以减少新文字的陌生感。表意部分的改造较为复杂，首选汉字偏旁或形部，如果汉字的偏旁和形部不能合理表达字义，则需要引入新的表意符号。这些新符号也要与汉字字形相近，以减少新文字与汉字的违和感。

汉字有漫长的历史沿革和传承，每改一个字，就给一条贯通的传承线打一个结，增加一个驿站，破坏一条文字的直通路，每个字的改动有一定的破坏性，应谨慎对待。应从历史、当下和未来三个方面衡量得失，得大于失才能改。所以，改良优化的范围指向那些作用小（使用频率低）、问题多（表音、表意、笔画数等方面）的少部分一级字。

保留字与“当改字”的筛分

一级汉字的分组：多数汉字都是成组的，如青、情、请等共用一个声部青，读音（忽略声调）都是qing；精、睛、静读音都是jing。为了方便筛分，可以将这些共用一个声部，且读音一致的字（忽略声调）称为一个字组，使用频率最高的字称为主字，同组的其他字称为从字。而哪些没有共用声部的字称为独字，如：“在”字，除了“在”这个字以外，没有其他读音为zai且声部为“在”的字，这样的字只有主字，没有从字。

一级汉字的频率分级

对每个字组和独字按使用频率排序；

使用频率高于万分之三的字为高频字，高频字及其从字合称为甲类字。其中频率最高的那个（主字）字称为甲A字；与甲A字同一个字组的其他字（从字）为甲B字（独字没有从字，甲B空缺），甲A字与甲B字原则保留。如：“把”字，使用频率为万分之16，大于万分之三，为甲A字，这个字保留；跟“把”共用一个字根（巴）的有：芭吧疤笆巴靶耙爸等字，因为字根相同，且读音相同（忽略声调不同），这8个字属于“把”的从字，与“把”一起保留。又如：“光”字，频率为万分之14.8，为甲A字，读音为guang且用“光”做声部的字没有，则只保留光字。甲A字共513个，甲B字共613个，合计1126个字。其中，独字207个，读音与声部一致的字781个，读音与声部不一致的字138个，占甲类的12.3%，约八分之一，占比较小。

使用频率万分之一到万分之三之间的为中频字，中频字及其从字合称为乙类字（中频甲B字已筛出，不属于乙类字）。其中，读音与声部相符的形声字为乙A，与乙A有相同字根的字为乙B，乙A、乙B原则保留；乙A字有376个，乙B字有396个，共762个。读音与声部不相符的形声字为乙C，与乙C同组的字为乙D，乙C有有203字，乙D字有180个，共383个。

剩余的一级字均为使用频率小于万分之一的低频字（已筛除了甲B、乙B、乙D中使用频率低于万分之一的字），可以称为丙类字。其中，有历史意义地名朝代名、有文化意义的姓氏、官爵名及干支等笔画简单的一级字等为丙A字，作为文脉传承字保留。这类字共有461组，从字53个，共514个。

一级字中除了甲乙类和丙A类汉字，剩余的为丙B类字，共672组、778字，是4类一级字中组数最多的一类（组数意味着字根数，字根数决定学习难度），占一级字总组数2231组的30.1%。

注1：字的分类问题比较复杂，统计工作量较大，统计结果可能有出入！

注2：甲类字共1126个，分属513组，每组都是共用一个声部，并且是同一个读音，也就是说，学会513个甲A字，甲B字差不多就会读了。丙B类字共672组，778字，并且读音跟声部都不相符，每一组都需要反复诵读、机械记忆量大。甲类字的使用频率在80%以上，丁类字的使用频率在5%以下。量化一下两类字的“学用比”，甲类字为513/80=6.4，丁类字为678/5=135.6，丁类字比甲类字的学用比为135.7/6.4=21.2，也就是说，在同样效用的前提下，丁类字比甲类字要多付出20多倍的学习成本。

改进方法

一、表音的改进

1.乙C和乙D声部做增减笔或变笔，与读音正确的字根分化，字形大致与原汉字趋同，但个别笔画有差别。

2.丙B字用汉形拼音加义部替代，做成新的“标准形声字”。

两类汉字的改进方法只是大原则，执行中如果具体字与原则不适配，也可以换另一种。

二、表意改进，对汉字形部进行分化、减并后适配，如扌，分化为又（收入）、寸（抛出）、“秉”（据有、证据、权柄、操控等）、扌（其他手部动作）。另外，在需要的情况下新创一些的新意符。

三、保留字中繁笔字改进

如：霸、蠢、壤、嘴等用音义法或换声部改进，总数量较少，在10个字以内。

四、分化多音字

使用频率最高的音用原字，其他音用音义字取代。

五、分化多义字

使用频率最高的义簇用原字，其他义簇用音义字替代。（义簇分析工作量艰巨，对文字学功底要求高，需团队合作完成）。如：造访的造，形部用辶；制造的造，形部用扌。

改进后的汉字分为保留字和改良字。保留字包括：甲类字（甲A和甲B）、乙类字（乙F、乙A、乙B）、丙A类字；改良字包括：1.丙B类字；2.乙类字（乙C和乙D）；3.多音分化字；4.多义分化字。第3、4两项为新增字，预估会增加一千到两千字。但这些字都是音义字，拼读规则和字义推理逻辑可以方便的识读，表音部分都是笔画简单的汉字，学习成本的增加十分有限。而多音字、多义字分化以后，字音、字义更单纯，歧义更少，更有利于人们使用，同时也有利于人工智能的识读和运算。

改机效果预测

经统计，一级字共分为2231组，每组一个声部。其中，甲类513组，乙A类376组，乙C类203组，丙A类461组，丙B类678组。将要改良的乙C/D和丙B类字读音与声部不相符的有210+672=882组，改后形声字准确率将提高882/2231=39.5%有大幅度的提高。字组数减少672组，减少比例为672/2231=30.1%，有明显的降低。而新分化出的1000-2000字，均为音义字，声部为简笔汉字切音组成，不增加传统声部数量。

通过对一级汉字的分类改良，学习难度下降20-30%，表音准确率提高39.5%，表意细化度提高（按分化出1245字计算，与原一级字3755合计为5000字）1245/3755=33.15%，约提升三分之一。三项指标均有较大幅度提升。一级字保留率为（3755-778）/3755=79.3%，约为五分之四。由于保留的一级字都是高频和中频字，以及一些低频率的从字，保留字的总使用频率在95%以上，在使用场景下最大限度保留了汉字的传承性。