我们在原文中说过,汉语原有的音节,即未简化的音节有400多个,而简化音节减为281个,区分汉字的能力有所减少。
下面的数据能够证明,简化音节区分汉字的能力,仅仅是略有减少。
1、简易双拼的翻页几率略有增加
在简易双拼中,简化音节区分汉字的能力,可以用增加的翻页几率予以估计。以增加的第一次翻页几率为例。
汉语原有的音节有400个,以每个音节不翻页的选字框内有五个字计,400个音节不翻页的出字范围共有2000字。假设这2000字的频率都高于其它的汉字,查汉字频率表,2000个高频字的合计频率为98.1%。
汉语的音节简化后,有281个,以每个音节不翻页的选字框内也有五个字计,281个音节不翻页的出字范围共有1405字。假设这1405字的频率也都高于其它的汉字,查汉字频率表,1405个高频字的合计频率为95.2%。
两种音节不翻页的出字范围差为
2000-1405=595(字)
这595字,就是原有的音节不翻页,而简化音节必须翻页才能出的汉字。这595字的合计频率为
98.1%-95.2%=2.9%。
就是说,在打字过程中,与原有的音节相比,每百个字中,简化音节有2.9个字,是需要增加第一次翻页才能出的汉字。
实际上,假如排除了假设条件的干扰,真实数字会比2.9个字多一些,但仍是一个不大的数字。
2、简化音节的信息量略有减少
简化音节区分汉字能力,还可以用信息量予以估计。
由于没有汉语音节简化前后,在打字过程中使用频率的统计数据,笔者无法准确计算简化音节信息量减少的准确值。但是可以利用“每个音节使用频率是相等的”这一同等假设条件,估算信息量减少的近似值。
汉语的音节未简化有400个,假设这些音节的使用频率是相等的,平均每个音节的信息量为
log2400=8.64(比特)
简化音节有281个,假设这些音节的使用频率也是相等的,平均每个音节的信息量为
log2281=8.13(比特)
容易计算,平均每个简化音节的信息量仅仅减少了约5.9%。
3、关于形声码的另一数据的比对
我们在原文中估计,形声码无重码的出字范围约为3512字,大小是适宜的。
如果说这一数据没有经验可比对的话,那么下面的数据,则是可以根据人们已有的经验作出比对的。
我们知道,在搜狗拼音输入法中,每个音节的选字框内有五个字,翻页后的选字框内还是五个字。以汉语原有的音节400个计,不翻页,理论上最大的出字范围是2000字。两次翻页后,是6000字。