二十一世纪初汉语字、词流通频度统计 陈一凡 朱亮 北京信息工程学院 广东青月亮科技开发有限公司
【摘 要】本文介绍了二十一世纪初汉语字、词语流通频度的最新统计结果。 【关键词】字频统计,词频统计,流通频度。 字、词频度是字符识别和语音识别的后处理、智能化键盘输入软件用到的重要数据。在社会变革较大的时期,用当代语料统计的字、词流通频度比用历史语料统计的字、词使用频度有更大的实用价值。 本文报告作者近期从5千余万字当代语料中对GB13000.1字符集20902字和88102条词语进行了流通频度统计。我们把上述字、词流通频度暂称为21频度。
一、语料构成
总字数:50,106,049字。 ⒈ 政经时事:35,238,511字,占70.33%。 ⒉ 科学技术:9,893,046字,占19.74%。 ⒊ 文学艺术:4,974,492字,占9.93%。 三类语料中,2000~2001的文稿占90.07%。 以上语料用于词汇流通频度统计。用于汉字流通频度统计时,去除6,217,516个属于GB2312 1~9区的非汉字符号和标点符号,总字数为43,888,533字。
二、字频概况
⒈ 在以上语料中,总共用到的汉字为7330个,GB 13000.1字符集的20902字中有13572个未曾出现。 ⒉ 与1988年国家语委公布的字频表比较,二十一世纪初流通字频有较大的涨落,表1为30个高频字的频度比较。 表 1:30个高频字的频度比较表 序号 | 汉字 | 语委字频 (‰) | 累计字频 (‰) | 汉字 | 21 字频(‰) | 累计字频 (‰) | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 | 的 一 了 不 是 和 有 人 在 上 这 大 我 来 们 国 他 说 个 全 小 中 合 子 到 可 就 下 以 你 | 42.557 18.185 15.472 15.299 15.228 11.873 11.181 10.759 10.721 10.138 9.127 8.930 8.444 7.965 7.738 7.269 6.845 6.576 6.404 6.237 6.179 6.001 5.870 5.785 5.679 5.369 5.239 5.098 4.994 4.927 | 42.557 60.742 76.214 91.513 106.741 118.614 129.795 140.554 151.275 161.413 170.540 179.470 187.914 195.879 203.617 210.886 217.731 224.307 230.711 236.948 243.127 249.128 254.998 260.783 266.462 271.831 277.070 282.168 287.162 292.089 | 的 一 在 国 是 中 和 有 了 人 不 为 大 年 用 上 作 发 个 以 地 会 要 生 出 这 学 成 行 对 | 36.526 10.912 8.600 8.364 8.251 8.075 7.949 7.756 7.397 7.193 6.598 6.250 6.033 4.863 4.836 4.645 4.637 4.522 4.514 4.421 4.408 4.349 4.311 3.914 3.898 3.895 3.859 3.826 3.734 3.699 | 36.526 47.438 56.038 64.403 72.655 80.730 88.679 96.436 103.833 111.027 117.626 123.876 129.910 134.774 139.610 144.255 148.893 153.415 157.929 162.351 166.760 171.109 175.421 179.335 183.234 187.129 190.989 194.816 198.550 202.249 |
⒊ 按“21频度”统计进入GB2312一级字3755字序列的字有305个。 ⒋ 按“21频度”统计进入GB2312 6763序列的字有414个。 ⒌ 按“21频度”进入语委常用字3500字序列的字有357个,它们是: 迪 镕 耶 酶 圳 曰 浏 弗 兹 韦 孢 茨 桢 岚 蔡 吾 弘 粞 帧 烯 柯 喀 璇 琛 斌 璐 嘛 馨 馈 邹 暨 埔 厄 苯 莎 烷 瞩 邵 魅 陀 惟 佐 曝 磋 瑾 禹 龚 涅 郡 汝 鲍 彦 烃 矣 阮 娅 胺 亨 隋 酯 圭 迭 卉 祁 奎 帷 狄 霓 缉 苷 铀 纂 挝 冉 虞 斐 萼 湛 裔 伽 酮 尹 荫 鄂 邱 炳 嘻 崛 镁 醛 哇 苑 酰 桔 镍 肇 铬 萃 渝 禄 耦 怡 尧 噬 佚 褶 哦 倪 朔 颐 藩 焉 荀 霖 麓 磊 汕 氟 沂 孜 簧 襄 酋 丫 肽 廖 窦 俞 蕨 梵 瑙 楠 雯 迦 酚 妮 熹 篆 牟 麟 鑫 鞘 禅 侃 蒴 阜 鳃 妃 喃 厥 嘎 姬 汲 噢 亟 彝 郝 兮 庚 瑚 绥 琪 睐 赣 抉 潇 诏 裴 仕 瑶 阪 氦 婷 嗯 邯 漳 缪 祀 倩 戎 矶 铵 黛 亢 娟 舜 詹 尴 嗳 愣 藓 钛 秃 渍 尬 娴 铧 渎 祛 骼 匡 羧 抨 腑 沁 恪 狩 釉 伎 毗 皖 滇 绚 嘟 雍 汐 疡 驭 髦 汾 桓 茹 栩 辍 跤 榻 丞 摒 嵇 臻 纶 杼 戊 锂 瞅 垣 冥 汶 颌 陇 彗 拎 绮 钴 渲 韬 獗 钼 眩 鞣 槛 珀 玺 藉 炽 诧 笃 烽 札 跻 渭 淇 晖 穹 钨 煽 佼 琦 璋 飚 孚 痉 泓 滕 辊 娥 弼 瘀 羲 铂 翟 翌 诂 莞 蓓 昊 挛 咯 渥 峨 咋 墟 峙 瞿 嗣 胱 祯 禧 铎 羟 豚 醚 瑜 毓 诠 祺 啶 霄 郸 盎 寅 睫 荟 剌 腱 琶 铮 厮 慑 砷 腓 匮 琵 斡 葆 虔 稣 瞥 羁 哉 岱 姗 炜 邸 悸 氰 悖 泾 浚 湄 溴 谏 忡 敖 咀 戟 弈 湍 曳 黯 傣 辗 谟 聆 淬 妊 韶 三、词频概况 ⒈ 我们以GB/T15732-1995《汉字键盘输入用通用词语集》为底库(44791条词语),对上述语料进行新词搜索和词频统计。 ⒉ 搜索到新词语43988条。 ⒊ 上述语料中用到的词语共88102条,GB/T15732-1995《汉字键盘输入用通用词语集》中有677条未曾出现。 ⒋ 词条覆盖率见表2和图1。 表 2:词语条数覆盖率统计表 覆盖率 (%) | 20 | 30 | 40 | 50 | 70 | 90 | 95 | 97 | 98 | 99 | 99.9 | 100 | 词条数 | 308 | 684 | 1314 | 2405 | 7677 | 26760 | 39870 | 48597 | 54781 | 63678 | 80538 | 88102 |
覆盖率(%) 图 1:词语条数覆盖率直方图由表 2得到:⑴ 最常用级词7677条(覆盖70%)。⑵ 常用级词19083条(加上上一级后,覆盖90%)。⑶ 次常用级词13110条(加上上面的两级用词后,覆盖95%)。⒌二十一世纪初词语流通频度与 GB/T15732-1995《汉字键盘输入用通用词语集》的词频统计(1994)比较,频度涨落比字频涨落更大。⒍ 词语长度与词语数量统计表见表3。表 3:词语长度与词语数量统计表 词长 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 ~17 | 2 ~17 | 词条数 | 44114 | 13536 | 24485 | 2804 | 1808 | 611 | 316 | 170 | 91 | 167 | 88102 | 百分比(%) | 50.07 | 15.36 | 27. 79 | 3.18 | 2.05 | 0.69 | 0.36 | 0.19 | 0.1 | 0.21 | 100 |
四、使用概况 以上数据已用于青月亮汉字通用输入软件平台 V3.1、智能简拼、智能五笔画、智能表形码、智能101等输入系统,对减少重码字、词键选率产生明显效果。 参考文献 [1] 国家技术监督局 汉字键盘输入用通用词语集,中国标准出版社,1996.8[2] 国家语言文字工作委员会汉字处,现代汉语通用字表,语文出版社,1989.8[3] 贝贵琴,张学涛,汉字频度统计,电子工业出版社,1988.4[4] 刘源等,现代汉语常用词词频词典,宇航出版社,1990.6 |