阅读文章

汉字编码国家标准及现状

UNICODE(国际通用字符集)

[日期:2008-04-23] 来源:  作者: [字体: ]

UNICODE(国际通用字符集)

历史上有两个独立的创立单一字符集的尝试:一个是国际标准化组织的ISO 10646 项目, 另一个是由(一开始大多是美国的)多语言软件制造商组成的协会组织的 Unicode 项目。 1991年前后两个项目的参与者都认识到, 世界不需要两个不同的单一字符集。它们合并双方的工作成果并为创立一个单一编码表而协同工作。两个项目仍都存在并独立地公布各自的标准, 但 Unicode 协会和 ISO/IEC JTC1/SC2 都同意保持 Unicode 和 ISO 10646 标准的码表兼容, 并紧密地共同调整任何未来的扩展。

 UNICODE与其他汉字符集的关系:

GB2312GB13000.1GB18030均为国家标准,而GBK是国家规范。GB2312编码汉字6763字,是在Windows 95出现以前,国内信息处理普遍采用的编码标准。GBK是在保持GB2312原貌的基础上,将其字汇扩充至ISO 10646中的CJK 20902汉字,同时也就包容了台湾的工业标准Big5中的全部汉字,没有体系结构的变化。而GB18030则不然,它是在GBK的基础上做进一步扩充,不但把CJK-扩展A的6582汉字扩充进去,而且还改变了GBK的体系结构。尽管GB2312、BIG5、GBK在某种程度上依然尚存,但ISO 10646(GB13000/Unicode)已日渐成为主流编码。

 CJK-扩展B的汉字编码与Unicode的Surrogate机制

国际标准化组织在 ISO10646-2000 的基本平面(BMP 或者 Unicode 3.0, 下简称 Unicode)编入了27,564 汉字(U+4E00~U+9FFF以及U+3400~U+4DFF),既是2000年3月在GB18030颁布时所建议支持的字汇。其中U+3400~U+4DFF部分的6582个汉字又称为CJK-扩展A。  同时国际标准化组织还在ISO10646-2000 的第二平面扩展了42,711汉字(又称为CJK-扩展B)。该42,711 汉字的编码表已基本确定,尽管不排除未来微小变动的可能性。也就是说,到目前为止Unicode已编码的汉字达七万多字。

CJK-扩展B 的42,711汉字编排在ISO10646-2000的第二平面,所以编码需要4个字节。为存取处理这些4字节字符,在Unicode 中引入了Surrogate 机制(在ISO10646-2000中命名为UTF-16)。根据这样一种机制, 在Unicode中用两个16位编码就可以对ISO10646-2000 第二平面中的汉字进行存取。Microsoft 从Windows2000 (在Windows 98, Windows ME 及 Windows NT4 中没有)开始对这样一种机制提供支持。只要有相应的输入法和字库并且在应用程序中给予相应的支持,就应该能够输入显示上述提到的汉字。但是,要想得到对Surrogate全面的支持,用户需先下载并安装Surrogate Package ( Surrogate支持包 )。

 支持CJK-扩展B汉字显示的字体:

1、简体中文版Microsoft Office XP及更高版本附带了宋体-超大字符集中文字体 ,支持上面提到的全部27,564个汉字以及在第二平面中(42,711)选出的36,862个在中国大陆、香港特别行政区(以及部分台湾地区)使用的汉字。因此包括西文等常用字符在内,宋体-方正超大字符集共包括65,531个字符。换言之,它支持CJK-扩展A中的全部汉字和CJK-扩展B中的部分汉字。

2、繁体中文版Microsoft Office XP及更高版本则提供了支持超大字符集的细明体(MingLiU Ext-B PMingLiU Ext-B),可以从已装有Office的电脑中单独找到该字体文件,复制到本机Windows系统下的Fonts文件夹中即可。需要注意的是,此字体全面支持CJK-扩展B中的42711字,但不支持CJK-扩展A中的6582字。  



上一页 [1] [2] [3] [4] [5] [6] [7] 下一页   


阅读:
录入:湘里伢子

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:什么是GB、BIG5、GBK、GB18030字集?

下一篇:GBK 汉字内码扩展规范编码表
相关文章       汉字 
本文评论
  既然是国家强制性标准,为什么要收费才能阅读,为什么不能广而告知? 作者: Julia 2007-2-4 13:09:58 等级: ★   既然是国家强制性标准,为什么不能广而告之提供免费下载,反而需要购买?直到今天我才知道GB18030-2005已经取代了GB18030-2000,但具体的内容有多少人知道呢?不知道又何谈遵守呢?期间听说还出过国家强制性标准GB18030-2001,但有操作系统和字处理软件真正支持这个标准吗?GB18030-2005的适用范围是什么?是需要所有的应用软件比如游戏、杀毒、集群软件都支持GB18030-2005吗?      盼有关部门给予答复。 http://www.spc.net.cn/review/review.asp?strid=28735   (湘里伢子会员 ,2008-04-23 )
  反对GB 18030作为国家标准 作者: 张轴材 代 郑珑等人 2006-10-10 15:04:06 等级: ★★★★★   诸位:      尽管下述意见众所周知,但我还是再说一遍,不准确之处望指正。      在GB18030-2005这个标准中,汉字的编码不符合ISO/IEC 10646:2003汉字编码字符集这一国际标准,在今天我国已加入WTO,大家都离不开国际互联网的时代,这标准出台的本身就是一个错误的技术路线,起着误导和阻碍我国中文信息技术发展的作用,幸亏大家都没有执行,因为连制订这一标准的部门自己都无法执行。而且这一标准也不符合“中国标准创新贡献奖”中“奖励范围”的规定,因此我坚决反对该标准获取“中国标准创新贡献奖”!奖励范围规定:(一)截止2006年9月1日,经相应主管部门批准发布、备案并已实施一年以上(含一年)的国家标准项目、行业标准项目、地方标准项目、企业标准项目。(二)被国际标准化组织(包括ISO、IEC、ITU及其他认可的国际组织)采纳且已经批准发布为国际标准的项目。”      因为:(一)在GB18030-2005的标准手册上印着“2005-11-08”发布、“2006-05-01实施”。 且该手册是2006年8月第一次印刷,根本不够“实施一年以上”的要求;(二...   (湘里伢子会员 ,2008-04-23 )
  GB18030是技术的倒退 作者: 张轴材 2006-10-10   关于对首届"中国标准创新贡献奖"     奖励项目GB18030-2005的严重质疑      1. 该标准的体系结构存在严重问题;早有报告。      2. 该标准与GB 13000(等同于我国长期参与、跟踪、主导的国际标准ISO/IEC 10646=Unicode)等国际主流标准完全不兼容,却是人为的强制性标准,已经造成混乱,将严重阻碍信息技术发展。      3. 信息技术界、中文信息学会、国家语委多次提出反对意见,标准制定单位置若罔闻,搞小圈子,压制不同意见,造成严重恶果。      4. 标准制定单位采取欺上瞒下等不正当手段,封锁长期在该领域工作的国家工作组成员,用虚伪政治口号误导领导,不敢面对严肃的技术问题,致使标准中错误百出。      5. GB 18030-2005的文本才出版5个月、 “创新贡献奖”选在国庆长假前夕公布,10天中7天假,不可能有充裕的时间征得公众意见。而与国际标准等同的GB 13000-2005则被主办单位扣押,致使公众无从比较优劣。      6. GB 18030所选汉字,乃是GB 13000十余年来国内外专家长期工作认同、甄别的结果,GB 18030小组信手拈来,胡乱编码而已,何来创...   (湘里伢子会员 ,2008-04-23 )
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章