GBK(汉字内码扩展规范)
GBK全称《汉字内码扩展规范》(GBK即“国标”、“扩展”汉语拼音的第一个字母,英文名称:Chinese Internal Code Specification) ,中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,国家技术监督局标准化司、电子工业部科技与质量监督司1995年12月15日联合以技监标函1995 229号文件的形式,将它确定为技术规范指导性文件。2000年已被GB18030-2000《信息交换用 汉字编码字符集 基本集的扩充》国家强制标准替代。 2005年GB18030-2005发布,替代了GB18030-2000。
中文名汉字编码字符集
Chinese Internal Code Specification
GBK
《汉字内码扩展规范》
计算机编码
CP936字码表(Code Page 936)的擴展(原來的CP936和GB 2312-80一模一樣),最初出现于Windows95简体中文版中,由于Windows产品的流行和在大陆广泛被使用,中华人民共和国国家有关部门将其作为技术规范。注意GBK并非国家正式标准,只是国家技术监督局标准化司、电子工业部科技与质量监督司发布的“技术规范指导性文件”。虽然GBK收录了所有Unicode 1.1及GB 13000.1-93之中的汉字,但是编码方式与Unicode 1.1及GB 13000.1-93不同。仅仅是GB 2312到GB 13000.1-93之间的过渡方案。后续
中华人民共和国国家标准总局于2000年推出了GB 18030标准,以取代GBK。GB 18030-2000除了保留了全部GBK编码的汉字外,还增加了大约一百个汉字及四位元组编码空间。请参看GB 18030。
引入标准
GBK的编码图随着信息技术在各行业应用的深入,GB 2312收录汉字数量不足的缺点已经初步显露出来。例如:"镕"字现在是高频率使用字,而GB 2312却没有为它编码,因而,政府、新闻、出版、印刷等行业和部门在使用中感到十分不便。1995年,全世界大多数的PC操作系统都实现了16/32位。GB 13000.1的实现出现了一线曙光。一方面为了对GB 2312进行扩充,一方面顺应当时技术的发展向GB 13000.1推进,同时兼顾当时最广泛采用GB2312内码系统。原电子部和原国家技术监督局联合颁布了指导性技术文件《汉字内码扩展规范》1.0版,即GBK。
在汉字处理系统中,由于GB 2312需要经常性的使用转移序列规则,最广泛使用的实际是经过GB 2312+8080H移位后的内码模式。因为如不使用转义序列规则,GB2312规定的一个汉字字符的交换码用两个ASCII图形字符编码的表示方法,在中国最初的计算机上实现中西文信息兼容时会造成汉字内码与汉字交换码的不一致性。为解决这一问题,国内外推出了十多种计算机汉字内码制式,最常用的就是两字节内码制式,而在其中以高位为“1”的两字节内码应用最广(所以要移位8080H),它是把汉字交换码两字节高位置“1”而成,例如在CC-DOS系统中。台湾的CNS 11643、日本的JIS 0203等标准也是采用同样方式来实现。
编码原理
GBK在GB 2312内码系统的基础上进行了扩充,其内码空间为0x8140 ~ 0xFEFE,去除第二字节的0x7F(192个码位),总共23940个码位。它收录了GB 13000.1-1993的全部20902个CJK统一汉字,包括GB 2312的全部6763个汉字。此外,它增补编码了52个汉字,13个汉字结构符(在ISO/IEC 10646.1: 2000中称为表意文字描述符)和一些常用部首与汉字部件。在GBK的内码系统中,GB 2312汉字所在码位保持不便,这样,保证了GBK对GB 2312的完全兼容。同时,GBK内码与GB 13000.1代码一一对应,为GBK向GB 13000.1的转换提供了解决办法。
GBK参考资料
1.关于GB18030汉字编码标准集·新浪网
2. 标准号:GB 18030-2005·国家标准全文公开系统