理论教育 计算机网络技术:汉字编码GB2312—80

计算机网络技术:汉字编码GB2312—80

时间:2023-11-22 理论教育 版权反馈
【摘要】:GB 2312—80是双字节编码,它用2字节表示1个汉字,第一个字节称为“区”,第二个字节称为“位”。

计算机网络技术:汉字编码GB2312—80

汉字属于象形文字,有简体和繁体之分,使用的键盘又是英文键盘,其编码比较复杂。基本的汉字输入编码有拼音码、电报码、区位码、五笔字型等。汉字信息交换编码有GB 2312—80、GBK、GB 13030—2000、BIG5码以及Unicode等。

1.GB2312—80汉字国标码

1981年中国国家标准局公布GB 2312—80《信息交换用汉字编码字符集——基本集》,收录常用汉字6763个和一些非汉字图形符号,其中一级汉字3755个,二级汉字3008个。几乎所有的中文系统和国际化的软件都支持GB 2312—80。

GB 2312—80是双字节编码,它用2字节表示1个汉字,第一个字节称为“区”,第二个字节称为“位”。由于它以ASCII字符集中的94个可显示字符(21H~7EH)作为基集,因此共有94个区,每个区有94个位。区号对应第一个字节,位号对应第二个字节。

由于国标码以ASCII码为基集,无法区分原有的1字节ASCII码和2字节国标码的汉字信息,因此不能用国标码作为机内码。机内码是汉字在计算机内部的表示方式。计算机汉字通信的过程是发送方将汉字内码转换成国标码,而接收方将收到的国标码再转换成它自己的内码。

汉字内码的方案很多。为了兼容ASCII码,将区号和位号组成的2字节的值分别加20H,再将最高位分别置1,作为汉字机内码。因此,GB 2312—80的编码范围为A1A1~FEFE。例如,“啊”字是GB 2312—80之中的第一个汉字,排在16区1位,它的编码为0xB0A1。可以得出下面的结论:

区位码+20H=国标码

国标码+80H=机内码

2.GBK汉字编码(www.daowen.com)

GBK《汉字内码扩展规范》,其中“GB”是“国标”的意思,“K”代表“扩展”。GBK解决了GB 2312—80收录汉字数量不足的缺点。GBK与GB 2312—80兼容,并支持ISO10646.1国际标准。

GBK也采用双字节编码,编码范围为8140~FEFE,第一个字节在81~FE之间,第二个字节在40~FE之间,剔除xx7F一条线,总计23940个码位,共收入汉字(包括部首和构件)21003个。例如,“毅”字的GBK编码是D2E3。

3.GB18030—2000汉字编码

GB 18030—2000《信息交换用汉字编码字符集基本集的扩充》由信息产业部和国家质量技术监督局在2000年联合发布,并作为一项国家标准在2001年9月1日后正式执行。

GB 18030—2000是取代GBK1.0的正式国家标准。该标准收录的字符分别以单字节、双字节和四字节编码,收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等少数民族文字。现在的PC平台必须支持GB 18030—2000,对嵌入式产品暂不作要求。所以手机、MP3播放器一般只支持GB 2312—80。

4.BIG5码

BIG5码是中国香港、中国台湾地区使用的汉字编码方案,因此在浏览中国港台地区的汉字文件时,应转换成相应的BIG5码。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈