理论教育 计算机中的数据编码与字形码

计算机中的数据编码与字形码

时间:2023-11-19 理论教育 版权反馈
【摘要】:在计算机中用1字节表示1个ASCII码。这就是国家标准局规定的标准GB 2312—1980信息交换用汉字编码集。字形码表示汉字字形的字模数据,因此也称为字模码,是汉字的输出形式。简易型汉字为16×16点阵,提高型汉字为24×24点阵、48×48点阵等。以24×24点阵为例来说明一个汉字字形码所要占用的内存空间。

计算机中的数据编码与字形码

1.ASCII码

ASCII码即美国标准信息交换码,被国际标准化组织(ISO)定为国际标准,是计算机系统使用最广泛的字符编码。

ASCII码分为基本ASCII码和扩充ASCII码。在计算机中用1字节表示1个ASCII码。表示基本ASCII码时,最高位为0。表示扩充ASCII码时最高位为可为0或1,为0时即表示基本ASCII码字符,为1时表示扩充部分,每部分都可表示128个字符。一般未特别指明,都是指基本ASCII码。

在基本ASCII码中,控制字符33个(ASCII码值0 ~31和127)、文本字符95个(ASCII码值32~126)。在95个文本字符中,其ASCII码值的顺序如表1-2所示。

表1-2 简易的标准ASCII码对照表

2.汉字编码

西文是拼音文字,基本符号比较少,编码比较容易,因此,在一个计算机系统中,输入、内部处理、存储和输出都可以使用同一代码。汉字种类繁多,编码比拼音文字困难,因此在不同的场合要使用不同的编码。通常有4种类型的编码,即输入码、国标码、内码、字形码。

(1)输入码

输入码所解决的问题是如何使用西文标准键盘把汉字输入到计算机内。有各种不同的输入码,主要可以分为3类:顺序码、音码、形码和音形码。

顺序码:用数字串代表1个汉字,常用的是国标区位码。它将国家标准局公布的6763个二级汉字分成94个区,每个区分94位。实际上是把汉字表示成二维数组,区码、位码各用2位十进制数表示,输入1个汉字需要按4次键。以十六进制表示的区位码不是用来输入汉字的。顺序码的最大特点是无重码、无规律、难记忆。

音码:以汉字读音为基础的输入方法。由于汉字同音字太多,从而重码率高,但易学易用。(www.daowen.com)

形码:以汉字的形状确定的编码,即按汉字的笔画部件用字母或数字进行编码。如五笔字型、表形码,便属此类编码,其难点在于如何拆分一个汉字。

音形码:结合音码和形码的优点,同时考虑汉字的读音和字形确定的编码。

(2)国标码

又称为汉字交换码,在计算机之间交换信息用。用2个字节来表示,每个字节的最高位均为0,因此可以表示的汉字数为214=16384个。将汉字区位码的高位字节、低位字节各加十进制数32(即十六进制数的20),便得到国标码。这就是国家标准局规定的标准GB 2312—1980信息交换用汉字编码集。

(3)机内码

汉字内码是在设备和信息处理系统内部存储、处理、传输汉字用的代码。无论使用何种输入码,进入计算机后就立即被转换为机内码。规则是将国标码的高位字节、低位字节各自加上128(十进制)或80(十六进制)。这样做的目的是使汉字内码区别于西文的ASCII,因为每个西文字母的ASCII的高位均为0,而汉字内码的每个字节的高位均为1。

(4)字形码

表示汉字字形的字模数据,因此也称为字模码,是汉字的输出形式。通常用点阵、矢量函数等表示。用点阵表示时,字形码指的就是这个汉字字形点阵的代码。根据输出汉字的要求不同,点阵的多少也不同。简易型汉字为16×16点阵,提高型汉字为24×24点阵、48×48点阵等。

以24×24点阵为例来说明一个汉字字形码所要占用的内存空间。因为每行24个点就是24个二进制位,存储一行代码需要3个字节。那么,24行共占用3×24=72个字节。计算公式:每行点数÷8×行数。依此,对于48×48的点阵,一个汉字字形需要占用的存储空间为48÷8×48=6×48=288个字节。

从汉字代码转换的角度,一般可以把汉字信息处理系统抽象为一个结构模型,如下所示:汉字输入→输入码→国标码→机内码→字形码→汉字输出。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈