2.2 信息编码
2.2.1 数据涵义与形态
数据(data):是人们看到的景象或听到的事实。
数据有两种形态:人类可读形式的数据和机器可读形式的数据。
数据有数值型和非数值型两类,这些数据在计算机中都必须以二进制形式表示。
2.2.2 数据单位
1. 数据的常用单位有位、字节、字和字长。
位(bit):是计算机中存储数据的最小单位,指二进制数中的一个位数,其值为“0”或“1”,称为“比特”。
字节(Byte):是计算机存储容量的基本单位,计算机存储容量的大小是用字节的多少来衡量的。用“B”表示。单位还有KB(千字节)、MB(兆字节)和GB(千兆字节)一个ASCII码用1个字节表示。一个汉字占两个字节。
字(word):指计算机一次存取、加工、运算和传送的数据长度。一个字通常由一个或若干个字节组成。计算机字的长度越长,则其精度和速度越高。
字长:一个字中所包含的二进制位数的多少称为字长。
2. 数据单位间的换算。
在数据单位间存在着以下换算关系。
1B=8bit
1KB=210B=1024B
1MB=210×1KB=210×210B=1024×1024B=1024KB
1GB=210×1MB=210×210×1KB=210×210×210B=1024×1024×1024B=1024MB
2.2.3 字符编码
1. ASCII码
目前,国际上使用的字母、数字和符号的信息编码系统是采用美国国家信息交换标准字符码(American Standard Code for Information Interchange),简称为ASCII码。它有7位码版本和8位码版本两种。
国际上通用的是7位码版本,即用7位二进制表示一个字符,由于27=128,所以有128个字符,其中包括:0~9共10个数码、26个小写字母、26个大写字母、34个通用控制符和32个专门字符。如表2-1所示。
2. 汉字的编码
(1)汉字交换码(国际码)
规定了《信息交换用汉字编码字符集-基本集》,即GB2312-80,简称国际码。国际码基本集中收录了汉字和图像符号共7445个,分为两级汉字。国际码采用两个字节表示一个汉字,每个字节只使用了低七位。这样使得汉字与英文完全兼容。
(2)汉字机内码
机内码是计算机内部存储和加工汉字时所用的代码。不管用何种汉字输入码将汉字输入计算机,为存储和处理方便,都需将各种输入码转换成长度一致的汉字内部码。一般用二个字节表示一个汉字的内码。注:内码=国际码+8080H
(3)汉字外部码
汉字外部码又称输入码,由键盘输入汉字时主要是输入汉字的外码,每个汉字对应一个外部码。汉字输入方法不同,同一汉字的外码可能不同,用户可根据自己的需要选择不同的输入方法。
(4)汉字字形码
汉字字形点阵:汉字的字形称为字模,以一点阵表示。点阵中的点对应存储器中的一位,对于16?16点阵的汉字,其有256个点,即256位。点阵数越大,分辨率越高,字形越美观,但占用的存储空间越多。
北京 | 天津 | 上海 | 江苏 | 山东 |
安徽 | 浙江 | 江西 | 福建 | 深圳 |
广东 | 河北 | 湖南 | 广西 | 河南 |
海南 | 湖北 | 四川 | 重庆 | 云南 |
贵州 | 西藏 | 新疆 | 陕西 | 山西 |
宁夏 | 甘肃 | 青海 | 辽宁 | 吉林 |
黑龙江 | 内蒙古 |