第三节 字符和文本的表示
(一)西文字符的编码
西文是由拉丁字母、数字、标点符号及一些特殊符号所组成的,它们统称为“字符”(Characˉter)。所有字符的集合叫做“字符集”。字符集中每一个字符各有一个代码(即字符的二进制表示),它们互相区别,构成了该字符集的代码表,简称码表。
目前计算机中使用得最广泛的西文字符集及其编码是ASCII码,即美国标准信息交换码(American Standard Code for Information Interchange)。它已被国际标准化组织(ISO)批准为国际标准,称为ISO-646标准,它适用于所有拉丁文字字母,已在全世界通用。我国相应的国家标准是GB1988(称为《信息处理交换用的七位编码字符集》标准)。
(二)汉字的编码1.GB2312-80汉字编码
1981年我国颁布了《信息交换用汉字编码字符集·基本集》(GB2312-80)。该标准选出6763个常用汉字和682个非汉字字符,为每个字符规定了标准代码,以供这7445个字符在不同计算机系统之间进行信息交换使用。这个标准所收集的字符及其编码称为国际码,又叫做国际交换码。
2.BIG5汉字编码
BIG5汉字编码是我国台湾地区计算机系统中使用的汉字编码字符。它包含了420个图形符号和13070个汉字(不使用简化汉字)。
3.汉字的输入/输出
(1)汉字的输入
汉字输入编码方法大体分成4类。①数字编码,这是一类用一串数字来表示汉字的编码方法,例如电报码、区位码等,它们难以记忆,不易推广。②字音编码,这是一种基于汉语拼音的编码方法,简单易学,适合于非专业人员。缺点是同音字引起的重码多,需增加选择操作。③字形编码,这是将汉字的字形分解归类而给出的编码方法,重码少、输入速度快,但编码规则不易掌握,五笔字形法和表形码就是这类编码。④形音编码,它吸取了字音编码和字形编码的优点,使编码规则简化、重码减少,但掌握起来也不容易。
汉字输入编码与汉字内码、汉字交换码完全是不同范畴的概念,不能把它们混淆起来。
(2)汉字的输出
每一个汉字的字形都必须预先存放在计算机内,一套汉字(例如GB2312国标汉字字符集)的所有字符的形状描述信息集合在一起称为字形信息库,简称字库(font)。不同的字体(如宋体、仿宋、楷体、黑体等)对应着不同的字库。在输出每一个汉字的时假,计算机都要先到字库中去找到它的字形描述信息,然后把字形信息送去输出。
在计算机内汉字的字形主要有两种描述的方法:点阵字形和轮廓字形。
Windows中使用的TrueType字库采用的就是典型的轮廓字形表示方法。点阵字形和轮廓字形这两种类型的字库目前都广泛使用。
(三)通用编码字符集(UCS)与Unicode
1.通用编码字符集(UCS)
ISO/IEC10646,即“通用编码字符集”(Universal Coded Character Set,即UCS),及等同采用该国际标准的中国国家标准GB13000的设计目标,就是实现所有字符在同一字符集中等长编码、同等使用的真正多文种信息处理。UCS规定了全世界现代书面语言文字所使用的所有字符的标准编码。
2.Unicode
通用编码字符集是一个由各种大小字符集组成的编码体系。能容纳足够多的各种字符集,四字节的编码(UCS-4)可以安排13亿个字符。
但是,四字节的字符编码太浪费存储空间了,它也给处理和传输带来了很大不便。因此,在UCS编码空间中把00组的00平面称为基本多文种平面(Basic Multilingual Plane,BMP),并规定,当组编码、平面编码均为00H时可以省略,因此安排在基本多文种平面上的字符只需要使用两个字节来表示,这就形成了一个双字节编码的字符集,它是UCS的子集,记做UCS-2,又称做Unicode(统一码,或联合码)。
3.中日韩统一汉字编码字符集(CJK编码)
UCS(Unicode)中的表意文字部分采用的是中日韩统一汉字编码(称为CJK编码)。所谓汉字的统一编码是指,不论国家和地区,不论汉字的字义有无区别,只要字形相同,该汉字就只有一个代码。
4.GB18030-2000编码
GB18030-2000编码标准在原来的GB2312-1980编码标准和GBK编码标准的基础上进行了扩充,增加了四字节部分的编码。它可以完全映射国际标准ISO10646(UCS)的基本平面和所有辅助平面,共有160多万个码位。
(四)文本1.简单文本(纯文本)
最简单的文本除了可显示/打印的ASCII字符(汉字)及“回车”、“换行”、“制表”等用于格式控制的有限几个ASCII字符之外,几乎不包含任何其他信息。这种文本常常称为纯文本或ASII文本,文件的后缀名是.txt。
2.丰富格式文本
为了使文本能以整齐、醒目、美观、大方的形式展现给用户阅读,人们需要对纯文本进行必要的加工,这个过程称为文本的格式化,或者称为排版。经过上述处理后的文本一般称为“丰富格式文本”(Rich Text Format)。由于属性标志和控制命令并不统一,因此不同的文本处理软件得到的丰富格式文本互不兼容。为了便于不同的丰富格式文本能在不同的软件和系统中互相交换使用,特地提出了一种中间格式,称为RTF格式,所有在PC机上流行的文字处理软件,都可以输入和输出RTF文件,从而达到了文件交换的目的。
超文本(Hypertext)采用一种网状结构(非线性结构)来组织信息。采用这种网状结构,各信息块很容易按照其内容的关系加以组织。它由若干文本块(或其他信息)组成,这些文本块可以是计算机的一个文件或文件的一部分,它们称为“节点”。每个节点都有若干指向其他节点或从其他节点指向该节点的指针,这些指针称为“链”。每个链连接着两个节点,它是有向的,从一个节点(称之为源节点)指向另一个节点(称之为目的节点。链的数量与节点的内容有关,有些节点与其他节点有许多关联,因此它就有许多链;有些节点没有启程链,只能作为目的节点。
节点中的数据不仅可以是文字,而且可以是图形、图像、声音、动画或动态视频,这就把超文本的节点推广到了多媒体的形式,这种基于多媒体信息节点的超文本,有时称为“超媒体”(Hyˉpermedia)。
相关推荐:
北京 | 天津 | 上海 | 江苏 | 山东 |
安徽 | 浙江 | 江西 | 福建 | 深圳 |
广东 | 河北 | 湖南 | 广西 | 河南 |
海南 | 湖北 | 四川 | 重庆 | 云南 |
贵州 | 西藏 | 新疆 | 陕西 | 山西 |
宁夏 | 甘肃 | 青海 | 辽宁 | 吉林 |
黑龙江 | 内蒙古 |