西文字符的编码
西文是由拉丁字母、数字、标点符号及一些特殊符号所组成的,它们统称为字符。所有字符的集合称为字符集。字符集有多种,每一字符集的编码方法也多种多样。目前计算机中使用最广泛的西文字符集及其编码是ASCII码,即美国标准信息交换码。每个字符都由7个二进位表示。
ASCII码是7位的编码,但由于字节是计算机中的基本处理单位,故一般仍以一字节来存放一个ASCII字符。
GB 2312汉字编码
1981年我国颁布了第一个汉字编码的国家标准——《信息交换汉字编码字符集·基本集》(GB 2312)。该标准选出6 763个常用汉字和682个非常用汉字字符,为每个字符规定了标准代码,这个标准所收集的字符及其编码为国标码,又称为国标交换码。
GB 2312国标字符集由3部分组成。第一部分是字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个;第二部分为一级常用汉字,共3 755个,按汉语拼音排列;第三部分为二级常用汉字,共3 008个,因不太常用,所以按偏旁部首列。
GB 2312的所有字符分布在一个94行×94列的二维平面内,行号称为区号,列号称为位号。区号和位号的组合就可以作为汉字字符的编码,称为汉字的区位码。
区号和位号各用8个二进位表示,它们的最高位均设置为1。这样得到的高位匀为1的双字节汉字编码就称为GB 2312汉字的“机内码”,又称为内码。PC中GB 2312汉字的表示都采用这种方式。
GBK汉字内码扩充规范
GBK是我国1995年发布的又一个汉字编码标准,全称为《汉字内码扩展规范》。
UCS/Unicode与GB 18030编码标准
UCS/Unicode规定,全世界现代书面文字所使用的所有字符和符号都集中在一个字符集中统一进行编码。目前的做法是采用双字节编码。
文稿的输入
汉字输入的编码方法大体可分成以下4类:
1. 数字编码。
2. 字音编码。
3. 字形编码。
4.音形混合编码。
文本的编辑与排版
文本编辑就是对已输入的文字内容进行增加、删除或修改,直到满意为止。使用文字处理软件(如Word、WPS等)。
相关推荐:
北京 | 天津 | 上海 | 江苏 | 山东 |
安徽 | 浙江 | 江西 | 福建 | 深圳 |
广东 | 河北 | 湖南 | 广西 | 河南 |
海南 | 湖北 | 四川 | 重庆 | 云南 |
贵州 | 西藏 | 新疆 | 陕西 | 山西 |
宁夏 | 甘肃 | 青海 | 辽宁 | 吉林 |
黑龙江 | 内蒙古 |