GB18030 字符集与编码

GB18030 是 GB2312 后新的国家标准.

GB18030 前后发布了三个标准:

  • 2000 年发布的 GB18030-2000
  • 2005 年发布的 GB 18030-2005(<<信息技术 中文编码字符集>>),
  • 2022 年发布的 GB 18030-2022(最新的, 截至 2025)

更多了解可参考百度百科 http://baike.baidu.com/view/889058.htm.

官网见 信息技术 中文编码字符集(Information technology—Chinese coded character set) GB 18030-2022

注: 这个文件比较大.

对于多数用户而言, 无需了解太多, 这里也不打算详细介绍, 下面是一些简介(针对 GB18030-2005):

  1. 它也是一个多字节编码方案, 有一, 二, 四字节三种变长组合.
  2. 它的编码空间很大, 高达 160 万(约数), 这甚至超过了 Unicode 规定的 110 万(约数).
  3. 它兼容 GB2312, 基本兼容 GBK(只有很少几处不同).
  4. 它收录高达 7 万多的汉字, Unicode 中的 CJK 统一汉字, CJK 统一汉字扩充 A, CJK 统一汉字扩充 B 均收录了进来.
  5. 它还支持许多少数民族如藏, 蒙古, 彝, 维吾尔等的文字.

对于普通用户, 超大字符集很少用到, 通常情况下, 如 Windows 系统下你可能要安装 GB18030 的相关插件才能处理及显示那些增补的字符, 一般系统默认情况也不会安装能支持完整显示 GB18030 全体字符的字体.

GB18030 作为一个强制标准, 但由于采用了高达四字节的情形, 无论是操作系统还是各种应用软件, 可能涉及许多调整才能很好地支持, 这决不是一件简单的事情.

作为国际性标准的 Unicode, BMP 以外的字符的处理与显示都还有很多不完善, 所以如果 GB18030 没有得到很好的支持, 那也不足为奇了.

results matching ""

    No results matching ""