GBK編碼,是GB2312編碼的擴展,因此完全相容於GB2312-80標準。 GBK編碼仍採用雙位元組編碼方案,其編碼範圍:8140-FEFE(高位元組從81到FE,低位元組從40到FE),剔除xx7F碼位,共23940個碼位。
GBK編碼共收錄漢字和圖形符號21886個,其中漢字(包括部首和構件)21003個,圖形符號883個。 GBK編碼支援國際標準ISO/IEC10646-1和國家標準GB13000-1中的全部中日韓漢字,並包含了BIG5編碼中的所有漢字。 GBK編碼方案於1995年12月15日正式發布,此版的GBK規格為1.0版。
一、碼位分配及順序
#GBK 也採用雙位元組表示,整體編碼範圍為8140-FEFE,首字節在81-FE 之間,尾位元組在40-FE 之間,剔除xx7F 一條線。總計 23940 個碼位,共收入 21886 個漢字和圖形符號,其中漢字(包括部首和構件)21003 個,圖形符號 883 個。
全部編碼分為三大部分:
1、漢字區。
包括:
a. GB 2312 漢字區。即 GBK/2: B0A1-F7FE。收錄 GB 2312 漢字 6763 個,依原順序排列。
b. GB 13000.1 擴充漢字區。包括:
(1)、 GBK/3: 8140-A0FE。收錄 GB 13000.1 中的 CJK 漢字 6080 個。
(2) 、GBK/4: AA40-FEA0。收錄 CJK 漢字和增補的漢字 8160 個。 CJK 漢字在前,按 UCS 碼大小排列;增補的漢字(包括部首和構件)在後,按《康熙字典》的頁碼/字位排列。
(3) 、漢字「〇」安排在圖形符號區GBK/5:A996。
2、圖形符號區。
包括:
a. GB 2312 非漢字符號區。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符號外,還有 10 個小寫羅馬數字和 GB 12345 增補的符號。計號 717 個。
b. GB 13000.1 擴充非漢字區。即 GBK/5: A840-A9A0。 BIG-5 非漢字符號、結構符和「〇」排列在此區。計符號 166 個。
3、 使用者自訂區:
分為(1)(2)(3)三個小區。
(1)、 AAA1-AFFE,碼位 564 個。
(2) 、F8A1-FEFE,碼位 658 個。
(3) 、A140-A7A0,碼位 672 個。
第(3)區儘管對使用者開放,但限制使用,因為不排除未來在此區域增補新字元的可能性。
二、字形
GBK 對字形作瞭如下的規定:
1. 原則上與GB 13000.1 G列(即源自中國大陸法定標準的漢字)下的字形/筆形保持一致。
2. 在CJK 漢字認同規則的總框架內,對所有的GBK 編碼漢字實施「無重碼正形」(「GB 化」);即在不造成重碼的前提下,盡量採用中國新字形。
3. 對於超出 CJK 漢字認同規則的、或認同規則尚未明確規定的漢字,在 GBK 碼位上暫安放舊字形。這樣,在許多情況下 GBK 收入了同一漢字的新舊兩種字形。
4. 非漢字符號的字形,凡 GB 2312 已經包括的,與 GB 2312 保持一致;超出 GB 2312 的部分,與 GB 13000.1 保持一致。
5. 帶有聲調的拼音字母取半角形式。
以上是gbk編碼的範圍是多少?的詳細內容。更多資訊請關注PHP中文網其他相關文章!