首頁 > 常見問題 > utf8編碼漢字佔多少位元組

utf8編碼漢字佔多少位元組

青灯夜游
發布: 2023-02-21 11:40:52
原創
16556 人瀏覽過

utf8編碼漢字佔3個位元組。在UTF-8編碼中,一個中文等於三個位元組,一個中文標點佔三個位元組;而在Unicode編碼中,一個中文(含繁體)等於兩個位元組。 UTF-8使用1~4位元組為每個字元編碼,一個US-ASCIl字元只需1位元組編碼,帶有變音符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文等字母則需要2位元組編碼。

utf8編碼漢字佔多少位元組

本教學操作環境:windows7系統、Dell G3電腦。

utf-8編碼漢字佔幾個位元組?

在UTF-8編碼中:一個中文等於三個位元組,中文標點佔三個位元組。

一個英文字元等於一個位元組,英文標點佔一個位元組。

Unicode編碼:一個英文等於兩個字節,一個中文(含繁體)等於兩個位元組。中文標點佔兩個字節,英文標點。

utf8編碼漢字佔多少位元組

UTF-8使用1~4位元組為每個字元編碼:

1、一個US-ASCIl字元只需1位元組編碼( Unicode範圍由U 0000~U 007F)。

2、帶有變音符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文等字母則需要2位元組編碼(Unicode範圍由U 0080~U 07FF)。

3、其他語言的字元(包括中日韓文字、東南亞文字、中東文字等)包含了大部分常用字,使用3位元組編碼。

4、其他極少使用的語言字元使用4位元組編碼。

擴充知識:

UTF-8(8位,Universal Character Set/Unicode Transformation Format)是針對Unicode的一種可變長度字元編碼。它可以用來表示Unicode標準中的任何字符,而且其編碼中的第一個字節仍與ASCII相容,使得原來處理ASCII字符的軟體無須或只進行少部分修改後,便可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字的應用中,優先採用的編碼。

字元集:

UTF-8編碼規則:如果只有一個位元組則取值為0x00-0x7F。其餘位元組依長度進行以下拓展:

UTF-8由4種編碼方式實現,即UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4  。其中:

0x80-0xBFUTF8-4
UTF8, 16進位編碼表
#UTF8-1
##0x00- 0x7F
UTF8-2
0xC2-0xDF
0x80-0xBF
#UTF8-3
#0xE0
0xA0-0xBF 0x80-0xBF
#0xE1- 0xEC
0x80-0xBF 0x80-0xBF
0xED
0x80-0x9F 0x80-0xBF
0xEE-0xEF
0x80-0xBF#0xEE-0xEF
0x80-0xBF
0xF0 0x90-0xBF 0x80-0xBF
0x80-0xBF
0xF1-0xF3 0x80-0xBF 0x80-0xBF
0x80-0xBF
0xF4 0x80- 0x8F 0x80-0xBF
0x80-0xBF

註:每種編碼可能有多個編碼範圍,每個編碼範圍間,以空格作為每個位元組的分隔符號。例如UTF8-3的第一個編碼,其第一個位元組取值必須為0xE0,第二個位元組範圍為0xA0-0xBF,第三個位元組為0x80-0xBF。 更多相關知識,請造訪

常見問題###欄位! ###

以上是utf8編碼漢字佔多少位元組的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板