ホームページ > よくある問題 > utf8 でエンコードされた中国語の文字は何バイトを占めますか?

utf8 でエンコードされた中国語の文字は何バイトを占めますか?

青灯夜游
リリース: 2023-02-21 11:40:52
オリジナル
16558 人が閲覧しました

utf8 でエンコードされた中国語の文字は 3 バイトを占めます。 UTF-8 エンコードでは、1 つの中国語文字は 3 バイトに相当し、1 つの中国語の句読点は 3 バイトを占めますが、Unicode エンコードでは、1 つの中国語文字 (繁体字中国語を含む) は 2 バイトに相当します。 UTF-8 は各文字のエンコードに 1 ~ 4 バイトを使用します。1 つの US-ASCIl 文字のエンコードには 1 バイトのみが必要です。ラテン語、ギリシャ語、キリル文字、アルメニア語、および発音区別符号付きのヘブライ語。アラビア語、シリア語およびその他の文字は 2 バイトが必要です。エンコーディング。

utf8 でエンコードされた中国語の文字は何バイトを占めますか?

このチュートリアルの動作環境: Windows 7 システム、Dell G3 コンピューター。

utf-8 でエンコードされた中国語の文字は何バイトを占めますか?

UTF-8 エンコードでは、1 つの中国語文字は 3 バイトに相当し、中国語の句読点は 3 バイトを占めます。

英語の 1 文字は 1 バイトに相当し、英語の句読点は 1 バイトを占めます。

Unicode エンコード: 1 つの英語コードは 2 バイトに相当し、1 つの中国語文字 (繁体字中国語を含む) は 2 バイトに相当します。中国語の句読点は 2 バイトを占め、英語の句読点は 2 バイトを占めます。

utf8 でエンコードされた中国語の文字は何バイトを占めますか?

UTF-8 は、各文字のエンコードに 1 ~ 4 バイトを使用します:

1. 1 つの US-ASCIl 文字は 1 バイトのエンコードのみが必要です (Unicode 範囲はU 0000〜U 007F)。

2. ラテン語、ギリシャ語、キリル文字、アルメニア語、ヘブライ語、アラビア語、シリア語、および発音区別符号が付いたその他の文字には 2 バイトのエンコードが必要です (Unicode 範囲は U 0080 ~ U 07FF で表されます)。

3. 他の言語の文字 (中国語、日本語、韓国語の文字、東南アジアの文字、中東の文字など) には、最も一般的に使用される文字が含まれており、3 バイトのエンコーディングが使用されます。

4. まれに使用されるその他の言語文字は 4 バイト エンコードを使用します。

拡張知識:

UTF-8 (8 ビット、ユニバーサル文字セット/Unicode 変換形式) は、Unicode の可変長文字エンコーディングです。 Unicode 標準の任意の文字を表すために使用でき、そのエンコードの最初のバイトは依然として ASCII と互換性があるため、ASCII 文字を処理する元のソフトウェアは、変更なし、またはわずかな変更のみで引き続き使用できます。したがって、電子メール、Web ページ、およびテキストを保存または送信するその他のアプリケーションでは、このエンコーディングが徐々に推奨されるようになりました。

文字セット:

UTF-8 エンコード規則: 1 バイトのみの場合、値は 0x00 ~ 0x7F です。残りのバイトは、長さに応じて次のように展開されます。

UTF-8 は、UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4 という 4 つのエンコード方式で実装されます。その中には:

UTF8-20xC2-0xDF #UTF8-30xA0-0xBFUTF8-40x90-0xBF注: 各エンコードには複数のエンコード範囲があり、各エンコード範囲のスペースがそれぞれの区切り文字として使用される場合があります。バイト。たとえば、UTF8-3 の最初のエンコードでは、最初のバイトの値が 0xE0、2 番目のバイトの範囲が 0xA0 ~ 0xBF、3 番目のバイトの範囲が 0x80 ~ 0xBF である必要があります。
UTF8、16 進エンコーディング テーブル
##UTF8-1
0x00- 0x7F
0x80-0xBF
0xE0
0x80-0xBF
0xE1- 0xEC 0x80-0xBF
0x80-0xBF
0xED 0x80-0x9F
0x80-0xBF
0xEE-0xEF 0x80-0xBF
0x80-0xBF
0xF0
0x80-0xBF
0x80 -0xBF0xF1-0xF3 0x80-0xBF
0x80-0xBF
0x80-0xBF0xF4 0x80- 0x8F
0x80-0xBF
0x80-0xBF
関連知識の詳細については、

FAQ

列をご覧ください。

以上がutf8 でエンコードされた中国語の文字は何バイトを占めますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
関連するチュートリアル
人気のおすすめ
最新のコース
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート