为什么在UTF-8下 strlen 把中文字符算成 3 个字节?中文不是2个字节？-PHP中国語ネットワークQ&A

記事特集学ぶダウンロードに質問プログラミング辞典ゲーム最近の更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

为什么在UTF-8下 strlen 把中文字符算成 3 个字节?中文不是2个字节？

phpcn_u41

phpcn_u41 2016-11-11 13:41:19

0

2

1747

phpcn_u41

phpcn_u41

全員に返信 (2)

数据分析师2017-09-30 22:39:24 2棟

UTF-8 では、strlen が中国語の文字を 2 バイトではなく 3 バイトとしてカウントするのはなぜですか? - PHP 中国語 Web サイト Q&A - UTF-8 では、strlen が中国語の文字を 2 バイトではなく 3 バイトとしてカウントするのはなぜですか? -PHP中国語サイトQ&A

ぜひ見て学んでください。

いいねを押す+0

返信を追加

阿神2016-12-19 11:52:06 1棟

在UTF-8字符集中一个中文字
占2个字节的：0个
占3个字节的：基本等同于GBK，含21000多个汉字
占4个字节的：中日韩超大字符集里面的汉字，有5万多个

UTF-8是一种Unicode编码方式。他是一种不等幅的编码方式，UTF-8编码的字节长度取决于所要编码的字符在ISO 10646中的编码值。在UTF-8中，不同的字符，可能需要1-6个字节来进行编码。对于单字节的UTF-8编码，该字节的最高位为0，其余7位用来对字符进行编码（等同于ASCII码）。对于多字节的UTF-8编码，如果编码包含n个字节，那么第一个字节的前n位为1，第一个字节的第n+1位为0，该字节的剩余各位用来对字符进行编码。在第一个字节之后的所有的字节，都是最高两位为"10"，其余6位用来对字符进行编码。

例如“未”字，其编码为:0xE69CAA,转换为二进制为:1110 0110 1001 1100 1010 1010，从这里可以看出，该字在UTF-8编码下本身就是3个字节。

所以，在UTF-8中，一个中文字并不是2个字节，而是超过了两个字节。并不是所有的中文字最后结尾都是0xAA。

いいねを押す+1

返信を追加

人気のトピック

詳細>

人気の記事

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート

私たちについて免責事項 Sitemap: PHP中国語ウェブサイト：福祉オンライン PHP トレーニング，PHP 学習者の迅速な成長を支援します！