为什么在UTF-8下 strlen 把中文字符算成 3 个字节?中文不是2个字节？-PHP 중국어 네트워크 Q&A

기사 주제 학습 다운로드 Q&A 프로그래밍 사전 게임 최근 업데이트

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

为什么在UTF-8下 strlen 把中文字符算成 3 个字节?中文不是2个字节？

phpcn_u41

phpcn_u41 2016-11-11 13:41:19

0

2

1745

phpcn_u41

phpcn_u41

모든 응답 (2)

数据分析师2017-09-30 22:39:24 2층

strlen이 UTF-8에서 한자를 3바이트로 계산하는 이유는 무엇입니까? -PHP 중국어 웹사이트 Q&A-strlen이 UTF-8에서 한자를 3바이트로 계산하는 이유는 무엇입니까? -PHP 중국어 홈페이지 Q&A

꼭 보고 배워보세요.

좋다+0

답글 추가

阿神2016-12-19 11:52:06 1층

在UTF-8字符集中一个中文字
占2个字节的：0个
占3个字节的：基本等同于GBK，含21000多个汉字
占4个字节的：中日韩超大字符集里面的汉字，有5万多个

UTF-8是一种Unicode编码方式。他是一种不等幅的编码方式，UTF-8编码的字节长度取决于所要编码的字符在ISO 10646中的编码值。在UTF-8中，不同的字符，可能需要1-6个字节来进行编码。对于单字节的UTF-8编码，该字节的最高位为0，其余7位用来对字符进行编码（等同于ASCII码）。对于多字节的UTF-8编码，如果编码包含n个字节，那么第一个字节的前n位为1，第一个字节的第n+1位为0，该字节的剩余各位用来对字符进行编码。在第一个字节之后的所有的字节，都是最高两位为"10"，其余6位用来对字符进行编码。

例如“未”字，其编码为:0xE69CAA,转换为二进制为:1110 0110 1001 1100 1010 1010，从这里可以看出，该字在UTF-8编码下本身就是3个字节。

所以，在UTF-8中，一个中文字并不是2个字节，而是超过了两个字节。并不是所有的中文字最后结尾都是0xAA。

좋다+1

답글 추가

인기 주제

더>

인기 기사

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿

회사 소개 부인 성명 Sitemap: PHP 중국어 웹사이트：공공복지 온라인 PHP 교육，PHP 학습자의 빠른 성장을 도와주세요！