python - utf8编码规则会受制于Unicode实际的字符对应吗？-PHP 중국어 네트워크 Q&A

기사 주제 학습 다운로드 Q&A 프로그래밍 사전 게임 최근 업데이트

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

python - utf8编码规则会受制于Unicode实际的字符对应吗？

迷茫 2017-04-17 14:52:32

0

1

401

我用python 写
'\xF5\x90\x90\x90'.decode('utf8')
但是报错了：

UnicodeDecodeError: 'utf8' codec can't decode byte 0xf5 in position 0: invalid start byte

问题是：\xF5\x90\x90\x90是个标准的四字节的utf8编码的字符啊
转换成二进制就是11110101 10010000 10010000 10010000
完全符合utf8编码规则：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

我把\xF5换成\xF2就没有问题了，也就是11110010开头，难道是因为Unicode实际上没有用到这么多的字符，所以不能decode('utf8')？但是规则是对的呀，万一哪天Unicode又扩充了很多字符集，那python的decode()函数岂不是要更新了？

迷茫

业精于勤，荒于嬉;行成于思，毁于随。

모든 응답 (1)

Peter_Zhu2017-04-17 14:54:32 1층

因为Unicode的范围是0x0000-0x10FFFF，我测试了一下，python中比规范更为宽松，最大支持到0xFFFFF,而你题目中输的已经超过这个范围所以报错了。
附：UTF-8标准 RFC3629

좋다+0

답글 추가

인기 주제

더>

인기 기사

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿

회사 소개 부인 성명 Sitemap: PHP 중국어 웹사이트：공공복지 온라인 PHP 교육，PHP 학습자의 빠른 성장을 도와주세요！