由编码识别遇到有关问题，思考utf8编码正则表达式（php版本）-php教程-PHP中文网

起因：

最近遇到一件事情，一个接口能够接收传入编码可能是utf-8,gbk 两种。做过编码方面转换的同学应该知道的，是什么编码不会在字符串里面有什么标记位的。不过utf-8编码有特殊性，因此可以通过正则表达式来检查。只要发现是utf-8编码。就转换，不是utf-8就当gbk处理。编码一些常见问题可以查看：由web程序出现乱码开始挖掘(Bom头、字符集与乱码）

行动：

知道这个原理，马上领任务，开始工作。想到php版本有个mbstring模块可以进行编码检测转换：
php//当前编码是gbk$str="中国";$aStrList=array($str,iconv('gbk','utf-8',$str));foreach ($aStrList as $v){	echo mb_convert_encoding($v,'gbk','utf-8,gbk'),"\r\n";}
?
运行结果：
 
?
两个不同编码的“中国”，用一个函数mb_convert_encoding就可以自动转换成gbk编码。首页，尝试用utf-8解码，如果出现问题，就会用gbk转码。看来问题解决了，哈哈，可以交差了……
?
问题：
发布后，平静了几天，突然接到反馈：有中文：”袁小”解码出错。⊙﹏⊙b汗 …… ,想……(难道php内置检测模块有问题，或是我哪里欠缺……)
 
⊙﹏⊙b汗……  看来果然有问题，查询手册：mbstring 模块编码检查，只是识别字符串部分编码，发现与某个字符集匹配上，就认为它属于那种编码。 这不属于它的bug,因为字符串本身没有编码信息标识，没有那个语言能够完全检测通过。 
?
问题：
能不能自己写一个检查正则表达式看下到底怎么样呢？要写正则表达式，首先须了解utf8编码规范，查看：http://zh.wikipedia.org/zh/UTF-8?
目前编码集合只有这样6个维度：php得到维度代码
php//得到utf8字编码各个维度的范围 echo base_convert('1111111',2,16),"\r\n";//维度1echo base_convert('10000000',2,16),base_convert('10111111',2,16),"\r\n";echo base_convert('11000000',2,16),base_convert('11011111',2,16),"\r\n";//维度2echo base_convert('11100000',2,16),base_convert('11101111',2,16),"\r\n";//维度3echo base_convert('11110000',2,16),base_convert('11110111',2,16),"\r\n";//维度4echo base_convert('11111000',2,16),base_convert('11111011',2,16),"\r\n";//维度5echo base_convert('11111100',2,16),base_convert('11111101',2,16),"\r\n";//维度6
运行结果：
通过上面6个维度得到得到对应的正则表达式：
[\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xf7][\x80-\xbf]{3}|[\xf8-\xfb][\x80-\xbf]{4}|[\xfc-\xfd][\x80-\xbf]{5}
以上分别是各个维度范围
php//当前编码是gbk$str="袁";echo urlencode($str);echo is_utf8($str);function is_utf8($str){	///utf8编码正则检测函数	///copyright qq:8292669  http://www.cnblogs.com/chengmo	$re='/^([\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xf7][\x80-\xbf]{3}|[\xf8-\xfb][\x80-\xbf]{4}|[\xfc-\xfd][\x80-\xbf]{5})+$/';	return preg_match($re,$str);}
上面执行结果返回为1，然后”袁“本身应该是gbk编码。看来上面函数还是不能彻底检查utf8编码。分析原因，从上面正则可以看到，utf8的6个维度对应字节长度从1-6字节。 而gbk是1-2个字节。因此他们之间会在1-2个字节长度地方检查出现重合。1个字节的时候gbk与utf8的 编码与字符对应关系都一样，但是2个字节时候，对应编码与字符各不相同。
?
通过查询gbk编码表：http://www.knowsky.com/resource/gb2312tbl.htm 进一步确认，范围会在：
[c0-df][a0-bf]  之内汉字都会有问题了。 如果纯这个范围的汉字组合为字符串就会出现判断不了情况。如果它与其它范围字符组合都可以正确的判断出来。
?
GBK与UTF8字符集重叠对应的字符是：（gbk编码表）
?
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
convert fContents gbk utf utf8 PHP课程 HTML视频教程 CSS视频 JS视频教程 Vue视频教程

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn核实处理。

上一条：求对二组数字按要求排序下一条：Editplus 配备 php

编程学习群
技术答疑交流

关注公众号
获取学习资源

相关文章
查看更多

PHP和coreseek搭配，开发高效的电影搜索引擎

如何使用PHP和Xunsearch进行搜索结果的跟踪和日志分析

PHP百度翻译API实现阿拉伯语到日语的快速翻译技巧分享

如何通过减少服务器响应时间提高PHP网站的访问速度？

如何使用PHP进行版本控制和团队协作

热门课程

TP6.0 搭建个人博客实战（玉女心经版）

￥71
￥79

已抢186029个
抢

php mysql实战：学生信息管理系统（玉女心经版）

￥89
￥99

已抢67045个
抢

CSS视频教程-玉女心经版

￥62
￥69

已抢352485个
抢

JavaScript极速入门_玉女心经系列

￥62
￥69

已抢666400个
抢

零基础php开发视频教程VIP视频课

￥99
￥299

已抢121038个
抢

前端基础到实战（HTML5+CSS3+ES6+NPM）

￥800
￥1200

已抢21813个
抢

打开APP，随时随地在线学习！

首页

课程

文章

问答

博客

词典

手册

资源

搜索

APP下载

PHP培训新

首页

课程

路径

文章

PHP培训

精品课

下载