首頁 > php教程 > php手册 > 主體

PHP在GB2312编码下截断字符串

WBOY
發布: 2016-06-06 19:45:23
原創
1073 人瀏覽過

GB2312编码下一个汉字用strlen统计出来的长度为2,那么用substr来截断字符串可能会出现把一个汉字的一半给截掉了,那样就会出现乱码。 首先想到的是按偶数个截断,其实这样思考也是不完善的,因为如果截出来的子串中有一个半角字符,那样还是会出现如上的问

GB2312编码下一个汉字用strlen统计出来的长度为2,那么用substr来截断字符串可能会出现把一个汉字的一半给截掉了,那样就会出现乱码。

首先想到的是按偶数个截断,其实这样思考也是不完善的,因为如果截出来的子串中有一个半角字符,那样还是会出现如上的问题,这个时候地判断子串中包含多少个半角字符,如果是偶数个就按上面的方法解决,如果是奇数个,那就要多截一个或少截一个字符,这样就不会乱码。

其实我首先想到的使用mb_strlen和mb_substr来截,但是我发现我的php文件不是UNICODE编码,那么在这这文件中写的php代码用这两个函数返回的值都是不正确,所以这种方法只在unicode编码可取。

统计半角符号的方法是,从32到127这些ASCII码都是办法,写个函数:

function singleByteCharCount($str) {
	$cnt = 0;
	for ($i = 0; $i  127) {
			continue;
		}
		$cnt++;
	}
	return $cnt;
}
登入後複製

相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門推薦
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!