博主信息
Sky
博文
291
粉丝
0
评论
0
访问量
7324
积分:0
P豆:617

学习PHP中有趣的字符集国际化验证功能

2021年10月18日 21:13:50阅读数:13博客 / Sky

今天的内容非常简单,不过也很有趣。不知道大家有没有经历过这样的事情,就是在某些字体下,0 和 O 不好区分,1 和 l 也是很难看清楚。当然,现在大部分的编辑器和 IDE 的默认字体都是会选择那些比较好区分这些相似字符的,比如给 0 中间加上个斜杠或者一个点之类的。在 PHP 中也有这样的函数能够帮助我们来检查是否有这样的不好区分的字符存在。

类似字符检测

$checker = new Spoofchecker();var_dump($checker->areConfusable('google.com', 'goog1e.com')); // truevar_dump($checker->areConfusable('google.com', 'g00g1e.com')); // false

Spoofchecker 类就是用来进行这类检测的类,它的 areConfusable() 方法就能够帮助我们检测两个字符串中是否有相似的字符。比如我们第一个测试代码中,l 和 1 ,如果不仔细看还真有可能认错。第二段检测代码返回的 false ,说明不存在非常相似的字符,但如果我们将第一个字符串中的小写的 o 换成大写的 O 的话,这段也会返回 true 。大家可以自己测试一下。

可疑字符检测

另外,我们可以使用 Spoofchecker 类的另一个方法来检测字符串中是否有可疑的字符。

var_dump($checker->isSuspicious('google.com')); // FALSEvar_dump($checker->isSuspicious('Рaypal.com')); // TRUE

为什么 Paypal.com 会返回 true 呢?它哪里可疑了?

其实 isSuspicious() 检测是字符串中的各个字符是否来自不同的 Unicode 字符。大写的 P 是有可能来自于 Cyrylic 这个 Unicode 字符集中,不一定是拉丁字符的那个 P 。当然,手机靓号转让这方面的知识做为中国人的我们并不是太了解,除了专门学外语专业或者学习过字母源头相关知识的朋友可能会比较清楚。

不同区域语言中的效果

既然是国际化的类和方法,那么如果我们修改区域语言,检测的结果会有不同吗?

$checker->setAllowedLocales('zh_CN');var_dump($checker->areConfusable('google.com', 'goog1e.com')); // truevar_dump($checker->areConfusable('google.com', 'g00g1e.com')); // falsevar_dump($checker->isSuspicious('google.com')); // TRUEvar_dump($checker->isSuspicious('Рaypal.com')); // TRUE

使用 Spoofchecker 的 setAllowedLocales() 方法可以为 Spoofchecker 的操作设置当前的区域语言信息。在设置为中文后,isSuspicious() 返回的内容都是 TRUE 了,毕竟采用的字符集不同了,都不会走默认的拉丁字符集了。

总结

好吧,这篇文章真的只是为了有趣。在实际的业务中,如果我们要做一些文章、代码校验的功能,或许 areConfusable() 能够为我们提供一些便利。大家还是以了解的态度试着玩玩吧!

版权申明:本博文版权归博主所有,转载请注明地址!如有侵权、违法,请联系admin@php.cn举报处理!

全部评论

文明上网理性发言,请遵守新闻评论服务协议

条评论
  • PHP 非常丰富,包括很多我们可都不知道东西其实都非常用,比如说今天要介绍这一系列排序和比较