• 技术文章 >后端开发 >php教程

    PHP:preg_replace_callback匹配中文的问题

    2016-06-06 20:46:37原创699
    代码:

    $html = preg_replace_callback("/(?[\x{4e00}-\x{9fa5}]+)/u",array("self","wyc_chinese"),$html);
    ...
    省略
    ...
    public function wyc_chinese($matches)
    {       
        return $matches['chinese'].'(Chinese)';
    }
    

    问题:
    $html为要提取的网页数据
    如果$html是utf8编码的,则以上代码能正常执行(即能正常提取中文),但如果是其他编码的,则没法正常执行(无法匹配到汉字)
    使用iconv转换$html的编码格式,也无法正常提取中文。

    回复内容:

    代码:

    $html = preg_replace_callback("/(?[\x{4e00}-\x{9fa5}]+)/u",array("self","wyc_chinese"),$html);
    ...
    省略
    ...
    public function wyc_chinese($matches)
    {       
        return $matches['chinese'].'(Chinese)';
    }
    

    问题:
    $html为要提取的网页数据
    如果$html是utf8编码的,则以上代码能正常执行(即能正常提取中文),但如果是其他编码的,则没法正常执行(无法匹配到汉字)
    使用iconv转换$html的编码格式,也无法正常提取中文。

    来识别编码是错误的.有些网页没有写meta,对于现代浏览器也会正常显示的(IE6有问题,IE7,IE8没测~)
    应该根据HTTP响应头Content-Type: text/html; charset=UTF-8来判断.如果没有返回charset,就根据内容来自行判断了..
    为了方便,最好将html转换为UTF-8来进行正则匹配.

     [
            'method' => 'GET',
        ],
    ]);
    $html = file_get_contents($remote_url, false, $context);
    
    $html_encoding = mb_detect_encoding($html, ['UTF-8', 'CP936', 'ASCII']);
    
    //转换为UTF-8
    $target_encoding = 'UTF-8';
    $html = $target_encoding === $html_encoding ? $html : mb_convert_encoding($html, $target_encoding, $html_encoding);
    
    //匹配
    $count = preg_match_all('#[\x{4e00}-\x{9fa5}]+#u', $html, $matches);
    
    var_dump($matches);
    

    你这问题的核心是网页编码转换成UTF-8

    你说源编码是"根据meta标签的charset字段来判断的"

    我也是这样子做的, 不过我成功.

    你没给出详尽代码,我不知道是你的代码哪里出错了,还是纯粹是我的人品比你好.

    require_once(__DIR__.'/wp-config.php');
    $resp = wp_remote_get('http://51nb.com/');
    $html = $resp['body'];
    preg_match('@charset=([-a-z0-9_]+)@i',$html,$charset);
    $html = iconv(strtoupper($charset[1]), "UTF-8", $html);
    preg_match_all("@\p{Han}+@u",$html,$m);     
    echo '';
    print_r($m);
    exit;
    

    使用以上代码的iconv

    不使用以上代码的iconv

    声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn核实处理。

    前端(VUE)零基础到就业课程:点击学习

    清晰的学习路线+老师随时辅导答疑

    自己动手写 PHP MVC 框架:点击学习

    快速了解MVC架构、了解框架底层运行原理

    专题推荐:php
    上一篇:PHP:如何进行中英翻译 下一篇:自己动手写 PHP MVC 框架(40节精讲/巨细/新人进阶必看)

    相关文章推荐

    • ❤️‍🔥共22门课程,总价3725元,会员免费学• ❤️‍🔥接口自动化测试不想写代码?• PHP底层的运行机制与原理_PHP教程• 说一说PHP程序开发中的模板选择_PHP• 程序修改有关问题• js表单提交解决方法• 极奇怪的,晓得bug在哪里,但不知道为何会出现这bug
    1/1

    PHP中文网