• 技术文章 >后端开发 >php教程

    详细介绍PHP+JavaScript如何爬取网页内容

    零到壹度零到壹度2018-04-11 17:27:38原创4709

    本篇文章给大家分享的内容是详细介绍PHP+JavaScript如何爬取网页内容,有着一定的参考价值,有需要的朋友可以参考一下

    php+js爬取网页内容—–先看下效果

    我的网站目标网站

    如何做到的呢?

    我们一直以为只有Python才能爬取网页内容,那是因为Python本身集合很多类库用来爬取网页很方便,但是我们使用PHP+js的方法一样很方便,一样可以拿到我们想要的网页内容,而且也不用很繁琐。

    首先我们需要PHP来模拟请求获取整个网站的HTML

      // 允许所有域访问
      header("Access-Control-Allow-Origin: *");
      / 接收一个参数,参数名叫parm
      $parm=$_GET['mod'];
      if (empty($parm)) {  
        $url = 'http://m.80s.tw/';//目标网站
        $html = file_get_contents($url);
    }else{  
      $url = 'http://m.80s.tw/'.$parm;    
      $html = file_get_contents($url);
    } 
        preg_match("/<body[^>]*?>(.*\s*?)<\/body>/is",$html,$match1);//正则匹配body里面的内容
        echo $match1[0];//输出网页
    注意:如果遇到 file_get_contents报错请尝试在 php.ini中找到extension=php_openssl.dll 开启就OK了

    然后就是前端来获取数据进行处理了

    首先写个异步请求

    $.ajax({ 
            type:'get',
            url: '.././admin/test.php',
            success: function(data) {
            console.log(data)//可以看到获取的HTML,很简单吧,很兴奋吧
            }
        });

    获取HTML后我们就可以随心所欲了

    怎么来使用这些HTML呢?这是问题吗?不是
            //首先创建一个容器
            var p = document.createElement('p');        
            // 把整个html的字符串存到这个p节点里
            p.innerHTML = data;        
            //然后就可以对p一顿检查了
            //比如获取类list_mov_title下所有的a标签
            var list = p.querySelectorAll('.list_mov_title a');        
            //赶紧打印出来看一下
            console.log(list)        
            //想要的东西都在吧
            //然后就把想要的东西往自己的页面里面塞吧

    一个爬取网页内容的教程就这样结束了,如果你豁然开朗了就转发一下吧,不明白的就留言吧

    以上就是详细介绍PHP+JavaScript如何爬取网页内容的详细内容,更多请关注php中文网其它相关文章!

    声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn核实处理。
    专题推荐:PHP,JavaScript 网页
    上一篇:nginx下启动php-fpm出现错误的原因以及解决方案 下一篇:详解在阿里云上部署PHP后端的方法
    VIP课程(WEB全栈开发)

    相关文章推荐

    • 【活动】充值PHP中文网VIP即送云服务器• 一个有趣的命令:php -S(小技巧分享)• 2022最新浅析PHP特性、内核及架构• 学习phpcms开源产品如何入手 • PHP命名空间和自动加载类• PHP开发者常犯的MySQL错误
    1/1

    PHP中文网