详细介绍PHP+JavaScript如何爬取网页内容-php教程-PHP中文网

详细介绍PHP+JavaScript如何爬取网页内容

零到壹度2018-04-11 17:27:38原创

本篇文章给大家分享的内容是详细介绍PHP+JavaScript如何爬取网页内容，有着一定的参考价值，有需要的朋友可以参考一下

php+js爬取网页内容—–先看下效果

我的网站目标网站

如何做到的呢？

我们一直以为只有Python才能爬取网页内容，那是因为Python本身集合很多类库用来爬取网页很方便，但是我们使用PHP+js的方法一样很方便，一样可以拿到我们想要的网页内容，而且也不用很繁琐。

首先我们需要PHP来模拟请求获取整个网站的HTML

  // 允许所有域访问
  header("Access-Control-Allow-Origin: *");
  / 接收一个参数，参数名叫parm
  $parm=$_GET['mod'];
  if (empty($parm)) {  
    $url = 'http://m.80s.tw/';//目标网站
    $html = file_get_contents($url);
}else{  
  $url = 'http://m.80s.tw/'.$parm;    
  $html = file_get_contents($url);
} 
    preg_match("/<body[^>]*?>(.*\s*?)<\/body>/is",$html,$match1);//正则匹配body里面的内容
    echo $match1[0];//输出网页

注意：如果遇到 file_get_contents报错请尝试在 php.ini中找到extension=php_openssl.dll 开启就OK了

然后就是前端来获取数据进行处理了

首先写个异步请求

$.ajax({ 
        type:'get',
        url: '.././admin/test.php',
        success: function(data) {
        console.log(data)//可以看到获取的HTML，很简单吧，很兴奋吧
        }
    });

获取HTML后我们就可以随心所欲了

怎么来使用这些HTML呢？这是问题吗？不是

        //首先创建一个容器
        var p = document.createElement('p');        
        // 把整个html的字符串存到这个p节点里
        p.innerHTML = data;        
        //然后就可以对p一顿检查了
        //比如获取类list_mov_title下所有的a标签
        var list = p.querySelectorAll('.list_mov_title a');        
        //赶紧打印出来看一下
        console.log(list)        
        //想要的东西都在吧
        //然后就把想要的东西往自己的页面里面塞吧

一个爬取网页内容的教程就这样结束了，如果你豁然开朗了就转发一下吧，不明白的就留言吧

以上就是详细介绍PHP+JavaScript如何爬取网页内容的详细内容，更多请关注php中文网其它相关文章！

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn核实处理。

专题推荐：PHP，JavaScript 网页

上一篇：nginx下启动php-fpm出现错误的原因以及解决方案下一篇：详解在阿里云上部署PHP后端的方法

独孤九贱(3)_JavaScript视频教程

javascript是运行在浏览器上的脚本语言，连续多年，被评为全球最受欢迎的编程语言。是前端开发必备三大法器中，最具杀伤力。如果前端开发是降龙十八掌，好么javascript就是第18掌：亢龙有悔。没有它，你的前端生涯是不完整的。《php.cn独孤九贱（3）－JavaScript视频教程》课程特色：php中文网原创幽默段子系列课程，以恶搞，段子为主题风格的php视频教程！轻松的教学风格，简短的教学模式，让同学们在不知不觉中，学会了javascript知识。

独孤九贱(6)_jQuery视频教程

jQuery是一个快速、简洁的JavaScript框架。设计的宗旨是“write Less，Do More”，即倡导写更少的代码，做更多的事情。它封装JavaScript常用的功能代码，提供一种简便的JavaScript设计模式，优化HTML文档操作、事件处理、动画设计和Ajax交互。核心特性可以总结为：具有独特的链式语法和短小清晰的多功能接口；具有高效灵活的css选择器，并且可对CSS选择器进行扩展；拥有便捷的插件扩展机制和丰富的插件。兼容各种主流浏览器，如IE 6.0+、FF 1.5+、Safari 2.0+、Opera 9.0+等,是全球最流行的前端开发框架之一。PHP中文网根据最新版本,独家录制jQuery最新视频教程,回馈PHP中文网的新老用户。

jQuery与Ajax基础与实战

jQuery是最流行的JS函数库，封装了许多实用的功能,其中最引人入胜的就是Ajax。 jQuery中的Ajax操作,语法简单,操作方便，使Ajax从未如此轻松，前端人员从此不再为与服务器异步交互而发愁,本套课程,精选了最常用的几个方法，从基本的语法到每个参数，再到具体实例进行了全面的讲解。

Git教程(60分钟全程无废话版)

Git 是一个开源的分布式版本控制系统，用于敏捷高效地处理任何或小或大的项目。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。 Git 与常用的版本控制工具 CVS, Subversion 等不同，它采用了分布式版本库的方式，不必服务器端软件支持