网页抓取：PHP实现网页爬虫方式小结-php手册-php.cn

网页抓取：PHP实现网页爬虫方式小结

WBOY

Release： 2016-06-06 19:47:08

Original

1414 people have browsed it

来源：http://www.ido321.com/1158.html 抓取某一个网页中的内容，需要对DOM树进行解析，找到指定节点后，再抓取我们需要的内容，过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式，如果熟悉JQuery选择器，这几种框架会相当简单。一、Ganon 项目

来源：http://www.ido321.com/1158.html

网页抓取：PHP实现网页爬虫方式小结

抓取某一个网页中的内容，需要对DOM树进行解析，找到指定节点后，再抓取我们需要的内容，过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式，如果熟悉JQuery选择器，这几种框架会相当简单。

一、Ganon

项目地址： http://code.google.com/p/ganon/

文档： http://code.google.com/p/ganon/w/list

测试:抓取我的网站首页所有class属性值是focus的div元素，并且输出class值

<span><?php <span>include</span> <span>'ganon.php'</span>;
 $html = file_get_dom(<span>'http://www.ido321.com/'</span>);
 <span>foreach</span>($html(<span>'div[class="focus"]'</span>) <span>as</span> $element) {
   <span>echo</span> $element-><span>class</span>, <span>"<br>\n"</span>; 
 }
?>

Copy after login

结果:

网页抓取：PHP实现网页爬虫方式小结

二、phpQuery

项目地址：http://code.google.com/p/phpquery/

文档：https://code.google.com/p/phpquery/wiki/Manual

<span><?php <span>include</span> <span>'phpQuery/phpQuery.php'</span>; 
phpQuery::newDocumentFile(<span>'http://www.ido321.com/'</span>); 
$artlist = pq(<span>"article"</span>); 
<span>foreach</span>($artlist <span>as</span> $title){ 
   <span>echo</span> pq($title)->find(<span>'h2'</span>)->html().<span>"<br>"</span>; 
} 
?>

Copy after login

结果：

三、Simple-Html-Dom

项目地址： http://simplehtmldom.sourceforge.net/
文档： http://simplehtmldom.sourceforge.net/manual.htm

测试：抓取我网站首页的所有链接

<span><?php <span>include</span> <span>'simple_html_dom.php'</span>;
<span>//使用url和file都可以创建DOM</span>
$html = file_get_html(<span>'http://www.ido321.com/'</span>);

<span>//找到所有图片</span>
<span>// foreach($html->find('img') as $element)</span>
<span>//        echo $element->src . '<br>';</span>

<span>//找到所有链接</span>
<span>foreach</span>($html->find(<span>'a'</span>) <span>as</span> $element)
       <span>echo</span> $element->href . <span>'<br>'</span>; 
?>

Copy after login

结果：（截图是一部分）

四、Snoopy

项目地址：http://code.google.com/p/phpquery/

文档：http://code.google.com/p/phpquery/wiki/Manual

测试：抓取我的网站首页

<span><?php <span>include</span>(<span>"Snoopy.class.php"</span>);
$url = <span>"http://www.ido321.com"</span>;
$snoopy = <span>new</span> Snoopy;
$snoopy->fetch($url); <span>//获取所有内容</span>
 <span>echo</span> $snoopy->results; <span>//显示结果</span>
<span>// echo $snoopy->fetchtext ;//获取文本内容（去掉html代码）</span>
<span>// echo $snoopy->fetchlinks($url) ;//获取链接</span>
<span>// $snoopy->fetchform ;//获取表单 </span>
?>

Copy after login

结果：