社区学习工具库休闲

简体中文

首页 > 后端开发 > php教程 > 简述php关于网页元素抓取方面的技术

简述php关于网页元素抓取方面的技术

WBOY

发布： 2016-06-23 13:56:33

原创

954 人浏览过

对于php抓取网页的内容，可能比较难的就是dom解析这一部分了，这儿的话有几种技术推荐给大家，具体使用哪种就看自己的喜欢了

1.php自带的xpath解析技术

xpath的话具体可以百度一下他的用法，我只举几个简单的例子，废话不多说，代码如下

error_reporting(0);
$url='http://www.baidu.com';//此处写抓取的网页的网址，我随便写的
$html=file_get_contents($url);
$dom=new DOMDocument;
$dom->loadHTML($html);
$xml=simplexml_import_dom($dom);
$nav=$xml->xpath('//p[@id="nv"]');//这儿简单解释一下，就是调用simplexml的xpath方法，传入符合xpath语法的字符串就行了，我这儿的意思是，获取所有id属性值为nv的p标签元素
print_r($nav);

2.phpquery，

phpquery是基于jQuery选择器的dom解析器，如果经常用jQuery的话会很喜欢这个工具的，下面说说他的用法

include 'phpQuery.php';
phpQuery::newDocumentFile('http://job.blueidea.com');
$companies = pq('#hotcoms .coms')->find('div');
foreach($companies as $company)
{
echo pq($company)->find('h3 a')->text()."
";
}

简单解释一下：

pq()就像jQuery里的$()

基本上jQuery的选择器都可以用在phpQuery上，只要把’.'变成’->’

phpQuery提供了好几种载入文件的方法，有的使用字符串，有的使用文件(包括url)，选择的时候要注意

3.simplehtmldom

官方手册：http://www.ecartchina.com/php-simple-html-dom/manual.htm

自己看吧，一会就看懂了，我花了半个小时不到的时候就熟练的运用了

对了，这儿还有一个php的抓取系统，phpcrawl，如果想了解php搜索引擎方面的一些知识，可以看看他的源码：

源码下载地址

http://sourceforge.net/projects/phpcrawl/files/PHPCrawl/

相关标签：

php 元素技术抓取网页

来源：php.cn

上一篇：php执行python脚本问题下一篇：php mvc的实现

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

什么是 NullPointerException，如何修复它？

2024-10-22 09:46:29
从新手到程序员：您的旅程从 C 基础知识开始

2024-10-13 13:53:41
使用PHP解锁网络开发：初学者指南

2024-10-12 12:15:51
揭秘 C：为新程序员提供一条清晰简单的道路

2024-10-11 22:47:31
释放您的编码潜力：绝对初学者的 C 编程

2024-10-11 19:36:51
释放你内心的程序员：C 绝对初学者

2024-10-11 15:50:41
使用 C 自动化您的生活：适合初学者的脚本和工具

2024-10-11 15:07:41
PHP 变得简单：Web 开发的第一步

2024-10-11 14:21:21
使用 Python 构建任何东西：释放创造力的初学者指南

2024-10-11 12:59:11
编码的关键：为初学者释放 Python 的力量

2024-10-11 12:17:31

最新问题

如何在 CSS 中使浮动元素垂直堆叠而不是水平堆叠？我正在尝试制作一个包含两列的网页，一侧具有主要内容，另一侧具有额外的内容。但是因为我使用浮动属性将额外的列向左对齐，所以它水平堆叠，但我希望它垂直堆叠。我当前的代码：.topich...

来自于 2024-04-06 20:45:26

0

2

386

无法从网站获取输入元素所以我试图从Twitter获取一个输入元素，但当我运行它时，它不断在节点终端中给我一个这样的错误，结果，由此代码创建的浏览器窗口将自行关闭，因为它找不到正确的输入选择器。如何获取正...

来自于 2024-04-06 18:59:57

0

1

442

用 HTML 代码（从数组生成）替换字符串的顶级方法给定一个像这样的字符串...$htmlPattern="Usernameis:#name#andusercompanyis#company#";如何将子字符串#...

来自于 2024-04-06 17:40:41

0

2

410

React子元素无效（发现：具有键{clientVersion}的对象）。如果您想渲染一个子元素集合，请使用数组代替我有一个多步骤表单，当我尝试提交时会显示此错误。但是，如果我以简单的形式使用createOrganization调度，它就会起作用。是后端问题还是前端问题？我可能做错了什么？我希望...

来自于 2024-04-06 16:25:39

0

1

346

比较Imagick、Adobe Photoshop和Windows - 检测分辨率（每厘米像素或每英寸像素）这不是问题，而是试图提高我对DPI如何以各种文件格式存储的理解，并讨论其工作原理的原因。我对图像（JPG、PNG和Tiff）进行了大量工作并检测它们的分辨率。例如，我可以在Imag...

来自于 2024-04-06 16:01:27

0

1

397

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1424295
php入门教程之一周学会PHP

4270559
JAVA 初级入门视频教程

2547982
小甲鱼零基础入门学习Python视频教程

507862
PHP 零基础入门教程

863592

最新下载

更多>

网站特效

网站源码

网站素材

前端模板