Gemeinschaft Lernen Tools-Bibliothek Freizeit

Deutsch

Heim > Backend-Entwicklung > PHP-Tutorial > 简述php关于网页元素抓取方面的技术

简述php关于网页元素抓取方面的技术

WBOY

Freigeben： 2016-06-23 13:56:33

Original

955 Leute haben es durchsucht

对于php抓取网页的内容，可能比较难的就是dom解析这一部分了，这儿的话有几种技术推荐给大家，具体使用哪种就看自己的喜欢了

1.php自带的xpath解析技术

xpath的话具体可以百度一下他的用法，我只举几个简单的例子，废话不多说，代码如下

error_reporting(0);
$url='http://www.baidu.com';//此处写抓取的网页的网址，我随便写的
$html=file_get_contents($url);
$dom=new DOMDocument;
$dom->loadHTML($html);
$xml=simplexml_import_dom($dom);
$nav=$xml->xpath('//p[@id="nv"]');//这儿简单解释一下，就是调用simplexml的xpath方法，传入符合xpath语法的字符串就行了，我这儿的意思是，获取所有id属性值为nv的p标签元素
print_r($nav);

2.phpquery，

phpquery是基于jQuery选择器的dom解析器，如果经常用jQuery的话会很喜欢这个工具的，下面说说他的用法

include 'phpQuery.php';
phpQuery::newDocumentFile('http://job.blueidea.com');
$companies = pq('#hotcoms .coms')->find('div');
foreach($companies as $company)
{
echo pq($company)->find('h3 a')->text()."
";
}

简单解释一下：

pq()就像jQuery里的$()

基本上jQuery的选择器都可以用在phpQuery上，只要把’.'变成’->’

phpQuery提供了好几种载入文件的方法，有的使用字符串，有的使用文件(包括url)，选择的时候要注意

3.simplehtmldom

官方手册：http://www.ecartchina.com/php-simple-html-dom/manual.htm

自己看吧，一会就看懂了，我花了半个小时不到的时候就熟练的运用了

对了，这儿还有一个php的抓取系统，phpcrawl，如果想了解php搜索引擎方面的一些知识，可以看看他的源码：

源码下载地址

http://sourceforge.net/projects/phpcrawl/files/PHPCrawl/

Verwandte Etiketten：

php 元素技术抓取网页

Quelle：php.cn

Vorheriger Artikel：php执行python脚本问题 Nächster Artikel：php mvc的实现

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Neueste Artikel des Autors

Was ist eine NullPointerException und wie behebe ich sie?

2024-10-22 09:46:29
Vom Anfänger zum Programmierer: Ihre Reise beginnt mit C-Grundlagen

2024-10-13 13:53:41
Webentwicklung mit PHP freischalten: Ein Leitfaden für Anfänger

2024-10-12 12:15:51
C entmystifizieren: Ein klarer und einfacher Weg für neue Programmierer

2024-10-11 22:47:31
Entfalten Sie Ihr Programmierpotenzial: C-Programmierung für absolute Anfänger

2024-10-11 19:36:51
Entfesseln Sie Ihren inneren Programmierer: C für absolute Anfänger

2024-10-11 15:50:41
Automatisieren Sie Ihr Leben mit C: Skripte und Tools für Anfänger

2024-10-11 15:07:41
PHP leicht gemacht: Ihre ersten Schritte in der Webentwicklung

2024-10-11 14:21:21
Erstellen Sie alles mit Python: Ein Leitfaden für Anfänger, um Ihrer Kreativität freien Lauf zu lassen

2024-10-11 12:59:11
Der Schlüssel zum Programmieren: Die Leistungsfähigkeit von Python für Anfänger freischalten

2024-10-11 12:17:31

Aktuelle Ausgaben

Wie kann man schwebende Elemente in CSS vertikal statt horizontal stapeln lassen? Ich versuche, eine Webseite mit zwei Spalten zu erstellen, mit Hauptinhalt auf der einen S...

Aus 2024-04-06 20:45:26

0

2

386

Das Eingabeelement konnte nicht von der Website abgerufen werden Ich versuche also, ein Eingabeelement von Twitter abzurufen, aber wenn ich es ausführe, er...

Aus 2024-04-06 18:59:57

0

1

442

Methode der obersten Ebene zum Ersetzen einer Zeichenfolge durch HTML-Code (aus einem Array generiert) Gegeben eine Zeichenfolge wie diese...$htmlPattern="Usernameis:#name#andusercompanyis...

Aus 2024-04-06 17:40:41

0

2

410

Ungültiges untergeordnetes React-Element (gefunden: Objekt mit Schlüssel {clientVersion}). Wenn Sie eine Sammlung untergeordneter Elemente rendern möchten, verwenden Sie stattdessen ein Array Ich habe ein mehrstufiges Formular und wenn ich versuche, es abzusenden, wird dieser Fehle...

Aus 2024-04-06 16:25:39

0

1

346

Vergleichen Sie Imagick, Adobe Photoshop und Windows – Auflösung erkennen (Pixel pro Zentimeter oder Pixel pro Zoll) Dies ist keine Frage, sondern ein Versuch, mein Verständnis darüber zu verbessern, wie DPI...

Aus 2024-04-06 16:01:27

0

1

397

verwandte Themen

Mehr>

Beliebte Empfehlungen

Beliebte Tutorials

Mehr>

Verwandte Tutorials

Beliebte Empfehlungen

Aktuelle Kurse

Neueste Downloads

Mehr>

Web-Effekte

Quellcode der Website

Website-Materialien

Frontend-Vorlage