Rumah pembangunan bahagian belakang tutorial php PHP如何开发简单爬虫

PHP如何开发简单爬虫

Mar 27, 2018 am 10:52 AM
php reptilia

有时候因为工作、自身的需求,我们都会去浏览不同网站去获取我们需要的数据,于是爬虫应运而生,下面是开发一个简单爬虫的经过与遇到的问题。开发一个爬虫,首先你要知道你的这个爬虫是要用来做什么的。我是要用来去不同网站找特定关键字的文章,并获取它的链接,以便我快速阅读。

按照个人习惯,我首先要写一个界面,理清下思路。

1、去不同网站。那么我们需要一个url输入框。

2、找特定关键字的文章。那么我们需要一个文章标题输入框。

3、获取文章链接。那么我们需要一个搜索结果的显示容器。

[xhtml] view plain copy
<p class="jumbotron" id="mainJumbotron">  
 <p class="panel panel-default">  
   
  <p class="panel-heading">文章URL抓取</p>  
   
  <p class="panel-body">  
   <p class="form-group">  
    <label for="article_title">文章标题</label>  
    <input type="text" class="form-control" id="article_title" placeholder="文章标题">  
   </p>  
   <p class="form-group">  
    <label for="website_url">网站URL</label>  
    <input type="text" class="form-control" id="website_url" placeholder="网站URL">  
   </p>  
   
   <button type="submit" class="btn btn-default">抓取</button>  
  </p>  
 </p>  
 <p class="panel panel-default">  
   
  <p class="panel-heading">文章URL</p>  
   
  <p class="panel-body">  
   <h3></h3>  
  </p>  
 </p>  
</p>

直接上代码,然后加上自己的一些样式调整,界面就完成啦:

那么接下来就是功能的实现了,我用PHP来写,首先第一步就是获取网站的html代码,获取html代码的方式也有很多,我就不一一介绍了,这里用了curl来获取,传入网站url就能得到html代码啦:

[xhtml] view plain copy
private function get_html($url){  
   
 $ch = curl_init();  
   
 $timeout = 10;  
   
 curl_setopt($ch, CURLOPT_URL, $url);  
   
 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);  
   
 curl_setopt($ch, CURLOPT_ENCODING, &#39;gzip&#39;);  
   
 curl_setopt($ch, CURLOPT_USERAGENT, &#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36&#39;);  
   
 curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);  
   
 $html = curl_exec($ch);  
   
 return $html;  
   
}

虽然得到了html代码,但是很快你会遇到一个问题,那就是编码问题,这可能让你下一步的匹配无功而返,我们这里统一把得到的html内容转为utf8编码:

[php] view plain copy
$coding = mb_detect_encoding($html);  
if ($coding != "UTF-8" || !mb_check_encoding($html, "UTF-8"))  
$html = mb_convert_encoding($html, &#39;utf-8&#39;, &#39;GBK,UTF-8,ASCII&#39;);

得到网站的html,要获取文章的url,那么下一步就是要匹配该网页下的所有a标签,需要用到正则表达式,经过多次测试,最终得到一个比较靠谱的正则表达式,不管a标签下结构多复杂,只要是a标签的都不放过:(最关键的一步)

[php] view plain copy
$pattern = &#39;|<a[^>]*>(.*)</a>|isU&#39;;  
preg_match_all($pattern, $html, $matches);

匹配的结果在$matches中,它大概是这样的一个多维素组;

[js] view plain copy
array(2) {   
 [0]=>   
 array(*) {   
  [0]=>  
  string(*) "完整的a标签"  
  .  
  .  
  .  
 }  
 [1]=>  
 array(*) {  
  [0]=>  
  string(*) "与上面下标相对应的a标签中的内容"  
 }  
}

只要能得到这个数据,其他就完全可以操作啦,你可以遍历这个素组,找到你想要a标签,然后获取a标签相应的属性,想怎么操作就怎么操作啦,下面推荐一个类,让你更方便操作a标签:

[php] view plain copy
$dom = new DOMDocument();  
   
@$dom->loadHTML($a);//$a是上面得到的一些a标签  
   
$url = new DOMXPath($dom);  
   
$hrefs = $url->evaluate(&#39;//a&#39;);  
   
for ($i = 0; $i < $hrefs->length; $i++) {  
   
 $href = $hrefs->item($i);  
   
 $url = $href->getAttribute(&#39;href&#39;); //这里获取a标签的href属性  
   
}

当然,这只是一种方式,你也可以通过正则表达式匹配你想要的信息,把数据玩出新花样。

得到并匹配得出你想要的结果,下一步当然就是传回前端将他们显示出来啦,把接口写好,然后前端用js获取数据,用jquery动态添加内容显示出来:

[php] view plain copy
var website_url = &#39;你的接口地址&#39;;  
$.getJSON(website_url,function(data){  
 if(data){  
  if(data.text == &#39;&#39;){  
   $(&#39;#article_url&#39;).html(&#39;<p><p>暂无该文章链接</p></p>&#39;);  
   return;  
  }  
  var string = &#39;&#39;;  
  var list = data.text;  
  for (var j in list) {  
    var content = list[j].url_content;  
    for (var i in content) {  
     if (content[i].title != &#39;&#39;) {  
      string += &#39;<p class="item">&#39; +  
       &#39;<em>[<a href="http://&#39; + list[j].website.web_url + &#39;" target="_blank">&#39; + list[j].website.web_name + &#39;</a>]</em>&#39; +  
       &#39;<a href=" &#39; + content[i].url + &#39;" target="_blank" class="web_url">&#39; + content[i].title + &#39;</a>&#39; +  
       &#39;</p>&#39;;  
     }  
    }  
   }  
  $(&#39;#article_url&#39;).html(string);  
});

上最终效果图:

Atas ialah kandungan terperinci PHP如何开发简单爬虫. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Stock Market GPT

Stock Market GPT

Penyelidikan pelaburan dikuasakan AI untuk keputusan yang lebih bijak

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Bagaimana Melaksanakan Corak Singleton di PHP? Bagaimana Melaksanakan Corak Singleton di PHP? Sep 25, 2025 am 12:27 AM

Corak Singleton memastikan bahawa kelas hanya mempunyai satu contoh dan menyediakan titik akses global untuk senario di mana objek tunggal menyelaraskan operasi sistem, seperti sambungan pangkalan data atau pengurusan konfigurasi. 2. Struktur asasnya termasuk: contoh penyimpanan atribut statik peribadi, pembina swasta menghalang penciptaan luaran, kaedah pengklonan peribadi menghalang penyalinan, dan kaedah statik awam (seperti getInstance ()) untuk mendapatkan contoh. 3. Dapatkan contoh yang unik dalam PHP dengan memanggil kaedah GetInstance (), dan mengembalikan rujukan objek yang sama tidak kira berapa kali ia dipanggil. 4. Di bawah model permintaan PHP standard, keselamatan benang tidak perlu dipertimbangkan, tetapi isu-isu penyegerakan perlu diberi perhatian dalam persekitaran jangka panjang atau multi-threaded, dan PHP sendiri tidak menyokong mekanisme kunci asli. 5. Walaupun singleton berguna,

Bagaimana cara menggunakan pengendali coalescing null (??) dalam php? Bagaimana cara menggunakan pengendali coalescing null (??) dalam php? Sep 25, 2025 am 01:28 AM

Jawapan: Pengendali gabungan kosong PHP (??) digunakan untuk memeriksa sama ada kekunci pembolehubah atau array wujud dan tidak batal. Jika benar, ia mengembalikan nilainya, jika tidak, ia mengembalikan nilai lalai. Ia mengelakkan penggunaan pemeriksaan isset panjang (), sesuai untuk mengendalikan pembolehubah yang tidak ditentukan dan kekunci array, seperti $ pengguna pengguna = $ userInput?

Bagaimana untuk mendapatkan parameter URL dalam PHP? Bagaimana untuk mendapatkan parameter URL dalam PHP? Sep 24, 2025 am 05:11 AM

Gunakan $ _get untuk mendapatkan parameter URL, seperti? Name = John & Age = 25; Semak kewujudan melalui isset atau pengendali gabungan kosong, dan penapis dan sahkan data dengan Filter_Input untuk memastikan keselamatan.

Bagaimana untuk memuat turun fail dari URL di PHP? Bagaimana untuk memuat turun fail dari URL di PHP? Sep 24, 2025 am 05:45 AM

Jawapan: Gunakan file_get_contents dan curl untuk memuat turun fail URL, bekasnya mudah tetapi terhad, manakala yang terakhir lebih fleksibel dan menyokong streaming. Contohnya termasuk membaca dan menulis fail secara langsung, pilihan penetapan permulaan curl dan penjimatan, menambah pengendalian ralat dan pemeriksaan status HTTP. Fail besar disyorkan untuk mengalir muat turun di blok untuk menjimatkan ingatan, memastikan direktori itu boleh ditulis dan mengendalikan pengecualian dengan betul.

Bagaimana untuk melumpuhkan fungsi dalam PHP? Bagaimana untuk melumpuhkan fungsi dalam PHP? Sep 24, 2025 am 02:40 AM

Todisableaphpfunction, usedisable_functionsinphp.iniforbuilt-infunctionsLikeExecorsystem, yang manablocksthemgloballyforsecurity;

Bagaimana untuk melaksanakan antara muka dalam kelas PHP? Bagaimana untuk melaksanakan antara muka dalam kelas PHP? Sep 25, 2025 am 05:34 AM

Gunakan kata kunci untuk melaksanakan antara muka, dan kelas mesti menyediakan pelaksanaan khusus semua kaedah dalam antara muka. 2. Tentukan antara muka untuk mengisytiharkan kaedah menggunakan kata kunci antara muka. 3. Kelas melaksanakan antara muka dan mengatasi kaedah. 4. Buat objek dan panggil kaedah untuk mengeluarkan hasilnya. 5. Kelas boleh melaksanakan pelbagai antara muka untuk memastikan spesifikasi dan pemeliharaan kod.

Bagaimana untuk membersihkan input pengguna untuk mengelakkan XSS dalam PHP? Bagaimana untuk membersihkan input pengguna untuk mengelakkan XSS dalam PHP? Sep 25, 2025 am 05:19 AM

TopreventXsSinphp, SanitizeUserInputandescapeOutputBasedOnContextusingHtmlSpecialChars () forhtml, json_encode () forjavascript, dan validatestrictLyWithFilter_var () forexpectedDatatypes, sementara yangDeAvoidingDeprecatedFunctionsandingingContent-Security-Policyheadersfo

Bagaimana cara menggunakan kaedah Get dan Post dalam bentuk HTML dengan PHP? Bagaimana cara menggunakan kaedah Get dan Post dalam bentuk HTML dengan PHP? Sep 25, 2025 am 03:46 AM

Kaedah GET melampirkan data ke URL, yang sesuai untuk maklumat yang tidak sensitif; Kaedah pos menghantar data melalui badan permintaan, yang lebih selamat dan sesuai untuk maklumat sensitif.

See all articles