Gemeinschaft Lernen Tools-Bibliothek Freizeit

Deutsch

Heim > Backend-Entwicklung > PHP-Tutorial > Die Lösung zum Crawlen verstümmelter Webseiten mit Curl und file_get_contents

Die Lösung zum Crawlen verstümmelter Webseiten mit Curl und file_get_contents

巴扎黑

Freigeben： 2016-11-09 11:23:40

Original

1277 Leute haben es durchsucht

Als ich heute die Funktion „curl_init“ zum Crawlen der Webseiten von Sohu verwendete, stellte ich fest, dass die gesammelten Webseiten verstümmelt waren. Nach der Analyse stellte ich fest, dass der Server die GZIP-Komprimierungsfunktion aktiviert hatte. Fügen Sie einfach mehrere Optionen CURLOPT_ENCODING zur Funktion curl_setopt hinzu, um gzip zu analysieren, und Sie können es korrekt dekodieren.

Auch wenn die erfasste Webseite in GBK codiert ist, das Skript jedoch tatsächlich in utf-8 codiert ist, muss die erfasste Webseite mit der Funktion mb_convert_encoding konvertiert werden.

<?php
    $tmp = sys_get_temp_dir();
    $cookieDump = tempnam($tmp, &#39;cookies&#39;);
    $url = &#39;http://tv.sohu.com&#39;;
    $ch = curl_init();
    curl_setopt ($ch, CURLOPT_URL, $url);
    curl_setopt ($ch, CURLOPT_HEADER, 1);// 显示返回的Header区域内容
    curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1); // 使用自动跳转
    curl_setopt ($ch, CURLOPT_TIMEOUT, 10);// 设置超时限制
    curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回
    curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT,10);// 链接超时限制
    curl_setopt ($ch, CURLOPT_HTTPHEADER,array(&#39;Accept-Encoding: gzip, deflate&#39;));//设置 http 头信息
    curl_setopt ($ch, CURLOPT_ENCODING, &#39;gzip,deflate&#39;);//添加 gzip 解码的选项，即使网页没启用 gzip 也没关系
    curl_setopt ($ch, CURLOPT_COOKIEJAR, $cookieDump);  // 存放Cookie信息的文件名称
    $content = curl_exec($ch);
    // 把抓取的网页由 GBK 转换成 UTF-8 
    $content = mb_convert_encoding($content,"UTF-8","GBK");
?>

Nach dem Login kopieren

<?php
    $url = &#39;http://tv.sohu.com&#39;;
    // 只要添加 compress.zlib 选项，即使服务器启用了gzip 压缩功能，就能够解码了
    $content = file_get_contents("compress.zlib://".$url);
    // 把抓取的网页由 GBK 转换成 UTF-8 
    $content = mb_convert_encoding($content,"UTF-8","GBK");
?>

Nach dem Login kopieren

Verwandte Etiketten：

php

Quelle：php.cn

Vorheriger Artikel：PHP legt den Browser-Cache dynamischer Webseiten fest Nächster Artikel：PHP-Nummerntyp für rekursive Formatierung

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Neueste Artikel des Autors

So fügen Sie Elemente zum PHP-Array hinzu

2023-03-14 15:58:02
Beispiel, das zeigt, wie JS ein einfaches Multiple-Choice-Bewertungssystem implementiert

1970-01-01 08:00:00
PHP-Lösung zur Einschränkung mehrerer Übermittlungen derselben IP

2023-03-15 07:38:01
Verwendung regulärer Ausdrücke zur Implementierung der Formularvalidierung in HTML

1970-01-01 08:00:00
Detaillierte Erläuterung dieses Zeigeproblems im strikten JavaScript-Modus

1970-01-01 08:00:00
Beispielcode zum Erstellen eines Baummenüs (einschließlich Menü mit mehreren Ebenen) in Java

1970-01-01 08:00:00
Ausführliche Erläuterung von Beispielen für die Implementierung eines reibungslosen Übergangs durch CSS3 beim Verlassen des Hovers

1970-01-01 08:00:00
Swiper-Karussell-Bildquellcode-Sharing-Analyse

1970-01-01 08:00:00
Fassen Sie VsCode-Plug-Ins zusammen und organisieren Sie sie

1970-01-01 08:00:00
HttpUtils-Anforderungstool-Klassencode

1970-01-01 08:00:00

Aktuelle Ausgaben

Aus URL-Parametern erhaltene PHP-Arrays verhalten sich nicht wie erwartet Ich habe einen URL-Parameter, der die Kategorie-ID enthält, und ich möchte ihn als Array w...

Aus 2024-04-06 22:09:02

0

1

1428

Wo soll ich die CustomLog-Direktive in Apache platzieren? Ich verwende php:7.2-apachedocker. Ich muss das URL-Anmeldezugriffsprotokoll zur Gesundhei...

Aus 2024-04-06 22:03:59

0

1

990

Welches Format haben die Variablen im Rückgabewert? Ich bin ein PHP-Neuling. Ich habe einen Code gefunden: if($x<time()){return[false,'erro...

Aus 2024-04-06 21:55:20

0

1

778

Bei der Verwendung von opentbs zum Generieren von ODT-Dateien sind Probleme aufgetreten: Werte desselben Schlüssels werden in derselben Zeile statt in separaten Spalten angezeigt. Ich verwende eine Bibliothek namens OpenTbs, um ODT mit PHP zu erstellen. Ich verwende sie...

Aus 2024-04-06 20:18:18

0

1

483

Gruppieren Sie MySQL-Ergebnisse nach ID für die Schleife Ich habe eine Tabelle mit Flugdaten in MySQL. Ich schreibe einen PHP-Code, der Daten mithi...

Aus 2024-04-06 17:27:56

0

1

406

verwandte Themen

Mehr>

Beliebte Empfehlungen

Beliebte Tutorials

Mehr>

Verwandte Tutorials

Beliebte Empfehlungen

Aktuelle Kurse

Neueste Downloads

Mehr>

Web-Effekte

Quellcode der Website

Website-Materialien

Frontend-Vorlage