Dieser Artikel stellt hauptsächlich die Implementierungsmethode des PHP-Crawlings von HTTPS-Inhalten vor und wie man mit einem HTTPS-Problem umgeht, das beim Crawlen auftritt. Lassen Sie uns gemeinsam einen Blick darauf werfen.
Problem
Bei meiner Recherche zur Hacker News API bin ich auf ein HTTPS-Problem gestoßen. Da auf alle Hacker News-APIs über das verschlüsselte HTTPS-Protokoll zugegriffen wird, das sich vom normalen HTTP-Protokoll unterscheidet, tritt bei Verwendung der Funktion <a href="//m.sbmmt.com/wiki/1311.html" target="_blank">file_get_contents</a>()
in PHP zum Abrufen der in der API bereitgestellten Daten ein Fehler
Der verwendete Code sieht so aus:
<?php $data = file_get_contents("/http://blog.it985.com/"); ?>
PHP Warning: file_get_contents(): Unable to find the wrapper “https” – did you forget to enable it when you configured PHP?
Warum tritt dieser Fehler auf?
Nach einiger Suche im Internet habe ich festgestellt, dass viele Leute auf diesen Fehler gestoßen sind. Das Problem ist sehr direkt, da er in der Konfigurationsdatei von PHP nicht aktiviert ist Ein Parameter auf meinem lokalen Computer ist das Element in /apache/bin/php.ini. Das vorangehende Semikolon muss entfernt werden. ;extension=php_openssl.dll
<?php $w = stream_get_wrappers(); echo 'openssl: ', extension_loaded ('openssl') ? 'yes':'no', "\n"; echo 'http wrapper: ', in_array('http', $w) ? 'yes':'no', "\n"; echo 'https wrapper: ', in_array('https', $w) ? 'yes':'no', "\n"; echo 'wrappers: ', var_dump($w);
<?php openssl: no http wrapper: yes https wrapper: no wrappers: array(10) { [0]=> string(3) "php" [1]=> string(4) "file" [2]=> string(4) "glob" [3]=> string(4) "data" [4]=> string(4) "http" [5]=> string(3) "ftp" [6]=> string(3) "zip" [7]=> string(13) "compress.zlib" [8]=> string(14) "compress.bzip2" [9]=> string(4) "phar" }
Alternativen
Finden Sie den Fehler und beheben Sie ihn. Das Schwierige ist, dass Sie den Fehler nicht beheben können, nachdem Sie ihn gefunden haben. Ich wollte diese Skriptmethode ursprünglich auf dem Remote-Host installieren, konnte aber die PHP-Konfiguration des Remote-Hosts nicht ändern. Das Ergebnis war, dass ich diese Lösung nicht verwenden konnte, aber wir können uns nicht an einen Baum hängen. Dieser Weg funktioniert nicht. Schauen wir mal nach. Gibt es eineandere Möglichkeit?
Eine weitere Funktion, die ich häufig zum Erfassen von Inhalten in PHP verwende, ist, die leistungsfähiger ist als curl
und viele optionale Parameter bereitstellt. Für das Problem des Zugriffs auf HTTPS-Inhalte müssen wir folgende file_get_contents()
Konfigurationsparameter verwenden: CURL
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
gekapselte Funktion, die auf HTTPS-Inhalte zugreifen kann: Curl
Das obige ist der detaillierte Inhalt vonBeispielcode für die PHP-Methode zum Erfassen von HTTPS-Inhalten und zur Fehlerbehandlung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!