So implementieren Sie einen Web Scraper in PHP
Web Scraping umfasst drei Schritte:
Für die Schritte 1 und 2 können Sie die in PHP integrierte Curl-Funktion verwenden:
$curl = new Curl(); $html = $curl->get("http://www.google.com");
Um den HTML-Code zu analysieren (Schritt 3), können Sie reguläre Ausdrücke verwenden. Eine hilfreiche Ressource zum Verständnis regulärer Ausdrücke ist:
Sie können auch Software wie Regex Buddy verwenden, um das Erstellen und Testen von Regex-Mustern zu erleichtern.
Verwendung:
$curl = new Curl(); $html = $curl->get("http://www.google.com"); // Perform regex operations on $html
PHP Klasse:
class Curl { public $cookieJar = "cookies.txt"; public function setup() { // Define HTTP headers $header = array(); $header[0] = "Accept: text/xml,application/xml,application/xhtml+xml,"; $header[0] .= "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5"; $header[] = "Cache-Control: max-age=0"; $header[] = "Connection: keep-alive"; $header[] = "Keep-Alive: 300"; $header[] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7"; $header[] = "Accept-Language: en-us,en;q=0.5"; $header[] = "Pragma: "; // Browsers keep this blank. // Set cURL options curl_setopt($this->curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US; rv:1.8.1.7) Gecko/20070914 Firefox/2.0.0.7'); curl_setopt($this->curl, CURLOPT_HTTPHEADER, $header); curl_setopt($this->curl,CURLOPT_COOKIEJAR, $this->cookieJar); curl_setopt($this->curl,CURLOPT_COOKIEFILE, $this->cookieJar); curl_setopt($this->curl,CURLOPT_AUTOREFERER, true); curl_setopt($this->curl,CURLOPT_FOLLOWLOCATION, true); curl_setopt($this->curl,CURLOPT_RETURNTRANSFER, true); } function get($url) { $this->curl = curl_init($url); $this->setup(); return $this->request(); } function getAll($reg,$str) { preg_match_all($reg,$str,$matches); return $matches[1]; } function postForm($url, $fields, $referer='') { $this->curl = curl_init($url); $this->setup(); curl_setopt($this->curl, CURLOPT_URL, $url); curl_setopt($this->curl, CURLOPT_POST, 1); curl_setopt($this->curl, CURLOPT_REFERER, $referer); curl_setopt($this->curl, CURLOPT_POSTFIELDS, $fields); return $this->request(); } function getInfo($info) { $info = ($info == 'lasturl') ? curl_getinfo($this->curl, CURLINFO_EFFECTIVE_URL) : curl_getinfo($this->curl, $info); return $info; } function request() { return curl_exec($this->curl); } }
Das obige ist der detaillierte Inhalt vonWie kann ich mithilfe der Curl-Bibliothek einen Web-Scraper in PHP implementieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!