cURL ist eine leistungsstarke PHP-Bibliothek zum einfachen und effektiven Crawlen von Webseiten und zum Sammeln von Cookies, um die Anmeldung bei Webseiten zu simulieren Weitere Informationen zu cURL. In diesem Artikel wird eine simulierte Anmeldung bei Open Source China (Oschina) als Beispiel verwendet, um Ihnen die Verwendung von cURL näher zu bringen.
Curl() von PHP ist beim Crawlen von Webseiten relativ effizient und unterstützt Multithreading, während file_get_contents() etwas weniger effizient ist. Natürlich müssen Sie die Curl-Erweiterung aktivieren, wenn Sie Curl verwenden.
Code-Praxis
Sehen wir uns zunächst den Anmeldecode an:
//Simulierte Anmeldung
function login_post($url, $cookie, $post) {
$curl = curl_init();//Curl-Modul initialisieren
curl_setopt($curl, CURLOPT_URL, $url);//Anmeldung übermittelte Adresse
curl_setopt($curl, CURLOPT_HEADER, 0);//Ob angezeigt werden soll Header-Informationen
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 0);//Ob die zurückgegebenen Informationen automatisch angezeigt werden sollen
curl_setopt($curl, CURLOPT_COOKIEJAR, $cookie); //Legen Sie die Cookie-Informationen fest, die in der angegebenen Datei gespeichert werden sollen
curl_setopt($curl, CURLOPT_POST, 1);//Im Post-Modus senden
curl_setopt($curl, CURLOPT_POSTFIELDS, http_build_query($post));//Zu übermittelnde Informationen
curl_exec($curl) ;// cURL ausführen
curl_close($curl);// cURL-Ressourcen schließen und Systemressourcen freigeben
}
Die Funktion login_post() initialisiert zuerst curl_init() und verwendet dann curl_setopt() zum Festlegen relevanter Optionsinformationen, einschließlich der zu übermittelnden URL-Adresse, der gespeicherten Cookie-Datei, der Postdaten (Benutzername und Passwort usw.), ob Informationen zurückgegeben werden sollen usw., dann führt curl_exec Curl und schließlich curl_close aus () gibt die Ressourcen frei. Beachten Sie, dass PHPs eigene http_build_query() Arrays in verbundene Strings konvertieren kann.
Wenn die Anmeldung erfolgreich ist, müssen wir als Nächstes die Seiteninformationen abrufen, nachdem die Anmeldung erfolgreich war.
//Daten nach erfolgreicher Anmeldung abrufen
function get_content($url, $cookie) {
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie); //Cookie lesen
$rs = curl_exec($ch); //cURL ausführen, um den Seiteninhalt zu erfassen
curl_close($ch);
return $rs; Funktion get_content() Initialisieren Sie zuerst Curl, legen Sie dann relevante Optionen fest, führen Sie Curl aus und geben Sie Ressourcen frei. Unter anderem setzen wir CURLOPT_RETURNTRANSFER auf 1, um automatisch Informationen zurückzugeben, und CURLOPT_COOKIEFILE kann die beim Anmelden gespeicherten Cookie-Informationen lesen und schließlich den Seiteninhalt zurückgeben.
Unser oberstes Ziel ist es, die Informationen nach der simulierten Anmeldung zu erhalten. Dabei handelt es sich um nützliche Informationen, die nur nach erfolgreicher normaler Anmeldung erhalten werden können. Als Nächstes nehmen wir die Anmeldung bei der mobilen Version von Open Source China als Beispiel, um zu sehen, wie die Informationen nach erfolgreicher Anmeldung erfasst werden.
//Beitragsdaten festlegen
$post = array ('email' => 'oschina account',
'pwd' => 'oschina password', ' goto_page ' => '/my',
'error_page' => '/login',
'save_login' => '1',
'submit' => 'Jetzt anmelden'
) ;
//Anmeldeadresse
$url = "http://m.oschina.net/action/user/login"
//Cookie-Speicherpfad festlegen
$cookie = dirname(__FILE__) . '/cookie_oschina.txt'
//Die Adresse, um Informationen nach der Anmeldung zu erhalten
$url2 = "http://m.oschina.net/my"; Simulation Login
login_post($url, $cookie, $post);
//Anmeldeseiteninformationen abrufen
$content = get_content($url2, $cookie); 🎜>@ unlink($cookie);
//Übereinstimmende Seiteninformationen
$preg = "/
(.*)
/i"
preg_match_all($preg, $content, $arr);
$str = $arr[1][0];
//Ausgabeinhalt
echo $str;
Nutzungszusammenfassung
1. Curl_setopt verwenden, um die Ziel-URL und andere Optionen festzulegen ;
3. curl_exec, führe Curl aus
5.