Web-Crawler, auch Web-Spider und Web-Robots genannt, werden in der FOAF-Community häufiger als Web-Chaser bezeichnet. Dabei handelt es sich um ein Programm, das automatisch World Wide Web-Informationen nach bestimmten Regeln oder Skripten erfasst, andere weniger Zu den häufig verwendeten Namen gehören Ameisen, Autoindexer, Emulatoren oder Würmer.
Die meisten Crawler folgen dem Prozess „Anfrage senden – Seite abrufen – Seite analysieren – Inhalt extrahieren und speichern“. Dies ist tatsächlich auch eine Simulation der Prozess, bei dem mithilfe eines Browsers Webseiteninformationen abgerufen werden.
Einfach ausgedrückt ist ein Crawler eine Erkennungsmaschine. Seine grundlegende Funktion besteht darin, menschliches Verhalten zu simulieren und auf verschiedenen Websites herumzulaufen, auf Schaltflächen zu klicken, Daten zu überprüfen oder sich die angezeigten Informationen zu merken. Wie ein Käfer, der unermüdlich durch ein Gebäude kriecht.
Sie können sich einfach vorstellen: Jeder Crawler ist Ihr „Klon“. So wie Sun Wukong ein paar Haare ausgerissen und ein paar Affen ausgeblasen hat.
Das Baidu, das wir jeden Tag verwenden, nutzt tatsächlich diese Art von Crawler-Technologie: Es schickt jeden Tag unzählige Crawler auf verschiedene Websites, greift deren Informationen ab, schminkt sich dann leicht und stellt sich in die Warteschlange, damit Sie sie abrufen können.
Verwandte Empfehlungen: „Was ist ein Python-Crawler? Warum wird Python Crawler genannt?“
Das obige ist der detaillierte Inhalt vonWas ist ein Crawler?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!