Webcrawler-Technologie bezieht sich auf die Technologie, die World Wide Web-Informationen nach bestimmten Regeln automatisch erfasst. Webcrawler werden auch als Web-Spider und Web-Roboter bezeichnet. In der FOAF-Community werden sie häufiger als Web-Page-Chaser bezeichnet, darunter Ameisen, automatische Indexierung, Simulationsprogramme oder Würmer.
Webcrawler-Technologie bezieht sich auf die Technologie, die World Wide Web-Informationen nach bestimmten Regeln automatisch erfasst
Webcrawler (auch bekannt als Web Spider, Web Robot, in der FOAF-Community häufiger als Web Chaser bekannt) ist ein Programm oder Skript, das nach bestimmten Regeln automatisch World Wide Web-Informationen erfasst. Andere, weniger häufig verwendete Namen sind Ameisen, Autoindexer, Emulatoren oder Würmer.
Die Beschreibung und Definition des Crawling-Ziels bilden die Grundlage für die Formulierung von Algorithmen zur Webseitenanalyse und URL-Suchstrategien. Der Webseiten-Analysealgorithmus und der Kandidaten-URL-Sortieralgorithmus sind der Schlüssel zur Bestimmung der von der Suchmaschine bereitgestellten Serviceform und des Crawler-Webseiten-Crawling-Verhaltens. Die Algorithmen dieser beiden Teile sind eng miteinander verbunden.
Bestehende Beschreibungen von Crawling-Zielen durch fokussierte Crawler können in drei Typen unterteilt werden: basierend auf den Eigenschaften der Zielwebseite, basierend auf Zieldatenmustern und basierend auf Domänenkonzepten.
Basierend auf den Merkmalen der Zielwebseite
Die von Crawlern basierend auf den Merkmalen der Zielwebseite erfassten, gespeicherten und indizierten Objekte sind im Allgemeinen Websites oder Web Seiten. Je nach Methode zur Gewinnung von Saatgutproben kann diese unterteilt werden in:
(1) vorgegebene anfängliche Crawling-Saatgutprobe;
(2) vorgegebenes Webseitenkategorieverzeichnis und entsprechendes Kategorieverzeichnis Seed-Beispiele, wie Yahoo!-Klassifizierungsstruktur usw.; (3) Fangzielbeispiele, die durch das Benutzerverhalten bestimmt werden, unterteilt in: Durchsuchen Nehmen Sie Proben;
(b) Erhalten Sie Zugriffsmuster und zugehörige Proben durch Benutzerprotokoll-Mining.
Unter diesen können die Webseitenfunktionen die Inhaltsfunktionen der Webseite oder die Linkstrukturfunktionen der Webseite usw. sein.
Basierend auf dem ZieldatenmusterCrawler, die auf dem Zieldatenmuster basieren, zielen auf die Daten auf der Webseite ab. Die erfassten Daten müssen im Allgemeinen einem bestimmten Muster entsprechen. oder kann das Zieldatenschema konvertieren oder einem Zieldatenschema zuordnen.
Basierend auf DomänenkonzeptenEine weitere Beschreibungsmethode besteht darin, eine Ontologie oder ein Wörterbuch der Zieldomäne zu erstellen, mit dem die Bedeutung verschiedener Merkmale in einer bestimmten Domäne analysiert wird Thema aus semantischer Perspektive Grad. Weitere Informationen zu diesem Thema finden Sie auf der
PHP-Website für Chinesisch! !
Das obige ist der detaillierte Inhalt vonWas bedeutet Webcrawler-Technologie?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!