Heim Backend-Entwicklung Golang Web Scraping mal ausprobieren

Web Scraping mal ausprobieren

Sep 10, 2024 pm 02:30 PM

Erste Schritte

Zuerst müssen wir Go installiert haben, Anweisungen zum Herunterladen und Installieren von Go.

Wir erstellen einen neuen Ordner für das Projekt, wechseln in das Verzeichnis und führen den folgenden Befehl aus:

go mod init scraper

? Der Befehl „go mod init“ wird verwendet, um ein neues Go-Modul in dem Verzeichnis zu initialisieren, in dem es ausgeführt wird, und erstellt eine go.mod-Datei, um Codeabhängigkeiten zu verfolgen. Abhängigkeitsmanagement

Jetzt installieren wir Colibri:

go get github.com/gonzxlez/colibri

? Colibri ist ein Go-Paket, das es uns ermöglicht, strukturierte Daten im Web mithilfe eines in JSON definierten Regelsatzes zu crawlen und zu extrahieren. Repository


Extraktionsregeln

Wir definieren die Regeln, die Colibri verwendet, um die von uns benötigten Daten zu extrahieren. Dokumentation

Wir werden eine HTTP-Anfrage an die URL https://pkg.go.dev/search?q=xpath stellen, die die Ergebnisse einer Abfrage nach Go-Paketen im Zusammenhang mit xpath in Go-Paketen enthält.

Mit den in unserem Webbrowser enthaltenen Entwicklungstools können wir die HTML-Struktur der Seite überprüfen. Was sind die Browser-Entwicklungstools?

Web Scraping en Go

<div class="SearchSnippet">
   <div class="SearchSnippet-headerContainer">
      <h2>
         <a href="/github.com/antchfx/xpath" data-gtmc="search result" data-gtmv="0" data-test-id="snippet-title">
         xpath
         <span class="SearchSnippet-header-path">(github.com/antchfx/xpath)</span>
         </a>
      </h2>
   </div>
   <div class="SearchSnippet-infoLabel">
      <a href="/github.com/antchfx/xpath?tab=importedby" aria-label="Go to Imported By">
      <span class="go-textSubtle">Imported by </span><strong>143</strong>
      </a>
      <span class="go-textSubtle">|</span>
      <span class="go-textSubtle">
      <strong>v1.2.5</strong> published on <span data-test-id="snippet-published"><strong>Oct 26, 2023</strong></span>
      </span>
      <span class="go-textSubtle">|</span>
      <span data-test-id="snippet-license">
      <a href="/github.com/antchfx/xpath?tab=licenses" aria-label="Go to Licenses">
      MIT
      </a>
      </span>
   </div>
</div>

Fragment der HTML-Struktur, die ein Ergebnis der Abfrage darstellt.

Dann brauchen wir einen Selektor „Pakete“, der alle div-Elemente im HTML mit der Klasse SearchSnippet findet, aus diesen Elementen einen Selektor „ name“ übernimmt den Text des Elements a innerhalb eines Elements h2 und einen Selektor „path“ nimmt den Wert des Attributs href des Elements a innerhalb eines an h2 Element. Mit anderen Worten: „Name“ übernimmt den Namen des Go-Pakets und „Pfad“ den Pfad des Pakets :)

{
    "method": "GET",
    "url":    "https://pkg.go.dev/search?q=xpath",
    "timeout": 10000,
    "selectors": {
        "packages": {
            "expr": "div.SearchSnippet",
            "all": true,
            "type": "css",
            "selectors": {
                "name": "//h2/a/text()",
                "path": "//h2/a/@href"
            }
        }
    }
}
  • Methode: gibt die HTTP-Methode an (GET, POST, PUT, ...).
  • URL:URL der Anfrage.
  • Timeout:Timeout in Millisekunden für die HTTP-Anfrage.
  • Selektoren:Selektoren.
    • „Pakete“: ist der Name des Selektors.
      • expr: Selektorausdruck.
      • all: gibt an, dass alle Elemente gefunden werden sollen, die dem Ausdruck entsprechen.
      • Typ: der Typ des Ausdrucks, in diesem Fall ein CSS-Selektor.
      • Selektoren: verschachtelte Selektoren.
        • „Name“ und „Pfad“ sind die Namen der Selektoren und ihre Werte sind Ausdrücke, in diesem Fall XPath-Ausdrücke.

Code in Go

Wir sind bereit, eine scraper.go-Datei zu erstellen, die erforderlichen Pakete zu importieren und die Hauptfunktion zu definieren:


package main

import (
    "encoding/json"
    "fmt"

    "github.com/gonzxlez/colibri"
    "github.com/gonzxlez/colibri/webextractor"
)

var rawRules = `{
    "method": "GET",
    "url":    "https://pkg.go.dev/search?q=xpath",
    "timeout": 10000,
    "selectors": {
        "packages": {
            "expr": "div.SearchSnippet",
            "all": true,
            "type": "css",
            "selectors": {
                "name": "//h2/a/text()",
                "path": "//h2/a/@href"
            }
        }
    }
}`

func main() {
    we, err := webextractor.New()
    if err != nil {
        panic(err)
    }

    var rules colibri.Rules
    err = json.Unmarshal([]byte(rawRules), &rules)
    if err != nil {
        panic(err)
    }

    output, err := we.Extract(&rules)
    if err != nil {
        panic(err)
    }

    fmt.Println("URL:", output.Response.URL())
    fmt.Println("Status code:", output.Response.StatusCode())
    fmt.Println("Content-Type", output.Response.Header().Get("Content-Type"))
    fmt.Println("Data:", output.Data)
}
? WebExtractor sind Standardschnittstellen für Colibri, mit denen Sie mit dem Crawlen oder Extrahieren von Daten im Web beginnen können.

Mithilfe der neuen Funktion von WebExtractor generieren wir eine Colibri-Struktur mit allem, was zum Starten der Datenextraktion erforderlich ist.

Dann konvertieren wir unsere Regeln in JSON in eine Regelstruktur und rufen die Extract-Methode auf, um die Regeln als Argumente zu senden.

Wir erhalten die Ausgabe und die URL der HTTP-Antwort, den HTTP-Statuscode, den Inhaltstyp der Antwort und die mit den Selektoren extrahierten Daten werden auf dem Bildschirm gedruckt. Weitere Informationen finden Sie in der Dokumentation zur Ausgabestruktur.

Wir führen den folgenden Befehl aus:


go mod tidy
? Der Befehl „go mod Tidy“ stellt sicher, dass die Abhängigkeiten in go.mod mit dem Quellcode des Moduls übereinstimmen.

Zuletzt kompilieren wir unseren Code und führen ihn in Go mit dem Befehl aus:


go run scraper.go

Abschluss

In diesem Beitrag haben wir gelernt, wie man Web Scraping in Go mit dem Colibri-Paket durchführt und Extraktionsregeln mit CSS- und XPath-Selektoren definiert. Colibri ist ein Tool für diejenigen, die die Webdatenerfassung in Go automatisieren möchten. Sein regelbasierter Ansatz und seine Benutzerfreundlichkeit machen es zu einer attraktiven Option für Entwickler aller Erfahrungsstufen.

Kurz gesagt ist Web Scraping in Go eine leistungsstarke und vielseitige Technik, mit der Informationen aus einer Vielzahl von Websites extrahiert werden können. Es ist wichtig zu betonen, dass Web Scraping auf ethische Weise durchgeführt werden muss, die Geschäftsbedingungen der Websites respektiert werden und eine Überlastung ihrer Server vermieden werden muss.

Das obige ist der detaillierte Inhalt vonWeb Scraping mal ausprobieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

PHP-Tutorial
1506
276
So erstellen Sie einen Webserver in Go So erstellen Sie einen Webserver in Go Jul 15, 2025 am 03:05 AM

Es ist nicht schwierig, einen in Go geschriebenen Webserver zu erstellen. Der Kern liegt in der Verwendung des NET/HTTP -Pakets zur Implementierung grundlegender Dienste. 1. Verwenden Sie Net/HTTP, um den einfachsten Server zu starten: Registrieren Sie die Verarbeitungsfunktionen und hören Sie Ports über einige Codezeilen an. 2. Routing -Management: Verwenden Sie ServeMux, um mehrere Schnittstellenpfade für eine einfache strukturierte Verwaltung zu organisieren. 3. Häufige Praktiken: Gruppenrouting nach funktionalen Modulen und verwenden Bibliotheken von Drittanbietern, um eine komplexe Übereinstimmung zu unterstützen. 4. Statischer Dateidienst: Geben Sie HTML-, CSS- und JS -Dateien über http.FileServer an; 5. Leistung und Sicherheit: Aktivieren Sie HTTPS, begrenzen Sie die Größe des Anforderungsorganisation und stellen Sie Zeitüberschreitungen ein, um die Sicherheit und Leistung zu verbessern. Nach dem Beherrschen dieser Schlüsselpunkte ist es einfacher, die Funktionalität zu erweitern.

Gehen Sie für Audio-/Videoverarbeitung Gehen Sie für Audio-/Videoverarbeitung Jul 20, 2025 am 04:14 AM

Der Kern der Audio- und Videoverarbeitung liegt darin, die grundlegenden Prozess- und Optimierungsmethoden zu verstehen. 1. Der grundlegende Prozess umfasst Akquisition, Codierung, Übertragung, Decodierung und Wiedergabe, und jeder Link hat technische Schwierigkeiten. 2. Häufige Probleme wie Audio- und Video -Aberration, Verzögerungsverzögerung, Schallgeräusch, verschwommenes Bild usw. können durch synchrone Einstellung, Codierungsoptimierung, Rauschverringerungsmodul, Parameteranpassung usw. gelöst werden; 3.. Es wird empfohlen, FFMPEG, OpenCV, Webrtc, Gstreamer und andere Tools zu verwenden, um Funktionen zu erzielen. 4. In Bezug auf das Leistungsmanagement sollten wir auf die Beschleunigung der Hardware, die angemessene Einstellung der Auflösungsrahmenquoten, die Kontrollverkehr und Speicher -Leckage -Probleme achten. Wenn Sie diese wichtigen Punkte beherrschen, werden die Entwicklungseffizienz und die Benutzererfahrung verbessert.

Wählen Sie mit Standardfall auswählen Wählen Sie mit Standardfall auswählen Jul 14, 2025 am 02:54 AM

Der Zweck von Select Plus -Standard besteht darin, das Auswählen zu ermöglichen, ein Standardverhalten durchzuführen, wenn keine anderen Zweige bereit sind, um das Programmblockieren zu vermeiden. 1. Beim Empfangen von Daten aus dem Kanal ohne Blockierung, wenn der Kanal leer ist, wird direkt die Standardzweigung eingegeben. 2. In Kombination mit der Zeit. Nach oder Ticker versuchen Sie, Daten regelmäßig zu senden. Wenn der Kanal voll ist, wird er nicht blockiert und überspringt. 3. Verhindern Sie Deadlocks, vermeiden Sie das Programm, das nicht sicher ist, ob der Kanal geschlossen ist. Beachten Sie bei der Verwendung, dass die Standardzweig sofort ausgeführt wird und nicht missbraucht wird, und standardmäßig und der Fall sind sich gegenseitig ausschließlich und werden nicht gleichzeitig ausgeführt.

Entwicklung von Kubernetes -Betreibern in Go Entwicklung von Kubernetes -Betreibern in Go Jul 25, 2025 am 02:38 AM

Der effizienteste Weg, um einen Kubernetesoperator zu schreiben, besteht darin, GO zu verwenden, um Kubebuilder und Controller-Runtime zu kombinieren. 1. Verstehen Sie das Bedienermuster: Definieren Sie benutzerdefinierte Ressourcen über CRD, schreiben Sie einen Controller, um auf Ressourcenänderungen zu hören und Versöhnungsschleifen durchzuführen, um den erwarteten Zustand aufrechtzuerhalten. 2. Verwenden Sie Kubebuilder, um das Projekt zu initialisieren und APIs zu erstellen, um automatisch CRDs, Controller und Konfigurationsdateien zu generieren. 1. Definieren Sie die Spezifikation und die Statusstruktur von CRD in API/v1/myapp_types.go und führen Sie MakeManifests aus, um Crdyaml zu generieren. 4.. Versöhnung im Controller

Gehen Sie beispielsweise API -Beispiel Gehen Sie beispielsweise API -Beispiel Jul 14, 2025 am 03:01 AM

Wie implementieren Sie schnell ein RestAPI -Beispiel in Go? Die Antwort ist die Verwendung der NET/HTTP -Standardbibliothek, die gemäß den folgenden drei Schritten abgeschlossen werden kann: 1. Richten Sie die Projektstruktur ein und initialisieren Sie das Modul; 2. Definieren Sie die Datenstruktur- und Verarbeitungsfunktionen, einschließlich des Erhaltens aller Daten, das Erhalten von Einzeldaten basierend auf der ID und das Erstellen neuer Daten; 3. Registrieren Sie die Route in der Hauptfunktion und starten Sie den Server. Der gesamte Prozess erfordert keine Bibliothek von Drittanbietern. Die grundlegende Restapi -Funktion kann über die Standardbibliothek realisiert und über den Browser oder Postboten getestet werden.

So richten Sie Golangci-Lint für ein Projekt ein So richten Sie Golangci-Lint für ein Projekt ein Jul 12, 2025 am 03:06 AM

Die Installationsschritte der Golangci-Lint sind: 1. Installation mit Binärinstallation oder GOInstall-Befehl; 2. Überprüfen Sie, ob die Installation erfolgreich ist; Zu den Konfigurationsmethoden gehören: 3.. Erstellen Sie eine .golangci.yml -Datei, um Linter zu aktivieren/zu deaktivieren, einen Ausschlusspfad usw. festlegen; Die Integrationsmethoden sind: 4. Fügen Sie Lint -Schritte in CI/CD (z. B. GitHubactions) hinzu, um sicherzustellen, dass für jede Einreichung und PR automatisch Linsenprüfungen ausgeführt werden.

So erhalten Sie Codeabdeckung für Golang -Tests So erhalten Sie Codeabdeckung für Golang -Tests Jul 12, 2025 am 02:58 AM

Verwenden Sie den Befehl Getest integriert, um Abdeckungsdaten zu generieren: Getest-Cover führen./... um den Abdeckungsprozentsatz jedes Pakets anzuzeigen, oder verwenden Sie Getest-Coverprofile = Deckung. Integrieren Sie den Berichterstattungsbericht in CI: Erstellen Sie eine Coverage.OUT-Datei und laden Sie die Analyse über Tools von Drittanbietern wie Codecov oder Coveralls hoch, z. B. unter Verwendung von curl-data-binary@coverage.o

Wie man Haufen Zuweisungen in einer leistungskritischen Golangfunktion vermeidet Wie man Haufen Zuweisungen in einer leistungskritischen Golangfunktion vermeidet Jul 13, 2025 am 03:06 AM

Um die Haufen -Zuordnung kritischer Pfadfunktionen in GO zu verringern, können vier Methoden eingenommen werden: 1. Verwenden Sie Stapelvariablen, um die Flucht zu vermeiden; 2. Alloster und Wiederverwendung von Objekten; 3. Vermeiden Sie implizite Fluchtschreiben; 4. Verwenden Sie Tools, um die Flucht zu überprüfen. Insbesondere umfasst es die Vermeidung der Rückkehr lokaler variabler Zeiger, die Verwendung von Werttypen zur Verringerung der Flucht, der Voralokation der Scheibenkapazität, der Verwendung von Sync.Pool zu Cache-Objekten, der Vermeidung von Verschlüssen, um große Strukturen zu erfassen, keine Schnittstellentypen zuzuweisen und Fluchtpunkte durch -gcflags = -m zu überprüfen, die GC-Druck und die Verbesserung der Leistung zu reduzieren.

See all articles