Web Scraping mal ausprobieren
Erste Schritte
Zuerst müssen wir Go installiert haben, Anweisungen zum Herunterladen und Installieren von Go.
Wir erstellen einen neuen Ordner für das Projekt, wechseln in das Verzeichnis und führen den folgenden Befehl aus:
go mod init scraper
? Der Befehl „go mod init“ wird verwendet, um ein neues Go-Modul in dem Verzeichnis zu initialisieren, in dem es ausgeführt wird, und erstellt eine go.mod-Datei, um Codeabhängigkeiten zu verfolgen. Abhängigkeitsmanagement
Jetzt installieren wir Colibri:
go get github.com/gonzxlez/colibri
? Colibri ist ein Go-Paket, das es uns ermöglicht, strukturierte Daten im Web mithilfe eines in JSON definierten Regelsatzes zu crawlen und zu extrahieren. Repository
Extraktionsregeln
Wir definieren die Regeln, die Colibri verwendet, um die von uns benötigten Daten zu extrahieren. Dokumentation
Wir werden eine HTTP-Anfrage an die URL https://pkg.go.dev/search?q=xpath stellen, die die Ergebnisse einer Abfrage nach Go-Paketen im Zusammenhang mit xpath in Go-Paketen enthält.
Mit den in unserem Webbrowser enthaltenen Entwicklungstools können wir die HTML-Struktur der Seite überprüfen. Was sind die Browser-Entwicklungstools?
<div class="SearchSnippet"> <div class="SearchSnippet-headerContainer"> <h2> <a href="/github.com/antchfx/xpath" data-gtmc="search result" data-gtmv="0" data-test-id="snippet-title"> xpath <span class="SearchSnippet-header-path">(github.com/antchfx/xpath)</span> </a> </h2> </div> <div class="SearchSnippet-infoLabel"> <a href="/github.com/antchfx/xpath?tab=importedby" aria-label="Go to Imported By"> <span class="go-textSubtle">Imported by </span><strong>143</strong> </a> <span class="go-textSubtle">|</span> <span class="go-textSubtle"> <strong>v1.2.5</strong> published on <span data-test-id="snippet-published"><strong>Oct 26, 2023</strong></span> </span> <span class="go-textSubtle">|</span> <span data-test-id="snippet-license"> <a href="/github.com/antchfx/xpath?tab=licenses" aria-label="Go to Licenses"> MIT </a> </span> </div> </div>
Fragment der HTML-Struktur, die ein Ergebnis der Abfrage darstellt.
Dann brauchen wir einen Selektor „Pakete“, der alle div-Elemente im HTML mit der Klasse SearchSnippet findet, aus diesen Elementen einen Selektor „ name“ übernimmt den Text des Elements a innerhalb eines Elements h2 und einen Selektor „path“ nimmt den Wert des Attributs href des Elements a innerhalb eines an h2 Element. Mit anderen Worten: „Name“ übernimmt den Namen des Go-Pakets und „Pfad“ den Pfad des Pakets :)
{ "method": "GET", "url": "https://pkg.go.dev/search?q=xpath", "timeout": 10000, "selectors": { "packages": { "expr": "div.SearchSnippet", "all": true, "type": "css", "selectors": { "name": "//h2/a/text()", "path": "//h2/a/@href" } } } }
- Methode: gibt die HTTP-Methode an (GET, POST, PUT, ...).
- URL:URL der Anfrage.
- Timeout:Timeout in Millisekunden für die HTTP-Anfrage.
- Selektoren:Selektoren.
- „Pakete“: ist der Name des Selektors.
- expr: Selektorausdruck.
- all: gibt an, dass alle Elemente gefunden werden sollen, die dem Ausdruck entsprechen.
- Typ: der Typ des Ausdrucks, in diesem Fall ein CSS-Selektor.
- Selektoren: verschachtelte Selektoren.
- „Name“ und „Pfad“ sind die Namen der Selektoren und ihre Werte sind Ausdrücke, in diesem Fall XPath-Ausdrücke.
- „Pakete“: ist der Name des Selektors.
Code in Go
Wir sind bereit, eine scraper.go-Datei zu erstellen, die erforderlichen Pakete zu importieren und die Hauptfunktion zu definieren:
package main import ( "encoding/json" "fmt" "github.com/gonzxlez/colibri" "github.com/gonzxlez/colibri/webextractor" ) var rawRules = `{ "method": "GET", "url": "https://pkg.go.dev/search?q=xpath", "timeout": 10000, "selectors": { "packages": { "expr": "div.SearchSnippet", "all": true, "type": "css", "selectors": { "name": "//h2/a/text()", "path": "//h2/a/@href" } } } }` func main() { we, err := webextractor.New() if err != nil { panic(err) } var rules colibri.Rules err = json.Unmarshal([]byte(rawRules), &rules) if err != nil { panic(err) } output, err := we.Extract(&rules) if err != nil { panic(err) } fmt.Println("URL:", output.Response.URL()) fmt.Println("Status code:", output.Response.StatusCode()) fmt.Println("Content-Type", output.Response.Header().Get("Content-Type")) fmt.Println("Data:", output.Data) }
? WebExtractor sind Standardschnittstellen für Colibri, mit denen Sie mit dem Crawlen oder Extrahieren von Daten im Web beginnen können.Mithilfe der neuen Funktion von WebExtractor generieren wir eine Colibri-Struktur mit allem, was zum Starten der Datenextraktion erforderlich ist.
Dann konvertieren wir unsere Regeln in JSON in eine Regelstruktur und rufen die Extract-Methode auf, um die Regeln als Argumente zu senden.
Wir erhalten die Ausgabe und die URL der HTTP-Antwort, den HTTP-Statuscode, den Inhaltstyp der Antwort und die mit den Selektoren extrahierten Daten werden auf dem Bildschirm gedruckt. Weitere Informationen finden Sie in der Dokumentation zur Ausgabestruktur.
Wir führen den folgenden Befehl aus:
go mod tidy
? Der Befehl „go mod Tidy“ stellt sicher, dass die Abhängigkeiten in go.mod mit dem Quellcode des Moduls übereinstimmen.Zuletzt kompilieren wir unseren Code und führen ihn in Go mit dem Befehl aus:
go run scraper.go
Abschluss
In diesem Beitrag haben wir gelernt, wie man Web Scraping in Go mit dem Colibri-Paket durchführt und Extraktionsregeln mit CSS- und XPath-Selektoren definiert. Colibri ist ein Tool für diejenigen, die die Webdatenerfassung in Go automatisieren möchten. Sein regelbasierter Ansatz und seine Benutzerfreundlichkeit machen es zu einer attraktiven Option für Entwickler aller Erfahrungsstufen.
Kurz gesagt ist Web Scraping in Go eine leistungsstarke und vielseitige Technik, mit der Informationen aus einer Vielzahl von Websites extrahiert werden können. Es ist wichtig zu betonen, dass Web Scraping auf ethische Weise durchgeführt werden muss, die Geschäftsbedingungen der Websites respektiert werden und eine Überlastung ihrer Server vermieden werden muss.
Das obige ist der detaillierte Inhalt vonWeb Scraping mal ausprobieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undress AI Tool
Ausziehbilder kostenlos

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Es ist nicht schwierig, einen in Go geschriebenen Webserver zu erstellen. Der Kern liegt in der Verwendung des NET/HTTP -Pakets zur Implementierung grundlegender Dienste. 1. Verwenden Sie Net/HTTP, um den einfachsten Server zu starten: Registrieren Sie die Verarbeitungsfunktionen und hören Sie Ports über einige Codezeilen an. 2. Routing -Management: Verwenden Sie ServeMux, um mehrere Schnittstellenpfade für eine einfache strukturierte Verwaltung zu organisieren. 3. Häufige Praktiken: Gruppenrouting nach funktionalen Modulen und verwenden Bibliotheken von Drittanbietern, um eine komplexe Übereinstimmung zu unterstützen. 4. Statischer Dateidienst: Geben Sie HTML-, CSS- und JS -Dateien über http.FileServer an; 5. Leistung und Sicherheit: Aktivieren Sie HTTPS, begrenzen Sie die Größe des Anforderungsorganisation und stellen Sie Zeitüberschreitungen ein, um die Sicherheit und Leistung zu verbessern. Nach dem Beherrschen dieser Schlüsselpunkte ist es einfacher, die Funktionalität zu erweitern.

Der Kern der Audio- und Videoverarbeitung liegt darin, die grundlegenden Prozess- und Optimierungsmethoden zu verstehen. 1. Der grundlegende Prozess umfasst Akquisition, Codierung, Übertragung, Decodierung und Wiedergabe, und jeder Link hat technische Schwierigkeiten. 2. Häufige Probleme wie Audio- und Video -Aberration, Verzögerungsverzögerung, Schallgeräusch, verschwommenes Bild usw. können durch synchrone Einstellung, Codierungsoptimierung, Rauschverringerungsmodul, Parameteranpassung usw. gelöst werden; 3.. Es wird empfohlen, FFMPEG, OpenCV, Webrtc, Gstreamer und andere Tools zu verwenden, um Funktionen zu erzielen. 4. In Bezug auf das Leistungsmanagement sollten wir auf die Beschleunigung der Hardware, die angemessene Einstellung der Auflösungsrahmenquoten, die Kontrollverkehr und Speicher -Leckage -Probleme achten. Wenn Sie diese wichtigen Punkte beherrschen, werden die Entwicklungseffizienz und die Benutzererfahrung verbessert.

Der Zweck von Select Plus -Standard besteht darin, das Auswählen zu ermöglichen, ein Standardverhalten durchzuführen, wenn keine anderen Zweige bereit sind, um das Programmblockieren zu vermeiden. 1. Beim Empfangen von Daten aus dem Kanal ohne Blockierung, wenn der Kanal leer ist, wird direkt die Standardzweigung eingegeben. 2. In Kombination mit der Zeit. Nach oder Ticker versuchen Sie, Daten regelmäßig zu senden. Wenn der Kanal voll ist, wird er nicht blockiert und überspringt. 3. Verhindern Sie Deadlocks, vermeiden Sie das Programm, das nicht sicher ist, ob der Kanal geschlossen ist. Beachten Sie bei der Verwendung, dass die Standardzweig sofort ausgeführt wird und nicht missbraucht wird, und standardmäßig und der Fall sind sich gegenseitig ausschließlich und werden nicht gleichzeitig ausgeführt.

Der effizienteste Weg, um einen Kubernetesoperator zu schreiben, besteht darin, GO zu verwenden, um Kubebuilder und Controller-Runtime zu kombinieren. 1. Verstehen Sie das Bedienermuster: Definieren Sie benutzerdefinierte Ressourcen über CRD, schreiben Sie einen Controller, um auf Ressourcenänderungen zu hören und Versöhnungsschleifen durchzuführen, um den erwarteten Zustand aufrechtzuerhalten. 2. Verwenden Sie Kubebuilder, um das Projekt zu initialisieren und APIs zu erstellen, um automatisch CRDs, Controller und Konfigurationsdateien zu generieren. 1. Definieren Sie die Spezifikation und die Statusstruktur von CRD in API/v1/myapp_types.go und führen Sie MakeManifests aus, um Crdyaml zu generieren. 4.. Versöhnung im Controller

Wie implementieren Sie schnell ein RestAPI -Beispiel in Go? Die Antwort ist die Verwendung der NET/HTTP -Standardbibliothek, die gemäß den folgenden drei Schritten abgeschlossen werden kann: 1. Richten Sie die Projektstruktur ein und initialisieren Sie das Modul; 2. Definieren Sie die Datenstruktur- und Verarbeitungsfunktionen, einschließlich des Erhaltens aller Daten, das Erhalten von Einzeldaten basierend auf der ID und das Erstellen neuer Daten; 3. Registrieren Sie die Route in der Hauptfunktion und starten Sie den Server. Der gesamte Prozess erfordert keine Bibliothek von Drittanbietern. Die grundlegende Restapi -Funktion kann über die Standardbibliothek realisiert und über den Browser oder Postboten getestet werden.

Die Installationsschritte der Golangci-Lint sind: 1. Installation mit Binärinstallation oder GOInstall-Befehl; 2. Überprüfen Sie, ob die Installation erfolgreich ist; Zu den Konfigurationsmethoden gehören: 3.. Erstellen Sie eine .golangci.yml -Datei, um Linter zu aktivieren/zu deaktivieren, einen Ausschlusspfad usw. festlegen; Die Integrationsmethoden sind: 4. Fügen Sie Lint -Schritte in CI/CD (z. B. GitHubactions) hinzu, um sicherzustellen, dass für jede Einreichung und PR automatisch Linsenprüfungen ausgeführt werden.

Verwenden Sie den Befehl Getest integriert, um Abdeckungsdaten zu generieren: Getest-Cover führen./... um den Abdeckungsprozentsatz jedes Pakets anzuzeigen, oder verwenden Sie Getest-Coverprofile = Deckung. Integrieren Sie den Berichterstattungsbericht in CI: Erstellen Sie eine Coverage.OUT-Datei und laden Sie die Analyse über Tools von Drittanbietern wie Codecov oder Coveralls hoch, z. B. unter Verwendung von curl-data-binary@coverage.o

Um die Haufen -Zuordnung kritischer Pfadfunktionen in GO zu verringern, können vier Methoden eingenommen werden: 1. Verwenden Sie Stapelvariablen, um die Flucht zu vermeiden; 2. Alloster und Wiederverwendung von Objekten; 3. Vermeiden Sie implizite Fluchtschreiben; 4. Verwenden Sie Tools, um die Flucht zu überprüfen. Insbesondere umfasst es die Vermeidung der Rückkehr lokaler variabler Zeiger, die Verwendung von Werttypen zur Verringerung der Flucht, der Voralokation der Scheibenkapazität, der Verwendung von Sync.Pool zu Cache-Objekten, der Vermeidung von Verschlüssen, um große Strukturen zu erfassen, keine Schnittstellentypen zuzuweisen und Fluchtpunkte durch -gcflags = -m zu überprüfen, die GC-Druck und die Verbesserung der Leistung zu reduzieren.
