Web Scraping ist eine unschätzbare Fähigkeit zum Sammeln von Daten von Websites, wenn keine direkte API verfügbar ist. Ob Sie Produktpreise extrahieren, Forschungsdaten sammeln oder Datensätze erstellen, Web Scraping bietet endlose Möglichkeiten.
In diesem Beitrag erkläre ich Ihnen die Grundlagen des Web Scraping, die Tools, die Sie benötigen, und bewährte Methoden, die Sie befolgen sollten, wobei ich Python als unser Haupttool verwende.
Web Scraping ist der Prozess des Extrahierens von Daten von Websites. Dies geschieht durch Anfragen an Websites, Parsen des HTML-Codes und Identifizieren von Mustern oder Tags, wo sich die Daten befinden. Im Wesentlichen verhalten wir uns wie ein Webbrowser, aber anstatt den Inhalt anzuzeigen, ziehen wir die Daten ab und verarbeiten sie.
Python verfügt über ein hervorragendes Ökosystem für Web Scraping und die folgenden Bibliotheken werden häufig verwendet:
Anfragen: Verarbeitet das Senden von HTTP-Anfragen an Websites und den Empfang von Antworten.
pip install requests
BeautifulSoup: Eine Bibliothek, die es uns ermöglicht, HTML- und XML-Dokumente zu analysieren, wodurch es einfach wird, durch die Datenstruktur zu navigieren und relevante Informationen zu extrahieren.
pip install beautifulsoup4
Selenium: Ein fortgeschritteneres Tool zum Scrapen dynamischer Webseiten, insbesondere solcher, die auf JavaScript basieren. Es automatisiert den Webbrowser, um Seiten vor dem Extrahieren von Daten zu rendern.
pip install selenium
Pandas: Pandas eignet sich zwar nicht ausschließlich für das Web-Scraping, eignet sich jedoch zum Bereinigen, Analysieren und Speichern von Scraping-Daten in einem strukturierten Format wie CSV, Excel oder einer Datenbank.
pip install pandas
Beginnen wir mit dem Scraping einer statischen Webseite, auf der die Daten direkt in der HTML-Quelle verfügbar sind. Für dieses Beispiel erstellen wir eine Tabelle mit Kryptowährungspreisen.
import requests from bs4 import BeautifulSoup # Step 1: Make an HTTP request to get the webpage content url = 'https://example.com/crypto-prices' response = requests.get(url) # Step 2: Parse the HTML content using BeautifulSoup soup = BeautifulSoup(response.content, 'html.parser') # Step 3: Find and extract data (e.g., prices from a table) table = soup.find('table', {'id': 'crypto-table'}) rows = table.find_all('tr') # Step 4: Iterate through rows and extract text data for row in rows[1:]: cols = row.find_all('td') name = cols[0].text.strip() price = cols[1].text.strip() print(f'{name}: {price}')
Viele moderne Websites verwenden JavaScript, um Daten dynamisch zu laden, was bedeutet, dass die gesuchten Informationen möglicherweise nicht direkt in der Seitenquelle verfügbar sind. In solchen Fällen kann Selenium zum Rendern der Seite und Extrahieren von Daten verwendet werden.
from selenium import webdriver from selenium.webdriver.common.by import By # Step 1: Set up Selenium WebDriver (e.g., ChromeDriver) driver = webdriver.Chrome(executable_path='path_to_chromedriver') # Step 2: Load the webpage driver.get('https://example.com') # Step 3: Interact with the page or wait for dynamic content to load element = driver.find_element(By.ID, 'dynamic-element') # Step 4: Extract data print(element.text) # Step 5: Close the browser driver.quit()
Beachten Sie die Website-Regeln: Überprüfen Sie immer die robots.txt-Datei der Website, um zu verstehen, was Sie scrapen dürfen. Zum Beispiel: https://example.com/robots.txt.
Verwenden Sie Verzögerungen, um eine Ratenbegrenzung zu vermeiden: Einige Websites blockieren möglicherweise Ihre IP, wenn Sie zu schnell zu viele Anfragen stellen. Verwenden Sie time.sleep() zwischen Anfragen, um eine Blockierung zu vermeiden.
Verwenden Sie Header und Benutzeragenten: Websites blockieren häufig Nicht-Browser-Anfragen. Durch das Festlegen benutzerdefinierter Header, insbesondere des User-Agent, können Sie einen echten Browser nachahmen.
headers = {'User-Agent': 'Mozilla/5.0'} response = requests.get(url, headers=headers)
Paginierung handhaben: Wenn die Daten über mehrere Seiten verteilt sind, müssen Sie die Seiten durchlaufen, um alles zu durchsuchen. Sie können dies normalerweise erreichen, indem Sie die URL-Abfrageparameter ändern.
Fehlerbehandlung: Seien Sie immer auf den Umgang mit Fehlern vorbereitet, z. B. fehlende Daten oder fehlgeschlagene Anfragen. Dadurch wird sichergestellt, dass Ihr Scraper auch dann reibungslos läuft, wenn sich die Website-Struktur ändert.
Sobald Sie die Daten ausgekratzt haben, ist es wichtig, sie für die weitere Analyse zu speichern. Sie können Pandas verwenden, um die Daten in einen DataFrame zu konvertieren und im CSV-Format zu speichern:
import pandas as pd data = {'Name': ['Bitcoin', 'Ethereum'], 'Price': [45000, 3000]} df = pd.DataFrame(data) df.to_csv('crypto_prices.csv', index=False)
Alternativ können Sie die Daten in einer Datenbank wie SQLite oder PostgreSQL speichern, wenn Sie mit größeren Datensätzen arbeiten möchten.
Schaben muss immer ethisch erfolgen. Hier sind ein paar Dinge, die Sie beachten sollten:
Beachten Sie stets die Nutzungsbedingungen der Website.
Überlasten Sie den Server nicht mit zu vielen Anfragen.
Wenn eine API verfügbar ist, verwenden Sie diese, anstatt die Website zu crawlen.
Geben Sie die Datenquelle an, wenn Sie planen, die erfassten Daten zu veröffentlichen oder zu teilen.
Web Scraping ist ein leistungsstarkes Tool zur Datenerfassung, erfordert jedoch eine sorgfältige Abwägung ethischer und technischer Faktoren. Mit Tools wie Requests, BeautifulSoup und Selenium erleichtert Python den Einstieg. Indem Sie Best Practices befolgen und die Website-Regeln im Auge behalten, können Sie wertvolle Daten für Ihre Projekte effizient sammeln und verarbeiten.
Viel Spaß beim Schaben!
Das obige ist der detaillierte Inhalt vonEin Anfängerleitfaden zum Web Scraping mit Python: Best Practices und Tools. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!