Laden Sie PDF-Dateien mit Pythons Requests und BeautifulSoup herunter-Python-Tutorial-php.cn

Laden Sie PDF-Dateien mit Pythons Requests und BeautifulSoup herunter

王林

Freigeben： 2023-08-30 15:25:06

nach vorne

954 Leute haben es durchsucht

Laden Sie PDF-Dateien mit Pythons Requests und BeautifulSoup herunter

Request und BeautifulSoup sind Python-Bibliotheken, die jede Datei oder jedes PDF online herunterladen können. Die Anforderungsbibliothek wird zum Senden von HTTP-Anforderungen und zum Empfangen von Antworten verwendet. Die BeautifulSoup-Bibliothek wird verwendet, um den in der Antwort empfangenen HTML-Code zu analysieren und den herunterladbaren PDF-Link zu erhalten. In diesem Artikel erfahren Sie, wie Sie PDFs mit Request und Beautiful Soup in Python herunterladen.

Abhängigkeiten installieren

Bevor wir die Bibliotheken BeautifulSoup und Request in Python verwenden, müssen wir diese Bibliotheken mit dem Befehl pip im System installieren. Um request und die BeautifulSoup- und Request-Bibliotheken zu installieren, führen Sie die folgenden Befehle im Terminal aus.

pip install requests
pip install beautifulsoup4

Nach dem Login kopieren

PDF mit Request und Beautiful Soup herunterladen

Um eine PDF-Datei aus dem Internet herunterzuladen, müssen Sie zunächst mithilfe der Anforderungsbibliothek die URL der PDF-Datei ermitteln. Anschließend können wir Beautiful Soup verwenden, um die HTML-Antwort zu analysieren und den Link zur PDF-Datei zu extrahieren. Die Basis-URL und der nach dem Parsen erhaltene PDF-Link werden dann kombiniert, um die URL der PDF-Datei zu erhalten. Jetzt können wir die Anforderungsmethode verwenden, um eine Get-Anfrage zum Herunterladen der Datei zu senden.

Beispiel

Fügen Sie im folgenden Code die gültige URL der Seite ein, die die URL der PDF-Datei enthält, unter „https://example.com/document.pdf“

import requests
from bs4 import BeautifulSoup

# Step 1: Fetch the PDF URL
url = 'https://example.com/document.pdf'
response = requests.get(url)

if response.status_code == 200:
   # Step 2: Parse the HTML to get the PDF link
   soup = BeautifulSoup(response.text, 'html.parser')
   link = soup.find('a')['href']

   # Step 3: Download the PDF
   pdf_url = url + link
   pdf_response = requests.get(pdf_url)

   if pdf_response.status_code == 200:
      with open('document.pdf', 'wb') as f:
         f.write(pdf_response.content)
      print('PDF downloaded successfully.')
   else:
      print('Error:', pdf_response.status_code)
else:
   print('Error:', response.status_code)

Nach dem Login kopieren

Ausgabe

PDF downloaded successfully.

Nach dem Login kopieren

Fazit

In diesem Artikel haben wir besprochen, wie man mithilfe der Request- und Beautiful Soup-Bibliotheken in Python PDF-Dateien aus dem Internet herunterlädt. Über die Anforderungsmethode können wir eine HTTP-Anfrage senden, um den PDF-Link zu überprüfen. Sobald wir eine Seite finden, die einen Link zu einer PDF-Datei enthält, können wir Beautiful Soup Download verwenden, um die Seite zu analysieren und den herunterladbaren PDF-Link zu erhalten.

Das obige ist der detaillierte Inhalt vonLaden Sie PDF-Dateien mit Pythons Requests und BeautifulSoup herunter. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!