So analysieren Sie HTML-Dokumente mit Python und BeautifulSoup: Laden Sie das HTML-Dokument und erstellen Sie ein BeautifulSoup-Objekt. Verwenden Sie BeautifulSoup-Objekte, um Tag-Elemente zu finden und zu verarbeiten, z. B.: Suchen Sie ein bestimmtes Tag: Suppe.find(Tag_Name) Suchen Sie alle spezifischen Tags: Suppe.find_all(Tag_Name) Suchen Sie Tags mit bestimmten Attributen: Suppe.find(Tag_Name, {'Attribut ': 'value'}) extrahiert den Textinhalt oder den Attributwert des Labels. Passen Sie den Code nach Bedarf an, um spezifische Informationen zu erhalten.
Ziel:
Erfahren Sie, wie Sie HTML-Dokumente mit Python und der BeautifulSoup-Bibliothek analysieren.
Grundlegende Kenntnisse:
Code:
from bs4 import BeautifulSoup # 加载 HTML 文档 html_doc = """ <html> <head> <title>HTML 文档</title> </head> <body> <h1>标题</h1> <p>段落</p> </body> </html> """ # 创建 BeautifulSoup 对象 soup = BeautifulSoup(html_doc, 'html.parser') # 获取标题标签 title_tag = soup.find('title') print(title_tag.text) # 输出:HTML 文档 # 获取所有段落标签 paragraph_tags = soup.find_all('p') for paragraph in paragraph_tags: print(paragraph.text) # 输出:段落 # 获取特定属性的值 link_tag = soup.find('link', {'rel': 'stylesheet'}) print(link_tag['href']) # 输出:样式表链接
Praktischer Fall:
Ein einfacher praktischer Fall ist die Verwendung von BeautifulSoup spezifizierte Informationen von einer Webseite Reptil. Sie können beispielsweise den folgenden Code verwenden, um Fragen und Antworten aus Stack Overflow zu extrahieren:
import requests from bs4 import BeautifulSoup url = 'https://stackoverflow.com/questions/31207139/using-beautifulsoup-to-extract-specific-attribute' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') questions = soup.find_all('div', {'class': 'question-summary'}) for question in questions: question_title = question.find('a', {'class': 'question-hyperlink'}).text question_body = question.find('div', {'class': 'question-snippet'}).text print(f'问题标题:{question_title}') print(f'问题内容:{question_body}') print('---')
Dies ist nur eines von vielen Beispielen für die Verwendung von BeautifulSoup zum Parsen von HTML-Dokumenten. Sie können den Code anpassen, um je nach Ihren spezifischen Anforderungen unterschiedliche Informationen zu erhalten.
Das obige ist der detaillierte Inhalt vonHTML-Absätze werden automatisch um zwei Leerzeichen eingerückt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!