Praktischer Crawler-Kampf in Python: Maoyan Movie Crawler-Python-Tutorial-php.cn

Mit der rasanten Entwicklung der Internettechnologie wird die Informationsmenge im Internet immer größer. Als führende inländische Filmdatenplattform bietet Maoyan Movies den Nutzern umfassende Filminformationsdienste. In diesem Artikel wird erläutert, wie Sie mit Python einen einfachen Maoyan-Filmcrawler schreiben, um filmbezogene Daten abzurufen.

Übersicht über Crawler

Ein Crawler oder Webcrawler ist ein Programm, das automatisch Internetdaten abruft. Es kann auf Zielwebsites zugreifen und Daten über Links im Internet abrufen, wodurch eine automatisierte Informationserfassung realisiert wird. Python ist eine leistungsstarke Programmiersprache, die häufig in der Datenverarbeitung, Webcrawlern, visuellen Diagrammen usw. verwendet wird.

Crawler-Implementierung

Der Maoyan-Filmcrawler in diesem Artikel wird über Pythons Anfragen und BeautifulSoup-Bibliotheken implementiert. Requests ist eine Python-HTTP-Bibliothek, mit der problemlos Webseitenanforderungen gesendet werden können, und BeautifulSoup ist die HTML-Parsing-Bibliothek von Python, mit der HTML-Seiten schnell analysiert werden können. Bevor Sie beginnen, müssen Sie diese beiden Bibliotheken installieren.

2.1 Bibliothek importieren

Öffnen Sie den Python-Editor und erstellen Sie eine neue Python-Datei. Zuerst müssen Sie die erforderlichen Bibliotheken importieren:

import requests from bs4 import BeautifulSoup import csv

Nach dem Login kopieren

2.2 Erstellen Sie einen Anforderungslink

Als nächstes erstellen Sie einen Anforderungslink. Öffnen Sie die Maoyan Movie-Website, suchen Sie den Link zum Zielfilm und kopieren Sie ihn. Hier ist der Film „Detective Chinatown 3“ als Beispiel:

url = 'https://maoyan.com/films/1250952'

Nach dem Login kopieren

2.3 Senden Sie eine Anfrage

Erstellen Sie Header und legen Sie die Header-Informationen der Anfrage fest, einschließlich User-Agent, Referrer, Cookie und anderen Informationen, um die tatsächlichen Informationen zu simulieren Browser-Anfrage, um auf die Webseite zuzugreifen. Hier nehmen wir den Chrome-Browser als Beispiel. Verwenden Sie dann die Anforderungsbibliothek, um eine Anfrage zu senden und den HTML-Code der Webseite abzurufen:

headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;Win64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } response = requests.get(url,headers=headers) html = response.text

Nach dem Login kopieren

2.4 HTML-Code analysieren

Konvertieren Sie den erhaltenen HTML-Code in ein BeautifulSoup-Objekt, verwenden Sie die BeautifulSoup-Bibliothek, um den HTML-Code zu analysieren und abzurufen Zieldaten. Da die HTML-Codestruktur der Maoyan-Filmwebsite relativ komplex ist, sind fundierte Kenntnisse in HTML und BeautifulSoup erforderlich.

soup = BeautifulSoup(html,'html.parser') movie_title = soup.find('h1',class_='name').text movie_info = soup.find_all('div',class_='movie-brief-container')[0] movie_type = movie_info.find_all('li')[0].text movie_release_data = movie_info.find_all('li')[2].text movie_actors = movie_info.find_all('li')[1].text movie_score = soup.find('span',class_='score-num').text

Nach dem Login kopieren

2.5 Daten speichern

Nach der Verarbeitung der HTML-Seite müssen Sie die erhaltenen Daten lokal speichern. Hier wird die CSV-Bibliothek von Python zum Speichern von Daten verwendet. Die CSV-Bibliothek kann Daten in das CSV-Format konvertieren, um die spätere Verarbeitung zu erleichtern.

with open('movie.csv','w',newline='',encoding='utf-8-sig') as csvfile: writer = csv.writer(csvfile) writer.writerow(['电影名称',movie_title]) writer.writerow(['电影类型',movie_type]) writer.writerow(['上映日期',movie_release_data]) writer.writerow(['演员阵容',movie_actors]) writer.writerow(['豆瓣评分',movie_score])

Nach dem Login kopieren

Der gesamte Code lautet wie folgt:

import requests from bs4 import BeautifulSoup import csv url = 'https://maoyan.com/films/1250952' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;Win64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } response = requests.get(url,headers=headers) html = response.text soup = BeautifulSoup(html,'html.parser') movie_title = soup.find('h1',class_='name').text movie_info = soup.find_all('div',class_='movie-brief-container')[0] movie_type = movie_info.find_all('li')[0].text movie_release_data = movie_info.find_all('li')[2].text movie_actors = movie_info.find_all('li')[1].text movie_score = soup.find('span',class_='score-num').text with open('movie.csv','w',newline='',encoding='utf-8-sig') as csvfile: writer = csv.writer(csvfile) writer.writerow(['电影名称',movie_title]) writer.writerow(['电影类型',movie_type]) writer.writerow(['上映日期',movie_release_data]) writer.writerow(['演员阵容',movie_actors]) writer.writerow(['豆瓣评分',movie_score])

Nach dem Login kopieren

Zusammenfassung

In diesem Artikel wird erläutert, wie Sie Pythons Anfragen und BeautifulSoup-Bibliotheken verwenden, um den Maoyan-Film-Crawler zu implementieren. Durch das Senden von Netzwerkanforderungen, das Parsen von HTML-Code, das Speichern von Daten und andere Schritte können wir die filmbezogenen Zieldaten problemlos abrufen und lokal speichern. Die Webcrawler-Technologie hat einen umfassenden Anwendungswert bei der Datenerfassung, dem Data Mining usw. Wir können unser technisches Niveau durch kontinuierliches Lernen verbessern und weiterhin in der Praxis forschen.

Das obige ist der detaillierte Inhalt vonPraktischer Crawler-Kampf in Python: Maoyan Movie Crawler. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!