Gemeinschaft Lernen Tools-Bibliothek Freizeit

Deutsch

Heim > Backend-Entwicklung > Python-Tutorial > Python crawlt andere Webseiten

Python crawlt andere Webseiten

零到壹度

Freigeben： 2018-03-30 10:38:35

Original

2322 Leute haben es durchsucht

Dieser Artikel teilt Ihnen hauptsächlich eine Python-Anfragemethode zum Crawlen anderer Webseiten mit. Sie hat einen guten Referenzwert und ich hoffe, dass sie für alle hilfreich ist. Folgen wir dem Herausgeber, um einen Blick darauf zu werfen. Ich hoffe, es kann allen helfen.

Einfach ausgedrückt geht es darum, den Hyperlink „href“ auf der Webseite zu finden, dann die relative URL in eine absolute URL umzuwandeln und eine for-Schleife zu verwenden, um darauf zuzugreifen

import requestsfrom bs4 import BeautifulSoup#将字符串转换为Python对象import pandas as pd
url = &#39;http://www.runoob.com/html/html-tutorial.html&#39;r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,&#39;lxml&#39;)#html放到beatifulsoup对象中l=[x.text for x in soup.findAll(&#39;h2&#39;)]#提取次标题中所有的文字df = pd.DataFrame(l,columns =[url])#将l变为DataFrame文件，列名为URLx=soup.findAll(&#39;a&#39;)[1]#查看第二个元素x.has_attr(&#39;href&#39;)#判断是都有href字符x.attrs[&#39;href&#39;]#获得超链接 attrs函数返回字典links = [i for i in soup.findAll(&#39;a&#39;)if i.has_attr(&#39;href&#39;)and i.attrs[&#39;href&#39;][0:5]== &#39;/html&#39;]#用if来做一个筛选relative_urls= set([i.attrs[&#39;href&#39;] for i in links])
absolute_urls={&#39;http://www.runoob.com&#39;+i for i in relative_urls}
absolute_urls.discard(url)#删除当前所在的urlfor i in absolute_urls:
    ri= requests.get(i)
    soupi =BeautifulSoup(ri.text.encode(ri.encoding),&#39;lxml&#39;)
    li=[x.text for x in soupi.findAll(&#39;h2&#39;)]
    dfi = pd.DataFrame(l,columns =[i])
    df = df.join(dfi,how=&#39;outer&#39;)
df

Nach dem Login kopieren

Verwandte Empfehlungen:

Python crawlt einfache Webseiten

Python Crawler crawlt Tencent News

Python crawlt Taobao-Produktinformationen

Das obige ist der detaillierte Inhalt vonPython crawlt andere Webseiten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten：

python

Quelle：php.cn

Vorheriger Artikel：Beispielanalyse, wie Python das Crawlen von JD-Handybildern implementiert Nächster Artikel：So schreiben Sie ein vollständiges Crawler-Framework

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Neueste Artikel des Autors

Folgen Sie mir, um PS-Tag 02 zu lernen: Materialien mit Lichteffekten ausschneiden

2018-08-28 15:02:42
Folgen Sie mir in PS Day 01: So entfernen Sie das Siegel aus dem Dokument

2018-08-25 10:55:46
Folgen Sie mir in PS-Tag 02: Wie man komplexe Hölzer schneidet

2018-08-20 16:25:41
Folgen Sie mir, um PS-Tag 01 zu lernen: Wie man Farbbilder ausschneidet, um Strichzeichnungseffekte zu erzielen

2018-08-18 11:26:54
Folgen Sie mir, um PS Day 02: Blur Tool zu lernen

2018-08-14 16:35:58
Folgen Sie mir, um PS Day 01: Repair Brush Tool zu lernen

2018-07-28 15:36:43
Folgen Sie mir, um PS Day 02 zu lernen: Wie man mobile Tools nutzt und anwendet

2018-07-27 16:59:00
Folgen Sie mir, um PS-Tag 01 zu lernen: Verwenden Sie das Zuschneidewerkzeug

2018-07-27 15:22:47
Folgen Sie mir, um PS Day 02 zu lernen: Üben Sie das Lasso-Werkzeug in Photoshop

2018-07-23 17:56:00
Folgen Sie mir, um PS Day 01 zu lernen: So fügen Sie Fotos Randeffekte hinzu

2018-07-23 16:21:38

Aktuelle Ausgaben

Python/MySQL kann Ganzzahldaten nicht korrekt beibehalten Hier ist kein Code erforderlich. Ich möchte eine sehr lange Zahl speichern, weil ich ein S...

Aus 2024-04-04 19:09:44

0

1

367

Mit Selenium möchten Sie im Unterricht auf die URL klicken und sie definieren Ich brauche heute noch einen Tipp. Ich versuche, Python/Selenium-Code zu erstellen und die...

Aus 2024-04-04 14:14:44

0

1

3492

Selenium + Python – Bild überexecute_script prüfen Ich muss mit Selenium in Python überprüfen, ob ein Bild auf der Seite angezeigt wird. Scha...

Aus 2024-04-03 09:32:15

0

1

375

So behalten Sie die ersten X Zeilen bei und löschen Tabellenzeilen Ich habe eine große Tabelle mit Millionen von Datensätzen in MySQLincident_archive. Ich mö...

Aus 2024-04-01 18:32:54

0

1

347

Wie kratze ich mit BeautifulSoup bestimmten Google Weather-Text? Wie finde ich mit BeautifulSoup den Kurstext „New York City, USA“ in Python? Ich habe vers...

Aus 2024-04-01 14:06:14

0

1

308

verwandte Themen

Mehr>

Beliebte Empfehlungen

Beliebte Tutorials

Mehr>

Verwandte Tutorials

Beliebte Empfehlungen

Aktuelle Kurse

Neueste Downloads

Mehr>

Web-Effekte

Quellcode der Website

Website-Materialien

Frontend-Vorlage