社群學習工具庫休閒

繁体中文

首頁 > 後端開發 > Python教學 > 爬蟲python什麼意思

爬蟲python什麼意思

藏色散人

發布： 2019-06-25 10:13:53

原創

2339 人瀏覽過

爬蟲python是什麼意思？

爬蟲，又被稱為網路爬蟲，主要指涉從網路上進行資料擷取的腳本後者程序，是進行資料分析和資料探勘的基礎。

所謂爬蟲是指在給定url(網址)中獲取我們對我們有用的數據信息，通過代碼實現數據的大量獲取，在經過後期的數據整理、計算等得出相關規律，以及行業趨勢等資訊。

Python 爬蟲架構主要由五個部分組成，分別是調度器、URL管理器、網頁下載器、網頁解析器、應用程式（爬取的有價值資料）。

調度器：

相當於一台電腦的CPU，主要負責調度URL管理器、下載器、解析器之間的協調工作。

URL管理員：

包括待爬取的URL位址和已爬取的URL位址，防止重複抓取URL和循環抓取URL，實作URL管理器主要用三種方式，透過記憶體、資料庫、快取資料庫來實現。

網頁下載器：

透過傳入一個URL位址來下載網頁，將網頁轉換成一個字串，網頁下載器有urllib2（Python官方基礎模組）包括需要登入、代理、和cookie，requests(第三方套件)

網頁解析器：

將一個網頁字串進行解析，可以按照我們的要求來提取出我們有用的信息，也可以根據DOM樹的解析方式來解析。網頁解析器有正規表示式（直觀，將網頁轉成字串透過模糊匹配的方式來提取有價值的信息，當文檔比較複雜的時候，該方法提取數據的時候就會非常的困難）、html. parser（Python自帶的）、beautifulsoup（第三方插件，可以使用Python自帶的html.parser進行解析，也可以使用lxml進行解析，相對於其他幾種來說要強大一些）、lxml（第三方插件，可以解析xml 和HTML），html.parser 和beautifulsoup 以及lxml 都是以DOM 樹的方式進行解析的。

應用程式：

就是從網頁擷取的有用資料組成的一個應用程式。

相關推薦：《Python教學》

以上是爬蟲python什麼意思的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

python

來源：php.cn

上一篇：name是python的識別碼嗎下一篇：python安裝後怎麼啟用

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

分享介面設計文件的12個注意點

2023-04-24 11:00:01
聊聊前端怎麼取得電池信息

2023-04-24 10:55:51
圖文詳解如何在Vue專案中整合Ace程式碼編輯器

2023-04-24 10:52:44
用八個demo來搞懂Go語言defer的五大特性

2023-04-23 17:40:51
詳述file_get_contents、getimagesize嚴重耗時問題

2023-04-23 17:38:02
分享一個PHP免費驗證碼（附代碼）

2023-04-23 17:34:02
linux中yum是什麼意思

2023-04-23 10:15:45
linux jboss是什麼

2023-04-23 10:10:52
分享redis多維度排行思路

2023-04-21 16:01:59
一文詳解透過php+roadrunner實現grpc服務端

2023-04-21 15:58:01

最新問題

Python/MySQL無法正確持久化整數數據在這裡不需要任何程式碼。我想要保存一個非常長的數字，因為我正在製作一個遊戲，需要保存分數。但是我測試了一下，將分數設定為25000000000，但在mysql中儲存為2147483...

來自於 2024-04-04 19:09:44

0

1

367

使用selenium想要點擊並在類別中定義URL 今天我需要另一個提示。我正在嘗試建立Python/Selenium程式碼，想法是點擊www.thewebsiteIwantoclickon下面是我正在處理的HTML範例。類別ent...

來自於 2024-04-04 14:14:44

0

1

3492

Selenium + Python - 透過execute_script檢查映像我需要使用python中的selenium驗證圖片是否顯示在頁面上。例如，讓我們檢查https://openweathermap.org/頁面左上角的標誌。我使用execute_s...

來自於 2024-04-03 09:32:15

0

1

375

保留前X行，刪除表格行的方法我在MySQLincident_archive中有一個包含數百萬筆記錄的大表，我想按created列對行進行排序，並保留前X行並刪除其餘行，最有效的方法是什麼。到目前為止，我用Py...

來自於 2024-04-01 18:32:54

0

1

347

如何使用 BeautifulSoup 抓取特定的Google天氣文字？如何使用BeautifulSoup在Python中找到課程文本“美國紐約市”？嘗試複製影片進行練習，但不再有效。嘗試在官方文件中找到一些內容，但沒有成功。或者我的get_html_...

來自於 2024-04-01 14:06:14

0

1

308

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板