網路爬蟲技術是指依照一定的規則,自動地抓取萬維網資訊的技術。網路爬蟲又稱為網頁蜘蛛、網路機器人,在FOAF社群中間,更常的稱為網頁追逐者;另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或蠕蟲。
網路爬蟲技術是指依照一定的規則,自動抓取萬維網資訊的技術
網路爬蟲(又稱網頁蜘蛛,網路機器人,在FOAF社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網資訊的程式或腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或蠕蟲。
抓取目標的描述和定義是決定網頁分析演算法與URL搜尋策略如何被訂定的基礎。而網頁分析演算法和候選URL排序演算法是決定搜尋引擎所提供的服務形式和爬蟲網頁抓取行為的關鍵。這兩個部分的演算法又是緊密相關的。
現有聚焦爬蟲對抓取目標的描述可分為基於目標網頁特徵、基於目標資料模式和基於領域概念3種。
基於目標網頁特徵
基於目標網頁特徵的爬蟲所抓取、儲存並索引的物件一般為網站或網頁。根據種子樣本取得方式可分為:
(1) 預先給定的初始抓取種子樣本;
(2) 預先給定的網頁分類目錄和與分類目錄對應的種子樣本,如Yahoo!分類結構等;
(3) 透過使用者行為決定的抓取目標範例,分為:
(a) 使用者瀏覽過程中顯示標註的抓取樣本;
(b) 透過使用者日誌挖掘得到存取模式及相關樣本。
其中,網頁特徵可以是網頁的內容特徵,也可以是網頁的連結結構特徵,等等。
基於目標數據模式
基於目標數據模式的爬蟲針對的是網頁上的數據,所抓取的數據一般要符合一定的模式,或者可以轉換或映射為目標資料模式。
基於領域概念
另一種描述方式是建立目標領域的本體或字典,用於從語意角度分析不同特徵在某一主題中的重要程度。
更多相關知識,請造訪PHP中文網! !
以上是網路爬蟲技術是什麼意思?的詳細內容。更多資訊請關注PHP中文網其他相關文章!