dedecms採集怎麼用

(*-*)浩

發布： 2019-11-16 09:26:31

原創

3706 人瀏覽過

以織夢官方站為例，我們採集站長學院下的PHP教程欄目，打開列表地址http://www.dedecms.com/web-art/PHP_jiaocheng。

dedecms採集怎麼用

登入後台，進入“採集節點管理”，新建一個節點，選擇內容模型為“普通文章”。

1.設定節點基本資訊 （建議學習：dedecms教學）

先填入一個方便記憶的節點名稱，選擇目標頁面編碼為GB2312，防盜鏈模式不做設置，因目標站沒做限制，這一項就不做修改，系統預設超時時間10秒。

2.設定列表網址取得規則

這一步我們要做些設置，取得文章清單位址，回到目標站清單頁，觀察分頁間的變化，可以發現只有「14_」後的數字有規律的遞增變化。

首頁：http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_1.html

中：http://www.dedecms.com/web-art/PHP_jiaocheng /list_14_(*).html

末頁：http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_172.html

複製一個分頁位址，回到「新增採集節點”頁面，選擇“來源屬性”為“批量生成列表網址”，把粘貼地址到“匹配網址”中，修改規律變化處為(*)，“批量生成地址設定”處(*)輸入1到172，這裡的意思是產生出清單第一頁到最後172頁的所有位址。

測試一下，在彈出框中我們可以看到循環出172筆位址記錄，很順利的就設定好了。有時候會碰到較難取得的列表，那我們可以把沒規律的位址複製到」手動指定列表網址「文字方塊中來採集。

3.設定文章網址比對規則

上面指定了文章網址來源頁，這一步就需要在這些頁面中找出符合要求的文章網址頁了。打開一個清單頁面觀察，左欄的方框中包含了我們需要的全部位址，這種情況區分明顯的頁面，可以利「區域開始的HTML」和「區域結束的HTMLL」設定進行過濾。

不過也可以使用其他方法。把滑鼠移到各處連結位址，觀察瀏覽器左下角顯示的完整位址，我們需要的位址都包含“PHP_jiaocheng/20”，那我們把它填到“必須包含”中。

兩種方法都能夠過濾出地址，碰上複雜頁面，可以配合起來使用，加上正規，幾乎沒有篩選不出的地址，與下圖對照。最後確定，進入下一步「網頁內容取得規則」。

dedecms採集怎麼用

4.網頁內容取得規則

#上面介紹了清單設定的方法，接下來我們進入內容取得規則的設置，如果說採集是上菜的話，上面一到三步的作用，只是開胃菜為下面的主菜做引。接下來是介紹如何從目標站把文章內容收集過來，這一步是整個採集中最為核心的部分。

繼續回到織夢的PHP教學列表，隨便打開一篇列表中的文章，這裡我們以《正規表示式》這篇文章為例：http://www.dedecms.com/web -art/PHP_jiaocheng/20070420/38633.html ，把該地址複製到“預覽網址”；因為織夢所有文章都沒分頁，所以這裡的分頁就無需設置，直接進入“固定的採集項目”頁面

#（註：如果採集的內容含有分頁，只需要將分頁導覽部分的符合規則設定完成即可，這裡有全部列出的分頁清單、上一頁形式或不完整的分頁清單根據內容進行設定即可）

以下為引用的內容：

全部列出的分頁列表：分頁內容列出所有的鏈接，如下圖所示

上一頁形式或不完整的分頁清單：單頁顯示目前分頁內容，不完全顯示的清單形式

5. 固定的採集項目

進入這一步，就開始對頁面原始碼進行分析了，採集無非是分析HTML頁面的結構，從而獲取我們所需的內容。所以要求我們對HTML程式碼有一定的認識，能透過查看頁面來源文件，找出所需的內容，最好多開幾個頁面進行分析，找出相同處。

推薦大家使用Dreamweaver分析。在分析頁面程式碼的時候，多使用搜尋功能，會方便很多，特別是找到標籤後，搜尋一下看有無重複以減少分析錯誤。

1) 文章標題：這個頁面的標題是「正規表示式」複製下它，在Dreamweaver按Ctrl F鍵搜尋全部，有30項記錄。因為唯一性，這裡我們選擇105行這段「