dedecms採集規則怎麼寫

發布: 2019-07-19 11:41:22
原創
3778 人瀏覽過

dedecms採集規則怎麼寫

織夢系統作為一個比較常用的文章系統,相對來說操作比較容易。在眾多功能中,採集系統可能對部分新手來說可能是比較頭疼,例如採集區域設定不對、採集規則具體編輯不正確、採集後空白等問題。今天我們就從比較容易遇到的幾個問題來詳細解說下。

首先我們先登入後台,分別點選擷取--擷取節點管理,進入擷取管理設定介面

dedecms採集規則怎麼寫

這裡有兩個可以選擇,一個是修改原先的節點(主要是之前設定錯誤導致採集不了或其他設定),一個是直接新增節點,大部分以新增節點為主,點擊,然後下一步,選擇「普通文章」確認。

dedecms採集規則怎麼寫

然後填入節點名稱(建議是和欄位相關的名稱,避免導入的時候出錯),這個按實際填入就可以了。然後第一個重點:目標頁面編碼 。這個是一定要填寫目標網頁的編碼,非自己網頁的。查看方法:打開目標網站隨便一個頁面,空白地方右鍵-查看原始程式碼(編碼一般在前幾行)

dedecms採集規則怎麼寫

然後是填寫清單規則,一種是批量產生網址,一般適用於規律比較強的或需要採集是從上到下的。例如我們是以這個欄位目標的:

第一頁清單:http://youqubu.cn/tansuo/list_5_1.html

第二頁清單:http://youqubu. cn/tansuo/list_5_2.html。

這個列表規則最重要的是找相同和不同點,相同點填上去,不同點用匹配符號補充,就是變數。其實這個對比我們可以知道,http://youqubu.cn/tansuo/list_5_ .html這裡都是一樣的,所以變數就是1.2.3.4.。 。所以符合的網址是:

http://youqubu.cn/tansuo/list_5_(*).html。

dedecms採集規則怎麼寫

另一種是清單規則是手動指定清單網址,這就比較通俗了。就是把你所有需要採集的清單頁填寫上去。 (比較適合只採集某幾頁或變數比較多的頁面)

注意:很多網站的欄位首頁是以http://xxx.xx/xxx/這樣的形式展示的,可以對比以上我們發現,少了後面的變數項。所以找到有變數項的方法是:點選這個清單的下一頁,如果還弄不清楚就再點擊下一頁,對比列表的第二和第三頁,我們可以同樣發現步驟四的變數項。

dedecms採集規則怎麼寫

這一步是取得該清單下文章的全部位址,我們要從清單頁中取得全部的文章頁位址。我們還是以:http://youqubu.cn/tansuo/list_5_1.html列表為例。複製該清單下第一篇文章的標題,然後列表頁空白處右鍵--查看原始程式碼,按ctrl F查找,貼上剛剛複製的標題,定位到該文字原始程式碼中的位置。其實這個是有一定規律的。然後我們查找原始程式碼中哪部分程式碼是唯一的並且能夠包含列表所有文章地址的(注意:開始程式碼查找應該從列表第一篇文章標題開始往上找,結束程式碼查找應該從列表第一篇文章標題開始往下找)。透過這個原始碼可知。開始代碼:

    和結束代碼:
    能夠包含所有的文章列表,並且代碼是唯一的

    dedecms採集規則怎麼寫

    #

    下一步的缩略图我们可以选择不采集,因为织梦本身是会把第一张图片默认为缩略图的,这个看实际情况。下面是对网址的筛选:包含的意思是:这个步骤六选择的代码区间的文章网址只有包含了这部分才会被采集(这里有两种情况:1。譬如上面演示的地址,它是以超链接的形式,不是完整的网址,所以这种情况千万不要填写包含。2.就是列表涉及到多个链接的,比如标签这样的,最好填写包含,填写你想要的网址有的,不想要的网址没有的部分)。然后下一步。这边会列出因为上面填写的规则所采集到的列表页中文章的网址。如果是空白:我们可以先删除必须包含和不能包含,点击下一步测试,如果能采集到连接但是很乱,那就是你这步包含相关填错了;如果这样操作还是没有采集到东西,那就是“包含文章网址区域”这步填写错了。

    dedecms採集規則怎麼寫

    dedecms採集規則怎麼寫

    分页规则也主要分两种:一种是直接填写默认代码:{path}{file}_{p}{ext} 然后选择分页列表规则(如下图)。 另一种是打开目标文章页,找到有上下几页的文章,右键查看源码,找到这部分代码,填写方式和文章页网址区域的方法一样,然后右边选择:全部列出的分页列表。(第二种方法要注意,因为涉及到多页,填写首尾代码的时候一定要多翻几张,然后查看源代码,把你认为共同的代码在多个页面查找下,因为可能出现你选择的代码在首页是可以找到的,在2.3四页后面就没有了,那就说明这个不是公用代码,你填上去也会导致采集不到分页的)

    dedecms採集規則怎麼寫

    分页设置好后,我们主要设置标题规则和内容规则。时间规则和作者、来源规则这里不细说,这个不是所有人都需要的,这步谈到的规则都可以获取区间的方式得到内容或者填入固定的词语。首先是标题规则:我们以:http://youqubu.cn/tansuo/362.html。这个文章页来做说明。我们先复制标题名字,然后在源代码中查找。示例中查找我们可以发现这里有五个相同的部分,而且冲对比中发现,这个其实是有两种写法的。1.完全包含这个文字的代码区间,不带其他文字:

    世界神秘十大历史遗迹
    。这个很容易就可以写出规则:
    [内容]
    。 2.另一種是程式碼中包含了該文字,但還有其他類似的文字混淆。如: 世界神秘十大歷史遺跡_有趣獵奇網-知天下奇事觀天下奇景解未解之謎-www.youqubu.cn從這裡很明顯就可以看出有一部分是唯一的,一部分是我們想要的,另一部分是通用的,所以簡單的就能寫出規則: [內容]_有趣獵奇網-知天下奇事觀天下奇景解未解之謎-www.youqubu.cn。為什麼這裡不選擇另外幾個呢,主要是另外幾個都是變量,這個是沒辦法取得的。

    dedecms採集規則怎麼寫

    1dedecms採集規則怎麼寫

    1dedecms採集規則怎麼寫

    #下面的內容也是一樣的道理,這裡要注意的是把廣告程式碼或者不需要的東西屏蔽掉,這裡就要用到「過濾規則」。一般情況除了IMG這個,其他都可以過濾,如果連圖片也不要的話,全選即可。

    1dedecms採集規則怎麼寫

    1dedecms採集規則怎麼寫

    最後點選儲存,開始擷取網頁,擷取完成後,我們點選擷取-擷取節點管理。我們進入後在剛才採集好的節點前面打鉤,然後點擊“匯出資料”,選擇你需要匯入的欄目,確認即可。 (最後一步設定最好設定下重複標題)

    1dedecms採集規則怎麼寫

    更多DedeCMS相關技術文章,請造訪DedeCMS教學欄位學習!

以上是dedecms採集規則怎麼寫的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!