首页 > CMS教程 > DEDECMS > dedecms采集规则怎么编写

dedecms采集规则怎么编写

发布: 2019-07-19 11:41:22
原创
3918 人浏览过

dedecms采集规则怎么编写

织梦系统作为一个比较常用的文章系统,相对来说操作比较容易。在众多功能中,采集系统可能对于部分新手来说可能是比较头疼,比如采集区域设置不对、采集规则具体编辑不正确、采集后空白等问题。今天我们就从比较容易遇到的几个问题来详细讲解下。

首先我们先登录后台,分别点击采集--采集节点管理,进入采集管理设置界面

1.jpg

这里有两个可以选择,一个是修改原先的节点(主要是之前设置错误导致采集不了或者其他设置),一个是直接新增节点,大部分以新增节点为主,点击,然后下一步,选择“普通文章”确认。

2.jpg

然后填写节点名称(建议是和栏目相关的名称,避免导入的时候出错),这个按实际填就可以了。然后第一个重点:目标页面编码   。这个是一定要填写目标网页的编码,非自己网页的。查看方法:打开目标网站随便一个页面,空白地方右键-查看源代码(编码一般在前几行)

3.jpg

然后是填写列表规则,一种是批量生成网址,一般适用于规律比较强的或者需要采集是从上到下的。比如我们是以这个栏目目标的:

第一页列表:http://youqubu.cn/tansuo/list_5_1.html 

第二页列表:http://youqubu.cn/tansuo/list_5_2.html。

 这个列表规则最重要的是找相同和不同点,相同点填上去,不同点用匹配符号补充,就是变量。其实这个一对比我们可以知道,http://youqubu.cn/tansuo/list_5_ .html这里都是一样的,所以变量就是1.2.3.4.。。所以匹配的网址是:

http://youqubu.cn/tansuo/list_5_(*).html。

4.jpg

另一种是列表规则是手工指定列表网址,这个就比较通俗了。就是把你所有需要采集的列表页填写上去。(比较适合只采集某几页或者变量比较多的页面)

注意:很多网站的栏目首页是以http://xxx.xx/xxx/这样的形式展示的,可以对比以上我们发现,少了后面的变量项。所以找到有变量项的方法是:点击这个列表的下一页,如果还弄不清楚就再点击下一页,对比列表的第二和第三页,我们可以同样发现步骤四的变量项。

5.jpg

这一步是获取该列表下文章的全部地址,我们要从列表页中获取全部的文章页地址。我们还是以:http://youqubu.cn/tansuo/list_5_1.html列表为例。复制该列表下第一篇文章的标题,然后列表页空白处右键--查看源代码,按ctrl+F查找,粘贴刚刚复制的标题,定位到该文字源代码中的位置。其实这个是有一定规律的。然后我们查找源代码中哪部分代码是唯一的并且能够包含列表所有文章地址的(注意:开始代码查找应该从列表第一篇文章标题开始往上找,结束代码查找应该从列表第一篇文章标题开始往下找)。通过这个源代码可知。开始代码:

    和结束代码:
     能够包含所有的文章列表,并且代码是唯一的

    6.jpg

    下一步的缩略图我们可以选择不采集,因为织梦本身是会把第一张图片默认为缩略图的,这个看实际情况。下面是对网址的筛选:包含的意思是:这个步骤六选择的代码区间的文章网址只有包含了这部分才会被采集(这里有两种情况:1。譬如上面演示的地址,它是以超链接的形式,不是完整的网址,所以这种情况千万不要填写包含。2.就是列表涉及到多个链接的,比如标签这样的,最好填写包含,填写你想要的网址有的,不想要的网址没有的部分)。然后下一步。这边会列出因为上面填写的规则所采集到的列表页中文章的网址。如果是空白:我们可以先删除必须包含和不能包含,点击下一步测试,如果能采集到连接但是很乱,那就是你这步包含相关填错了;如果这样操作还是没有采集到东西,那就是“包含文章网址区域”这步填写错了。

    7.jpg

    8.jpg

    分页规则也主要分两种:一种是直接填写默认代码:{path}{file}_{p}{ext}  然后选择分页列表规则(如下图)。  另一种是打开目标文章页,找到有上下几页的文章,右键查看源码,找到这部分代码,填写方式和文章页网址区域的方法一样,然后右边选择:全部列出的分页列表。(第二种方法要注意,因为涉及到多页,填写首尾代码的时候一定要多翻几张,然后查看源代码,把你认为共同的代码在多个页面查找下,因为可能出现你选择的代码在首页是可以找到的,在2.3四页后面就没有了,那就说明这个不是公用代码,你填上去也会导致采集不到分页的)

    9.jpg

    分页设置好后,我们主要设置标题规则和内容规则。时间规则和作者、来源规则这里不细说,这个不是所有人都需要的,这步谈到的规则都可以获取区间的方式得到内容或者填入固定的词语。首先是标题规则:我们以:http://youqubu.cn/tansuo/362.html。这个文章页来做说明。我们先复制标题名字,然后在源代码中查找。示例中查找我们可以发现这里有五个相同的部分,而且冲对比中发现,这个其实是有两种写法的。1.完全包含这个文字的代码区间,不带其他文字:

    世界神秘十大历史遗迹
    。这个很容易就可以写出规则:
    [内容]
    。2.另一种是代码中包含了该文字,但是还有其他类似的文字混淆。如:世界神秘十大历史遗迹_有趣猎奇网-知天下奇事 观天下奇景 解未解之谜 -www.youqubu.cn   从这里很明显就可以看出有一部分是唯一的,一部分是我们想要的,另一部分是通用的,所以简单的就能写出规则:[内容]_有趣猎奇网-知天下奇事 观天下奇景 解未解之谜 -www.youqubu.cn      。为什么这里不选择另外几个呢,主要是另外几个都是变量,这个是没办法获取的。

    10.jpg

    11.jpg

    12.jpg

    下面的内容也是一样的道理,这里要注意的是把广告代码或者不需要的东西屏蔽掉,这里就要用到“过滤规则”。一般情况下除了IMG这个,其他都可以过滤,如果你连图片也不要的话,全选即可。

    13.jpg

    14.jpg

    最后点击保存,开始采集网页,采集完成后,我们点击采集-采集节点管理。我们进入后在刚才采集好的节点前面打钩,然后点击“导出数据”,选择你需要导入的栏目,确认即可。(最后一步设置最好设置下重复标题)

    15.jpg

    更多DedeCMS相关技术文章,请访问DedeCMS教程栏目进行学习!

    以上是dedecms采集规则怎么编写的详细内容。更多信息请关注PHP中文网其他相关文章!

相关标签:
来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板