Heim > Backend-Entwicklung > PHP-Tutorial > dede3.1分页文字采集过滤规则详说(图文教程)续二_PHP教程

dede3.1分页文字采集过滤规则详说(图文教程)续二_PHP教程

WBOY
Freigeben: 2016-07-21 15:55:33
Original
876 Leute haben es durchsucht

稍微了解dede采集规则的朋友上篇内容完全可以略过,下面看看如何以静制动、以不变就万变地解决分页采集问题。
二、采集新目标

目标地址:
1、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以选取两个目标页面,是因为以上的两个页面一个有分页,而另一个没有,并且在分页和全文取样部分有较大的差别。以下的说明是在为采集目标地址(首页)全部链接的基础上改动的,个别地方会显得蛇足,只为说明的方便。

目标文字部分头部代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二_PHP教程
目标文字部分头部代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二_PHP教程

通过比较不难发现,两个文字部分的开始采集部分能确定下来为描黑部分,开头部分好说,代码如下:

复制代码 代码如下:

              
                
              
              
                



目标文尾及分页区域代码1:

dede3.1分页文字采集过滤规则详说(图文教程)续二_PHP教程

目标文尾及分页区域代码2:

dede3.1分页文字采集过滤规则详说(图文教程)续二_PHP教程

比较一下两个结尾,尽管想把第一个的结尾再往前提一点,但没法子,要考虑到全部链接的共同部分,就只好取描黑的部分了,这也给今后确定过滤规则添了点麻烦,这是后话。先把结尾部分确定了吧:

复制代码 代码如下:


                  

              

www.bkjia.comtruehttp://www.bkjia.com/PHPjc/318217.htmlTechArticle稍微了解dede采集规则的朋友上篇内容完全可以略过,下面看看如何以静制动、以不变就万变地解决分页采集问题。 二、采集新目标 目标地...
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage