搜索
  • 登录
  • 注册
密码重置成功

关注您感兴趣的项目并了解有关它们的最新消息

采集模块

收藏 81
阅读 57279
更新时间 2016-09-11


模块常用操作

操作名说明
采集流程详述
其它功能说明

说明:

 文章的采集功能是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。 

 文章采集系统颠覆传统采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。编辑人员无需了解太过细节的技 术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成数据采集操作。 
 
一、采集流程
 
简单的讲有三个步骤:
1、添加采集点,填写采集规则。
2、采集网址,采集内容
3、发布内容到指定栏目
 
以采集新浪新闻(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)为例,作一下详细流程介绍。
 
实例说明:
 
目标:采集新浪新闻到V9系统 国际新闻 栏目中。 
目标网址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
 
 
1、添加采集点
 
1.1 网址规则配置
 
70.jpg
 
 
                       添加采集点 - 网址规则配置图1
 
 
查看要采集的目标网址源代码,查找到要采集网址的开始点和结束点(这二个点要有在整个源代码里具有唯一性)。更进一步缩小采集网址搜索范围。
 
71.jpg
 
                      添加采集点 - 网址规则配置图2
 
测试你的网址采集规则是否正确,如下图所示
 
72.jpg
 
 
1.2 内容规则配置 
 
内容规则这里看起来比较复杂,其实也很简单,为了便于说明,我们只采集标题、内容两个字段。采集内容网址:
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的内容采集规则,请你打开这个网址,然后页面空白处右键->查看源文件搜索标题和内容的开始边界。
 
标题采集配置:
从网页<title></title>里取标题,并去除不需要的字符。如下图
 
73.jpg
 
内容采集配置:
 
新浪新闻最终页,新闻内容都包含在 <!-- 正文内容 begin --> <!-- 正文内容 end --> 之间,而且这二个结点,在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图  
 
74.jpg
 
1.3 自定义规则
 
1.4 高级配置
 
可设置是否把图片下载到服务器上,是否打水印等配置。
 
75.jpg
 
2、采集网址,采集内容
 
采集规则配好以后,即可进行网址的采集,然后进行内容的采集。
 
76.jpg  
 
 
3、发布内容到指定栏目
 
  77.jpg  
  78.jpg
 
选择导入的栏目
 
79.jpg
 
设置 采集内容与数据库的字段对应关系.提交进行数据入库,在此期间请耐心等待, 完成后会自动转向。至此一个简单的采集流程就操作完成。
 
其它更多功能,期待你发掘。
 
 
 
 
 
 
 


热AI工具
Undress AI Tool
Undress AI Tool

免费脱衣服图片

AI Clothes Remover
AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undresser.AI Undress
Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

Stock Market GPT
Stock Market GPT

人工智能驱动投资研究,做出更明智的决策

热门工具
记事本++7.3.1
记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版
SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1
禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6
Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版
SublimeText3 Mac版

神级代码编辑软件(SublimeText3)