工具标签
采集模块
模块常用操作
| 操作名 | 说明 |
| 采集流程详述 | 无 |
| 其它功能说明 | 无 |
说明:
文章的采集功能是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。
文章采集系统颠覆传统采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。编辑人员无需了解太过细节的技 术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成数据采集操作。
一、采集流程
简单的讲有三个步骤:
1、添加采集点,填写采集规则。
2、采集网址,采集内容
3、发布内容到指定栏目
以采集新浪新闻(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)为例,作一下详细流程介绍。
实例说明:
目标:采集新浪新闻到V9系统 国际新闻 栏目中。
目标网址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
1、添加采集点
1.1 网址规则配置

添加采集点 - 网址规则配置图1
查看要采集的目标网址源代码,查找到要采集网址的开始点和结束点(这二个点要有在整个源代码里具有唯一性)。更进一步缩小采集网址搜索范围。

添加采集点 - 网址规则配置图2
测试你的网址采集规则是否正确,如下图所示

1.2 内容规则配置
内容规则这里看起来比较复杂,其实也很简单,为了便于说明,我们只采集标题、内容两个字段。采集内容网址:
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的内容采集规则,请你打开这个网址,然后页面空白处右键->查看源文件搜索标题和内容的开始边界。
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的内容采集规则,请你打开这个网址,然后页面空白处右键->查看源文件搜索标题和内容的开始边界。
标题采集配置:
从网页<title></title>里取标题,并去除不需要的字符。如下图

内容采集配置:
新浪新闻最终页,新闻内容都包含在 <!-- 正文内容 begin --> <!-- 正文内容 end --> 之间,而且这二个结点,在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图

1.3 自定义规则
1.4 高级配置
可设置是否把图片下载到服务器上,是否打水印等配置。

2、采集网址,采集内容
采集规则配好以后,即可进行网址的采集,然后进行内容的采集。
3、发布内容到指定栏目

选择导入的栏目

设置 采集内容与数据库的字段对应关系.提交进行数据入库,在此期间请耐心等待, 完成后会自动转向。至此一个简单的采集流程就操作完成。
其它更多功能,期待你发掘。
相关视频
热AI工具
Undress AI Tool
免费脱衣服图片
AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。
Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片
Stock Market GPT
人工智能驱动投资研究,做出更明智的决策
热门文章
如何在Premiere中使用AI语音增强? (音频清理指南)
1 个月前 By 下次还敢
如何将 jQuery 的拖放事件正确迁移到原生 JavaScript
4 周前 By DDD
'EVM”是什么?以太坊虚拟机的意义
1 个月前 By DDD
记事本升级、更便宜的 YouTube TV 以及 Nova Launcher 的新主人:新闻综述
3 周前 By DDD
如何在 PHP 中动态设置嵌套数组的任意深度值
1 个月前 By DDD
热门话题
# 抖音等级价目表1-75
20516
7
20516
7
# wifi显示无ip分配
13629
4
13629
4
# 虚拟手机号接收验证码
11965
4
11965
4
# gmail邮箱登陆入口在哪里
8981
17
8981
17
# windows安全中心怎么关闭
8505
7
8505
7
热门工具
记事本++7.3.1
好用且免费的代码编辑器
SublimeText3汉化版
中文版,非常好用
禅工作室 13.0.1
功能强大的PHP集成开发环境
Dreamweaver CS6
视觉化网页开发工具
SublimeText3 Mac版
神级代码编辑软件(SublimeText3)












![PHP实战开发极速入门: PHP快速创建[小型商业论坛]](https://img.php.cn/upload/course/000/000/035/5d27fb58823dc974.jpg)
