多语言展示
当前在线:561今日阅读:23今日分享:31

phpcms文章采集器如何设置采集规范

在应用采集器采集文章的时候,第一步就是设置采集规范,那么应当如何设置呢?本文就此问题做一个简单的介绍。
工具/原料

文章采集器

方法/步骤
1

首先我们需要新建一个采集任务,并单击【起始网址】右侧的添加按钮。

2

系统弹出【添加开始采集地址】对话框,该对话框给出五中采集分时,一般我们应用的比较多的为【单条网址】、【批量/多页】、【RSS地址】这三种方式。我们在单条或多条网址下输入需要采集的网址,并依次单击右侧的【添加】按钮和【完成】按钮。

3

网址添加完毕后,我们需要告诉采集软件我们需要采集网页的哪一部分。此时,我们需要单击【多级网址获取】右侧的添加按钮添加采集规则。

4

在【添加多级网址规则】选项框中,一般我们勾选【从页面自动分析得到地址连接】,并在下方设置【从该选定区域中提取网址】来达成采集某一段网页的目的。

5

我们可以通过查看该页面的HTML代码来得到我们需要哪些栏目,或者通过观看这些连写的共性,之后通过网址过滤的方式将这些网址过滤出来,比如文本中过滤条件为:http://news.baidu.com/n?cmd=4&class

6

获取该页面的COOKIE信息,通过点击【网页登录信息】右侧的【浏览器登录获取】打开【内置微型浏览器】对话框,单击其中的Cookie,请确定保存。

7

单击右下方的【测试网址采集】按钮,可以查看【测试地址采集】是否满足需求,如果不满足需求,则需要对【步骤5】中的规则进行调整。

推荐信息