火车头采集器是一个很强大的网络采集工具,很多网络从业者都用来采集信息和新闻,通常一个规则只能采集一个网站的页面,如何做到一个规则采集不同网站页面的信息内容呢,今天小编在就在给不会的同学讲一下,如何利用火车头采集器采集不同新闻网站的信息内容
工具/原料
火车头采集器一个,这里以火车头采集器v8.4为例
方法/步骤
1
打开火车头采集器,添加一个新建任务,起名为新闻泛采集,采集地址设为http://news.baidu.com/ns?cl=2&rn=20&tn=news&ie=utf-8&word=news,这里就以新闻两个字为搜索关键词了,多级提取那块我就不详细解释了,因为咱们今天主要讲的是泛采集标题和内容
2
测试采集网址,好的,不同内容的新闻网址出来了,接下来我们可以想办法泛采集标题和内容了
3
点击第二步设置采集规则,添加标题字段,并设置为正文提取,提取标题
4
内容提取也一样,添加内容字段,并设置为正文提取,提取内容,在这里我选择的是完全模式,不熟悉的朋友可以自己切换下看下效果
注意事项
1
火车头的泛采集主要是应用于新闻网页,不是新闻页面的采集可能会有些提取错误
2
采集是门艺术,练的时间长了,你也可以成为大师
下一篇:如何挑选GPS定位终端技巧