多语言展示
当前在线:832今日阅读:167今日分享:16

如何采集孔夫子旧书网书籍数据及图片

本经验为大家介绍如何批量采集书籍数据及图片,这个网站比较特殊,详情页的链接需要点击图片才能获取到,如果需要深入采集到详情页的信息,在软件自动识别字段的基础上,可以新建一个字段采集主图图片,然后在提示“当前字段包含URL链接,是否抓取”时点击确定,这样子才能获取到正确的详情页链接,本教程还介绍了如何采集图片到本地,同类的电商网站适用这个图片下载到本地的方法。
工具/原料
1

电脑

2

后羿采集器

方法/步骤
1

步骤一:采集结果预览

2

步骤二:新建采集任务1、复制网址

3

2、新建智能模式采集任务您可以在软件上直接新建采集任务,也可以通过导入规则来创建任务。

4

步骤三:配置采集规则1、设置提取数据字段新建任务输入网址后,软件会自动识别分页及字段,我们可以右击字段进行相关设置,包括修改字段名称、增减字段、处理数据等。

5

字段设置效果如下:

6

2、使用深入采集功能提取详情页数据由于我们需要采集更多的信息,因此我们需要右击书籍链接使用“深入采集”功能,跳转到详情页进行采集。

7

在详情页上,我们可以看到很多的宝贝图片,我们可以选中这个图片,然后在修改字段属性为“提取外部html”,具体操作如下动图所示:

8

详情页的字段设置效果如下:

9

步骤四:设置并启动采集任务

10

步骤五:导出并查看数据

推荐信息