多语言展示
当前在线:103今日阅读:91今日分享:37

如何批量提取网页数据信息

日常办公中,通常需要上网搜集各类资料数据,制成数据表格或进行后期整理。通过风越填表提取软件,我们可以快速批量地提取网页中的文字、图片等各类数据信息,下面我们将通过实例演示:如何建立多条规则,来进行循环自动地提取网页的文本信息。
工具/原料
1

不限品牌不限

2

windowsxp win7 win10

3

网页批量填表数据提取软件5.20及以上

4

excel 记事本

方法/步骤
1

一般要提取网页信息,通常有2种方式:1、利用网页自身的翻页功能,提取一页,再点击下一页,循环提取。2、已经提供了需要提取网址的列表文件,提取软件依次打开列表中的网页,循环提取。 这里我们演示第二种方式,以便着重说明提取的过程,第一种方式,可以通过参考之前的设置网页填写、点击的相关教程,再结合本教程来实现。 首先在风越软件中新建配置文件,一般使用要实现的功能作为配置文件名。

2

在规则区右键,建立空规则,并修改名称为:A001.打开网页 用于逐条打开网页列表文件中指定的网址。

3

选择【参数】标签,点击【路径列表】右边的【生成】按钮,将显示出快捷生成网址的界面,用于生成网页参数是连续数字的网址列表文本文件。也可以直接点击【选择】按钮,选择自行建立的网址列表的文本文件,文件中每行一个网址。其中【完成行数】表示网址列表的N行已经运行完成过了,默认值为0,表示尚未完成任何行,运行时则将从第一行开始。

4

在规则区右键,再建立第2条空规则,并修改名称为:A002.提取内容。先分析一下网页的情况,我们需要提取网页的正文内容,即页面上 “在线留言”文字后面一直到“上一条”文字之间的内容。

5

这种可以通过设置起止字符的方式,获取中间的文本,过程如下:切换到【提取】设置面板,点击右下角的【查看TEXT】,显示出软件分析到的网页文本信息,以此为依据来设置起止字符,因为直接从浏览器网页上复制的文字可能有格式问题。

6

切换到【提取结果】面板,运行时获取到的数据将在下面网格显示出来。点击运行,测试是否能成功抓取数据。

7

最后,设置“按序重复执行”,所有设置即全部完成。

8

运行时,先选择第一条规则,点左下角三角形图案的【运行按钮】,软件将循环执行这2条规则,从网址列表文件中逐行循环读取网页地址,并打开此网页,然后通过“提取内容”,获取网页指定信息。

9

切换到【提取结果】面板,可以查看到抓取的数据列表。点击右下角【导出】按钮,可将结果另存为xls或txt文件。

10

因有些网页需要通过填写信息后进行查询才会显示出要提取的信息,可参考下面经验设置批量填写、查询的功能。

注意事项

注意相关设置都是与规则关联的,例如网址列表文件是关联在第一条规则中的,如果选择第二条“提取内容”规则,不会出现文件路径。

推荐信息