不限品牌不限
windowsxp win7 win10
网页批量填表数据提取软件5.20及以上
excel 记事本
一般要提取网页信息,通常有2种方式:1、利用网页自身的翻页功能,提取一页,再点击下一页,循环提取。2、已经提供了需要提取网址的列表文件,提取软件依次打开列表中的网页,循环提取。 这里我们演示第二种方式,以便着重说明提取的过程,第一种方式,可以通过参考之前的设置网页填写、点击的相关教程,再结合本教程来实现。 首先在风越软件中新建配置文件,一般使用要实现的功能作为配置文件名。
在规则区右键,建立空规则,并修改名称为:A001.打开网页 用于逐条打开网页列表文件中指定的网址。
选择【参数】标签,点击【路径列表】右边的【生成】按钮,将显示出快捷生成网址的界面,用于生成网页参数是连续数字的网址列表文本文件。也可以直接点击【选择】按钮,选择自行建立的网址列表的文本文件,文件中每行一个网址。其中【完成行数】表示网址列表的N行已经运行完成过了,默认值为0,表示尚未完成任何行,运行时则将从第一行开始。
在规则区右键,再建立第2条空规则,并修改名称为:A002.提取内容。先分析一下网页的情况,我们需要提取网页的正文内容,即页面上 “在线留言”文字后面一直到“上一条”文字之间的内容。
这种可以通过设置起止字符的方式,获取中间的文本,过程如下:切换到【提取】设置面板,点击右下角的【查看TEXT】,显示出软件分析到的网页文本信息,以此为依据来设置起止字符,因为直接从浏览器网页上复制的文字可能有格式问题。
切换到【提取结果】面板,运行时获取到的数据将在下面网格显示出来。点击运行,测试是否能成功抓取数据。
最后,设置“按序重复执行”,所有设置即全部完成。
运行时,先选择第一条规则,点左下角三角形图案的【运行按钮】,软件将循环执行这2条规则,从网址列表文件中逐行循环读取网页地址,并打开此网页,然后通过“提取内容”,获取网页指定信息。
切换到【提取结果】面板,可以查看到抓取的数据列表。点击右下角【导出】按钮,可将结果另存为xls或txt文件。
因有些网页需要通过填写信息后进行查询才会显示出要提取的信息,可参考下面经验设置批量填写、查询的功能。
注意相关设置都是与规则关联的,例如网址列表文件是关联在第一条规则中的,如果选择第二条“提取内容”规则,不会出现文件路径。