多语言展示
当前在线:803今日阅读:113今日分享:31

火车头采集器采集post方式分页的列表的采集教程

何谓post才能得到列表,就是一般用了ajax或.NET中的一些技术当你请求新内容时,页面只进行局部刷新,地址栏中的URL不变。我们处理此类采集时的思路就是用抓包工具,截取请求时提交的内容找出共同特点,用火车中的“分页”变量进行替换并给定值范围,这样火车在采集时会自动提交请求内容得到新的内容列表进行采集。我在这里着重说下怎么样抓包,抓哪的包及处理抓包得到的数据。内容的采集和普通页面一样,在此就不多说了。
工具/原料
1

WSExplorer

2

火车头采集器

方法/步骤
1

首先先下载抓包工具:WSExplorer(由于它被归为黑客软件,有个别杀毒软件下可能会误报。)

2

我们用浏览器打开你要抓取的页面,当你进行翻页时就会发现此页是用post提交翻页请求的。标题如图

3

下面打开你下载WSockExpert,界面如下

4

选择你用的浏览器,我用的是2345浏览器,里面有三个进程,最下面的那个是我们要的进程点击进去,找到那个你“POST”一般紧跟着这个动作的下一行或者上一行,就是POST的数据,也就是我们说的抓包的内容。

5

打开你浏览器要获取的那个页面点击几次下一页,你会发现WSockExpert里面的获取的数据再变化,就是POST的数据,也就是我们说的抓包的内容

6

你点击POST上面那行会出现下图,看到下面有个文本,鼠标移到到那边右边复制二进制文本

7

你你复制2到3个这样的内容到记事本去对吧,你会发现有一点点不同,看截图,

8

把抓包数据中我标注的地方换成火车中的[分页]变量,整个代码复制到火车中,如下图

9

注意上面HTTP获取方式一定选POST,用分页变量替换拍的包数据复制到发送数据中,并在后面注明分页的范围。测试一下会出现如下图

10

看图片都可以获取成功。内容采集的制做过程就不说的,就当普通页面处理。到此火车头PSOT分页就搞定了

注意事项

抓包工具很重要,很多抓包工具在WIN7或者WIN8环境下不能用,我的系统是WIN8,这个抓包工具不错。

推荐信息