爬虫简单一点说 就是用程序模拟浏览器行为,向服务器发送http请求,程序捕捉网页结果 再解析一下,获得自己想要的数据。
工具/原料
python
方法/步骤
1
首先导入爬虫需要用的一些包,包括requests(用来发送http请求),bs4(用来解析网页),pandas(用来展示数据)。
2
这里以爬取贴吧帖子为例子,只爬热门帖子(点击量超过一定阈值的帖子)。观察url结构,先实现爬取当前页面帖子的函数。
3
再通过循环,实现爬取n页帖子的函数。
4
先爬取20页的数据看看效果,运行良好,将结果导出到excel。这样既筛选了热门帖子,又可以通过查看帖子名 快速定位到想看的帖子,直接点击相应的url即可。不用在贴吧里一页一页点击了,yeah~~
注意事项
代码中可以设置休息时间,防止被封
上一篇:图解_家常面叶汤的做法
下一篇:python爬虫怎么写