多语言展示
当前在线:362今日阅读:19今日分享:20

如何用python写爬虫

爬虫简单一点说 就是用程序模拟浏览器行为,向服务器发送http请求,程序捕捉网页结果 再解析一下,获得自己想要的数据。
工具/原料

python

方法/步骤
1

首先导入爬虫需要用的一些包,包括requests(用来发送http请求),bs4(用来解析网页),pandas(用来展示数据)。

2

这里以爬取贴吧帖子为例子,只爬热门帖子(点击量超过一定阈值的帖子)。观察url结构,先实现爬取当前页面帖子的函数。

3

再通过循环,实现爬取n页帖子的函数。

4

先爬取20页的数据看看效果,运行良好,将结果导出到excel。这样既筛选了热门帖子,又可以通过查看帖子名 快速定位到想看的帖子,直接点击相应的url即可。不用在贴吧里一页一页点击了,yeah~~

注意事项

代码中可以设置休息时间,防止被封

推荐信息