多语言展示
当前在线:1197今日阅读:154今日分享:43

如何用爬虫抓取数据

本经验用于介绍爬虫抓取数据的一般性思路,能够解决大部分小型的爬虫需求。
工具/原料
1

Python 3.0

2

requests库

3

bs4库

一般步骤
1

比如我们的需求是获取小编本人的所发布经验的信息:经验的标题+超链接。(大家可以跟着来一遍,点击右侧作者头像进入即可进入目标爬取页面)

2

第一步需要做的就是通过当前页面的url连接获取到当前页面的HTML代码。(比着图片自己打印代码哦,不要偷懒,多练就熟悉啦!)为了方便展示我们成功获取了页面源代码,我只展示了部分信息。

3

然后我们想要的所有数据都在爬下来的HTML代码中了,接下来要做的就是解析这段代码,目的是方便我们快速定位其中的内容信息。

4

解析完代码后我们就可以进行内容定位了。首先我们要借助浏览器的页面“查看器”来定位目标内容。在目标页面空白处,“右键”选择“检查元素”。

5

点击弹出的界面“左上角按钮”。

6

然后就可以用鼠标去选择你想要定位的页面内容了。

7

“鼠标”单击目标内容,发现“查看器”自动定位到相关“HTML代码”。

8

然后我们从这个位置出发,层次向上找,获得与目标内容位置相关的清晰结构:我们想要获取的内容在:1. 一个大的section标签下。2. section标签中的ul标签下3. ul标签中的li中

9

因为我们使用BeautifulSoup解析了代码,所以非常容易获取。我们获取的一般方式就是根据标签名以及他的“class”类名来获取,有时候简单明显可以不用类名。输出找到的标签li的数目,一致!

10

然后我们要分析整个“li”,他在页面中表示的就是一个文章展示区域。

11

在浏览器的“查看器”中先后定位到标题的位置和超链接的位置,发现他们都在一个a标签中,我们的任务就是根据li标签获取a标签就好啦。

12

然后按照层次结构书写代码。注意这里返回的url信息和页面显示的不一致,需要手动添加前缀。

注意事项
1

看都看到这啦,不左方点一下“赞”,上方投一 “票”再走?

2

觉得不错还可以点下关注支持一下~

推荐信息