如何用爬虫抓取数据

本经验用于介绍爬虫抓取数据的一般性思路，能够解决大部分小型的爬虫需求。

工具/原料

Python 3.0

requests库

bs4库

一般步骤

比如我们的需求是获取小编本人的所发布经验的信息：经验的标题+超链接。（大家可以跟着来一遍，点击右侧作者头像进入即可进入目标爬取页面）

第一步需要做的就是通过当前页面的url连接获取到当前页面的HTML代码。（比着图片自己打印代码哦，不要偷懒，多练就熟悉啦！）为了方便展示我们成功获取了页面源代码，我只展示了部分信息。

然后我们想要的所有数据都在爬下来的HTML代码中了，接下来要做的就是解析这段代码，目的是方便我们快速定位其中的内容信息。

解析完代码后我们就可以进行内容定位了。首先我们要借助浏览器的页面“查看器”来定位目标内容。在目标页面空白处，“右键”选择“检查元素”。

点击弹出的界面“左上角按钮”。

然后就可以用鼠标去选择你想要定位的页面内容了。

“鼠标”单击目标内容，发现“查看器”自动定位到相关“HTML代码”。

然后我们从这个位置出发，层次向上找，获得与目标内容位置相关的清晰结构：我们想要获取的内容在：1. 一个大的section标签下。2. section标签中的ul标签下3. ul标签中的li中

因为我们使用BeautifulSoup解析了代码，所以非常容易获取。我们获取的一般方式就是根据标签名以及他的“class”类名来获取，有时候简单明显可以不用类名。输出找到的标签li的数目，一致！

然后我们要分析整个“li”，他在页面中表示的就是一个文章展示区域。

在浏览器的“查看器”中先后定位到标题的位置和超链接的位置，发现他们都在一个a标签中，我们的任务就是根据li标签获取a标签就好啦。

然后按照层次结构书写代码。注意这里返回的url信息和页面显示的不一致，需要手动添加前缀。

注意事项

看都看到这啦，不左方点一下“赞”,上方投一 “票”再走？

觉得不错还可以点下关注支持一下~

上一篇：在windows下搭建python的scrapy爬虫框架

下一篇：煲汤的9个小秘方

欧尼酱

如何用爬虫抓取数据

如何做荞麦馒头

WPS中我们如何插入椭圆形

如何掌握商务英语翻译技巧

海尔热水器使用说明之热水器如何清洗

如何清洗无地线热水器里面的污垢？

如何使用CDR中样条工具画爱心？

如何清洗燃气热水器里面的水垢？

如何去除燃气热水器水垢

如何保养家用燃气热水器？

电热水器应该如何保养?：[2]

新购买的燃气热水器如何保养

燃气热水器如何保养

空气能热水器内部如何保持干净

新生儿更名后疫苗本上的姓名如何修改

宝宝问题疫苗，如何快速查询？

真正了解如何在接种门诊接种疫苗

如何知道刚出生的宝宝上哪打接种疫苗

Photoshop CC如何快速去除gif动图水印？

zepeto如何拍摄魔术GIF

如何在线将gif转为ico图标

人像摄影的3种光线

照度计如何使用方法

数码单反相机的测光方法

如何让安卓4.1.2仿安卓5.0Lollipop卡片后台

梦幻西游打造技巧

梦幻西游人形猫灵怎么抓

梦幻西游3d版手游怎么学习淬炼之术

快速选择工具及魔棒工具

梦幻西游新剧情攻略

梦幻西游化生寺攻略

梦幻西游3d版手游怎么学习裁缝之术

梦幻西游2最新熔炼技巧

梦幻模拟战专属装备怎么获得

梦幻西游赚钱经验！

梦幻西游3d版手游怎么学习打造之术

梦幻西游新区如何赚钱

1-50级梦幻西游新手快速升级的攻略

梦幻西游175赚钱攻略

梦幻西游5开怎么赚钱

梦幻西游速升59效率篇