多语言展示
当前在线:180今日阅读:126今日分享:42

如何用python抓取动态网页数据

python制作爬虫是比较方便的,爬取的网页有静态和动态的区分,此经验演示如何爬取动态网页数据。
工具/原料

pycharm

方法/步骤
2

在浏览器中按F12,打开开发者工具,选中network、ALL,点击名词的“下一页”,会显示出请求数据。

3

点击右侧的Preview,会看到有json数据,展开后,能看到显示的名词。

4

在headers中能看到请求的url地址跟参数,接下来就是要在pycharm中编写代码来获取相应的数据了。

5

# -*- coding:utf-8 -*- import re,requests,json from lxml import etree  headers = {     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.',     }   def downloadtxt(url,coding='gb2312'):     try:         html = requests.get(url, headers=headers)         html.encoding = coding         return html.text     except:         return   if __name__ == '__main__':     for i in range(432):         url = 'https://sp0.baidu.com/8aQDcjqpAAV3otqbppnN2DJv/api.php?resource_id=28204&from_mid=1&format=json&query=名词&sort_type=1&pn={}&rn=40'.format(i*40)         res = downloadtxt(url)         json_data = json.loads(res)         for word in json_data['data'][0]['result']:             print(word['ename'],end=',')       print() downloadtxt是封装的一个获取请求返回结果的函数,在main主函数中有进行调用,for i in range(432),是因为共有432页。

6

最后会直接print到屏幕,结果如图。

推荐信息