pycharm
在浏览器中按F12,打开开发者工具,选中network、ALL,点击名词的“下一页”,会显示出请求数据。
点击右侧的Preview,会看到有json数据,展开后,能看到显示的名词。
在headers中能看到请求的url地址跟参数,接下来就是要在pycharm中编写代码来获取相应的数据了。
# -*- coding:utf-8 -*- import re,requests,json from lxml import etree headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.', } def downloadtxt(url,coding='gb2312'): try: html = requests.get(url, headers=headers) html.encoding = coding return html.text except: return if __name__ == '__main__': for i in range(432): url = 'https://sp0.baidu.com/8aQDcjqpAAV3otqbppnN2DJv/api.php?resource_id=28204&from_mid=1&format=json&query=名词&sort_type=1&pn={}&rn=40'.format(i*40) res = downloadtxt(url) json_data = json.loads(res) for word in json_data['data'][0]['result']: print(word['ename'],end=',') print() downloadtxt是封装的一个获取请求返回结果的函数,在main主函数中有进行调用,for i in range(432),是因为共有432页。
最后会直接print到屏幕,结果如图。