爬虫项目智联-职位信息爬取

1

import timeimport jsonimport urllib.requestimport urllib.parsefrom bs4 import BeautifulSoup

2

def main(): '''主函数''' # 提示用户输入城市名称 city = input('请输入要爬取的城市名称:') # 提示用户输入岗位关键字 kw = input('请输入要爬取的岗位名称:') # 提示用户输入爬取的页码 start_page = int(input('请输入起始页码:')) end_page = int(input('请输入结束页码:')) zhilian = ZhiLianZhaoPin(city, kw, start_page, end_page) zhilian.run()if __name__ == '__main__': main()

3

class ZhiLianZhaoPin(object): '''class''' def __init__(self, city, kw, start_page, end_page): # 保存到成员属性 self.city = city self.kw = kw self.start_page = start_page self.end_page = end_page self.url = 'https://sou.zhaopin.com/jobs/searchresult.ashx?' # 声明一个空列表，保存字典信息 self.items = [] def parse_content(self, page, content): '''一级解析函数''' # 创建soup对象 soup = BeautifulSoup(content, 'lxml') table_list = soup.find_all('table', class_='newlist')[1:] # print (table_list[0]) for table_content in table_list: # 获取信息 href_list = table_content.select(' tr > td > div > a') # print(href_list) href = href_list[0]['href'] print(href) # # 反馈率 # fklv = str(table_content.select('.new_list > tr > .fk_lv')[0].text) + '反馈率' # print(fklv) # 第二级查找 self.parse_content2(page, href) def parse_content2(self, page, href): '''二级解析函数''' # 创建请求对象 request = self.handle_request(page, href) # 获取内容 content = urllib.request.urlopen(request).read().decode('utf8') # 解析 # pattern = re.compile(r'') soup = BeautifulSoup(content, 'lxml') # 职位名称 job_name = soup.h1.text # print(job_name) # 公司名称 company_name = soup.h2.text # print(company_name) # 福利待遇 fldy = soup.find('div', class_='welfare-tab-box').text # print(fldy) # 招聘信息 information = soup.select('.terminalpage-left > ul')[0].text.replace('\n',' ') # print(information) # 任职要求工作地址 job_requirements = soup.select('.tab-inner-cont')[0].text.replace('\n', ' ') # print(job_requirements) # 保存为字典格式 item = { '职位名称': job_name, '公司名称': company_name, '福利待遇': fldy, '招聘信息': [information], '任职要求与工作地点': job_requirements } # 添加进列表 self.items.append(item) time.sleep(1) def run(self): '''运行函数''' for page in range(self.start_page, self.end_page + 1): request = self.handle_request(page) content = urllib.request.urlopen(request).read().decode('utf8') print('开始保存第%s页。。。' % page) # 解析函数 self.parse_content(page, content) string = json.dumps(self.items, ensure_ascii=False) json_path = self.kw + '.json' with open(json_path, 'w', encoding='utf8') as fp: fp.write(string) print('第%s页保存完毕' % page) def handle_request(self, page=0, href=None): '''请求函数''' data = { 'jl': self.city, 'kw': self.kw, 'p': page, } # 处理data，拼接url data = urllib.parse.urlencode(data) url = self.url + data print(url) headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50', } if href: return urllib.request.Request(url=href, headers=headers) else: return urllib.request.Request(url, headers=headers)

4

[ { '招聘信息': [ ' 职位月薪：15元/月工作地点：北京发布日期：2018-07-24 14:39:49 工作性质：全职工作经验：3-5年最低学历：本科招聘人数：1人职位类别：软件研发工程师 ' ], '公司名称': '慧泽商通(北京) ', '职位名称': 'python开发工程师', '福利待遇': ' 绩效奖金全勤奖五险一金交通补助餐补通讯补贴带薪年假定期体检 ', '任职要求与工作地点': ' 岗位职责1、参与SaaS平台搭建及企业云应用研发工作（外贸行业货代及贸易商云管理系统）2、负责外部系统对接（如订舱平台、金融平台、钉钉）,连接外贸供应链3、与产品人员协作，理解产品需求，提供可行技术方案,快速完成JIRA上的日常开发任务4、参与SaaS Docker部署、维护，基于运维监控数据、客户反馈进行代码优化5、负责相关技术文档的编写、技术培训/分享任职要求1、计算机相关专业，统招本科及以上学历，2年以上Python开发经验；2、精通Python开发，熟悉HTML5/CSS和XML3、具备丰富的逻辑编程经验，精通Python编程，掌握Python的高效写法4、熟悉Linux/Unix开发环境，熟悉Git，熟悉敏捷开发流程5、具有Odoo、SaaS云平台、ERP项目、外贸业务系统开发经验者优先; 工作地址：北京市东城区朝阳门北大街8号富华大厦F座7层查看职位地图 ' }, { '招聘信息': [ ' 职位月薪：面议工作地点：北京发布日期：2018-07-24 13:11:01 工作性质：全职工作经验：不限最低学历：本科招聘人数：1人职位类别：软件研发工程师 ' ], '公司名称': '智联招聘网/Zhaopin.com ', '职位名称': 'Python开发工程师(安全方向)', '福利待遇': ' 14薪节日福利弹性工作员工旅游定期体检 ', '任职要求与工作地点': ' 岗位职责： 1、负责风控系统的设计与开发, 包括规则引擎、业务api接口以及风险管理后台 2、配合安全数据分析团队推进机器学习的在风控系统的实际落地应用任职要求： 1、具备1年以上python后端研发经验 2、熟练使用正则表达式、熟悉多线程与多进程 3、熟悉Http协议，了解TCP/IP协议 4、有业务风控系统开发经验优先 5、具备爬虫、安全、数据分析经验优先工作地址：首开广场查看职位地图 ' }, { '招聘信息': [ ' 职位月薪：2元/月工作地点：北京发布日期：2018-07-24 14:08:07 工作性质：全职工作经验：不限最低学历：本科招聘人数：1人职位类别：高级软件工程师 ' ], '公司名称': '拓天伟业(北京)资产 ', '职位名称': 'Python高级开发工程师', '福利待遇': ' 节日福利五险一金绩效奖金年终分红加班补助房补带薪年假员工旅游 ', '任职要求与工作地点': ' 岗位职责：1、Web后端业务逻辑层、数据层的实现。2、负责应用的高级设计师、功能实现并进行测试及部署。任职要求：1、统招全日制本科及以上学历，计算机及相关专业，扎实的计算机基础知识。2、3年以上Web开发经验，精通Python程序设计、熟悉Flask、django或Tornado等框架。3、熟悉Linux操作环境，熟练使用Mysql、Nginx、MongoDB、Redis。4、良好的系统分析设计能力，文档管理能力及变成习惯。5、沟通能力强，具有良好的团队合作意识。工作地址：总公司：北京市丰台区洋桥12号天路蓝图大厦 ' }, { '招聘信息': [ ' 职位月薪：15元/月工作地点：北京发布日期：2018-07-24 13:29:51 工作性质：全职工作经验：3-5年最低学历：本科招聘人数：2人职位类别：高级软件工程师 ' ], '公司名称': '柔持(北京) ', '职位名称': 'Python后端开发工程师', '福利待遇': ' 不加班弹性工作餐补通讯补贴 ', '任职要求与工作地点': ' 工作职责：1、参与面向前台用户和面向后台管理的综合业务系统的需求分析、技术选型和工作量评估；2、配合前端开发人员完成后端服务的开发和前端Web应用的对接；3、服从项目的目标和任务安排，配合团队完成开发任务指标；4、后端服务代码的日常维护；5、不断优化代码，应用前沿技术，不断提高后端服务性能；任职要求：1、大学本科以上学历，计算机等相关专业；2、3年以上Python服务端开发经验，熟悉Linux环境下的开发；3、熟悉MVC架构，精通Flask、Tornado、Django等至少一个开发框架；4、参与或主导过CRM、ERP等后台管理系统开发者优先；5、具备良好的编码习惯及开发文档书写习惯；6、具有优秀的团队合作和沟通协作能力，善于学习，乐于分享，能承受较大工作压力。工作地址：柔持(北京) 查看职位地图 ' },。。。}]

欧尼酱

爬虫项目 智联-职位信息爬取

使用Python3和Scrapy进行网站图片爬虫自动下载

python爬虫入门教程

怎么剪创意小爬虫的画法简单儿童手工剪纸小虫儿

python爬虫的工作步骤

爬虫教学基础篇

Java 简单网络爬虫

网络爬虫类型

最好养的爬虫宠物

python简单爬虫

node.js 爬虫-Puppeteer 包的使用

Python爬虫之文件下载

python如何实现简单爬虫

爬虫wwwhj8828comI8669I44445Scrapy入门教程

如何评测爬虫代理哪家强

怎么用神箭手编写基于JS的爬虫？

如何学习Python网络爬虫？

从零开始的Python爬虫速成指南

爬虫如何防止数据重复爬取

Python 爬虫建站入门手记（1）：环境搭建

Python爬虫--正则表达式

昆山耐威驰泵业：浅谈化工泵在今后的发展

化学品事故救援方法

立式化工泵噪音大并伴有震动的原因及解决方法！

化工泵在使用后保养方法

化学事故救援需要哪些器材

废酸处理中一般用什么泵

化工泵应用范围介绍

磁力泵运行时以下准备步骤不可少！

磁力泵使用六大细节

不锈钢磁力泵在安装时应注意什么问题？

氟塑料泵的密封与选型方法

磁力泵的正确选型方法

磁力离心泵有噪音及震动过大的解决方法！

工程塑料磁力驱动泵的操作要求

高扬程耐腐蚀磁力泵常见故障及排除方法

高性能耐腐蚀磁力泵的安装和使用说明！

酸碱液输送台风磁力泵的维修方法

如何选择好的耐腐蚀磁力泵型号？

化工塑料防腐磁力泵常见故障解决步骤

化工用小型台风磁力泵的安装步骤

爬虫项目智联-职位信息爬取