python爬取招聘要求等信息实例


Posted in Python onNovember 20, 2020

在我们人生的路途中,找工作是每个人都会经历的阶段,小编曾经也是苦苦求职大军中的一员。怀着对以后的规划和想象,我们在找工作的时候,会看一些招聘信息,然后从中挑选合适的岗位。不过招聘的岗位每个公司都有不少的需求,我们如何从中获取数据,来进行针对岗位方面的查找呢?

大致流程如下:

1.从代码中取出pid

2.根据pid拼接网址 => 得到 detail_url,使用requests.get,防止爬虫挂掉,一旦发现爬取的detail重复,就重新启动爬虫

3.根据detail_url获取网页html信息 => requests - > html,使用BeautifulSoup

若爬取太快,就等着解封

if html.status_code!=200 print('status_code if {}'.format(html.status_code))

4.根据html得到soup => soup

5.从soup中获取特定元素内容 => 岗位信息

6.保存数据到MongoDB中

代码:

# @author: limingxuan 
# @contect: limx2011@hotmail.com
# @blog: https://www.jianshu.com/p/a5907362ba72
# @time: 2018-07-21
import requests
from bs4 import BeautifulSoup
import time
from pymongo import MongoClient
headers = {  
  'accept': "application/json, text/javascript, */*; q=0.01",
  'accept-encoding': "gzip, deflate, br",
  'accept-language': "zh-CN,zh;q=0.9,en;q=0.8",
  'content-type': "application/x-www-form-urlencoded; charset=UTF-8",
  'cookie': "JSESSIONID=""; __c=1530137184; sid=sem_pz_bdpc_dasou_title; __g=sem_pz_bdpc_dasou_title; __l=r=https%3A%2F%2Fwww.zhipin.com%2Fgongsi%2F5189f3fadb73e42f1HN40t8~.html&l=%2Fwww.zhipin.com%2Fgongsir%2F5189f3fadb73e42f1HN40t8~.html%3Fka%3Dcompany-jobs&g=%2Fwww.zhipin.com%2F%3Fsid%3Dsem_pz_bdpc_dasou_title; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1531150234,1531231870,1531573701,1531741316; lastCity=101010100; toUrl=https%3A%2F%2Fwww.zhipin.com%2Fjob_detail%2F%3Fquery%3Dpython%26scity%3D101010100; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1531743361; __a=26651524.1530136298.1530136298.1530137184.286.2.285.199",
  'origin': "https://www.zhipin.com",
  'referer': "https://www.zhipin.com/job_detail/?query=python&scity=101010100",
  'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
  }
conn = MongoClient('127.0.0.1',27017)
db = conn.zhipin_jobs
def init():
  items = db.Python_jobs.find().sort('pid')
  for item in items:
    if 'detial' in item.keys(): #当爬虫挂掉时,跳过已爬取的页
      continue
    detail_url = 'https://www.zhipin.com/job_detail/{}.html'.format(item['pid']) #单引号和双引号相同,str.format()新格式化方式
    #第一阶段顺利打印出岗位页面的url
    print(detail_url)
    #返回的html是 Response 类的结果
    html = requests.get(detail_url,headers = headers)
    if html.status_code != 200:
      print('status_code is {}'.format(html.status_code))
      break
    #返回值soup表示一个文档的全部内容(html.praser是html解析器)
    soup = BeautifulSoup(html.text,'html.parser')
    job = soup.select('.job-sec .text')
    print(job)
    #???
    if len(job)<1:
    item['detail'] = job[0].text.strip() #职位描述
    location = soup.select(".job-sec .job-location .location-address") 
    item['location'] = location[0].text.strip() #工作地点
    item['updated_at'] = time.strftime("%Y-%m-%d %H:%M:%S",time.localtime()) #实时爬取时间
    #print(item['detail'])
    #print(item['location'])
    #print(item['updated_at'])
    res = save(item) #调用保存数据结构
    print(res)
    time.sleep(40)#爬太快IP被封了24小时==
#保存数据到MongoDB中
def save(item):
  return db.Python_jobs.update_one({'_id':item['_id']},{'$set':item}) #why item ???
   
# 保存数据到MongoDB
     
if __name__ == '__main__':
  init()

最终结果就是在MongoBooster中看到新增了detail和location的数据内容

python爬取招聘要求等信息实例 

到此这篇关于python爬取招聘要求等信息实例的文章就介绍到这了,更多相关python爬虫获取招聘要求的代码内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python中日期和时间格式化输出的方法小结
Mar 19 Python
Python中获取对象信息的方法
Apr 27 Python
详细解析Python中__init__()方法的高级应用
May 11 Python
用Python写一个无界面的2048小游戏
May 24 Python
python3 实现的人人影视网站自动签到
Jun 19 Python
Linux 下 Python 实现按任意键退出的实现方法
Sep 25 Python
浅谈Django自定义模板标签template_tags的用处
Dec 20 Python
python3+PyQt5使用数据库表视图
Apr 24 Python
画pytorch模型图,以及参数计算的方法
Aug 17 Python
使用 Python 读取电子表格中的数据实例详解
Apr 17 Python
5分钟快速掌握Python定时任务框架的实现
Jan 26 Python
python 实现图片特效处理
Apr 03 Python
python爬虫判断招聘信息是否存在的实例代码
Nov 20 #Python
Python getsizeof()和getsize()区分详解
Nov 20 #Python
Python析构函数__del__定义原理解析
Nov 20 #Python
Python request post上传文件常见要点
Nov 20 #Python
接口自动化多层嵌套json数据处理代码实例
Nov 20 #Python
如何设置PyCharm中的Python代码模版(推荐)
Nov 20 #Python
Django vue前后端分离整合过程解析
Nov 20 #Python
You might like
Zerg剧情介绍
2020/03/14 星际争霸
简体中文转换为繁体中文的PHP函数
2006/10/09 PHP
php实现rc4加密算法代码
2012/04/25 PHP
安装apache2.2.22配置php5.4(具体操作步骤)
2013/06/26 PHP
Swoole-1.7.22 版本已发布,修复PHP7相关问题
2015/12/31 PHP
Thinkphp5.0框架视图view的循环标签用法示例
2019/10/12 PHP
基于Laravel 多个中间件的执行顺序详解
2019/10/21 PHP
如何通过PHP实现Des加密算法代码实例
2020/05/09 PHP
JMenuTab简单使用说明
2008/03/13 Javascript
jQuery插件实现带圆点的焦点图片轮播切换
2016/01/18 Javascript
jQuery表单验证简单示例
2016/10/17 Javascript
angularjs项目的页面跳转如何实现(5种方法)
2017/05/25 Javascript
详谈AngularJs 控制器、数据绑定、作用域
2017/07/09 Javascript
JS+JQuery实现无缝连接轮播图
2020/12/30 jQuery
[48:46]完美世界DOTA2联赛PWL S2 SZ vs FTD.C 第二场 11.19
2020/11/19 DOTA
django 自定义filter 判断if var in list的例子
2019/08/20 Python
使用OpCode绕过Python沙箱的方法详解
2019/09/03 Python
python3 使用Opencv打开USB摄像头,配置1080P分辨率的操作
2019/12/11 Python
ubuntu 安装pyqt5和卸载pyQt5的方法
2020/03/24 Python
Python实现ElGamal加密算法的示例代码
2020/06/19 Python
五款漂亮的纯CSS3动画按钮的实例教程
2014/11/21 HTML / CSS
html5标记文字_动力节点Java学院整理
2017/07/11 HTML / CSS
娇韵诗Clarins意大利官方网站:法国天然护肤品牌
2020/03/11 全球购物
PHP经典面试题
2016/09/03 面试题
小学生民族团结演讲稿
2014/08/27 职场文书
校长创先争优承诺书
2014/08/30 职场文书
大学毕业典礼演讲稿
2014/09/09 职场文书
房屋出租委托书格式
2014/09/23 职场文书
银行授权委托书格式
2014/10/10 职场文书
学生逃课检讨书1000字
2014/10/20 职场文书
上课迟到检讨书范文
2015/05/06 职场文书
调解协议书范本
2016/03/21 职场文书
两行代码解决Jupyter Notebook中文不能显示的问题
2021/04/24 Python
MySQL不使用order by实现排名的三种思路总结
2021/06/02 MySQL
postgresql使用filter进行多维度聚合的解决方法
2021/07/16 PostgreSQL
MySQL 聚合函数排序
2021/07/16 MySQL