Python爬取智联招聘数据分析师岗位相关信息的方法


Posted in Python onAugust 13, 2019

进入智联招聘官网,在搜索界面输入‘数据分析师',界面跳转,按F12查看网页源码,点击network

Python爬取智联招聘数据分析师岗位相关信息的方法

 选中XHR,然后刷新网页

Python爬取智联招聘数据分析师岗位相关信息的方法

可以看到一些Ajax请求, 找到画红线的XHR文件,点击可以看到网页的一些信息

Python爬取智联招聘数据分析师岗位相关信息的方法

Python爬取智联招聘数据分析师岗位相关信息的方法

Python爬取智联招聘数据分析师岗位相关信息的方法

在Header中有Request URL,我们需要通过找寻Request URL的特点来构造这个请求网址,

点击Preview,可以看到我们所需要的信息就存在result中,这信息基本是json格式,有些是列表;

下面我们通过Python爬虫来爬取上面的信息;

代码如下:

import requests
from urllib.parse import urlencode
import json
#from requests import codes
#import os
#from hashlib import md5
#from multiprocessing.pool import Pool
#import re
 
 
def get_page(offset):
  params = {
    'start': offset,
    'pageSize': '90',
    'cityId': '530',
    'salary': '0,0',
    'workExperience': '-1',
    'education': '-1',
    'companyType': '-1',
    'employmentType': '-1',
    'jobWelfareTag': '-1',
    'kw': '数据分析师',
    'kt': '3',
    '_v': '0.77091902',
    'x-zp-page-request-id': '8ff0aa73bf834b408f46324e44d89b84-1562722989022-210101',
    'x-zp-client-id': '2dc4c9a4-e80d-4488-84a3-03426dd69a1e'
    
    
  }
  base_url = 'https://fe-api.zhaopin.com/c/i/sou?'
  url = base_url + urlencode(params)
  try:
    resp = requests.get(url)
    print(url)
    if 200 == resp.status_code:
      print(resp.json())
      return resp.json()
  except requests.ConnectionError:
    return None
 
 
def get_information(json_page):
  if json_page.get('data'):
    results = json_page.get('data').get('results')    
    for result in results:
       yield {
         'city': result.get('city').get('display'),
          'company': result.get('company').get('name'),
          #'welfare':result.get('welfare'),
          'workingExp':result.get('workingExp').get('name'),
          'salary':result.get('salary'),
          'eduLevel':result.get('eduLevel').get('name')
        }
print('succ')
 
def write_to_file(content):
   with open('result.txt','a',encoding='utf-8') as f:
      print(type(json.dumps(content)))
      f.write(json.dumps(content,ensure_ascii=False)+'\n')
   
   
def main(offset):
  json_page=get_page(offset)  
  for content in get_information(json_page):
    write_to_file(content)
  
if __name__=='__main__':
   for i in range(10):
      main(offset=90*i)

爬取结果如下:

Python爬取智联招聘数据分析师岗位相关信息的方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现得到一个给定类的虚函数
Sep 28 Python
wxPython窗口的继承机制实例分析
Sep 28 Python
详解Python中的Descriptor描述符类
Jun 14 Python
python实现下载文件的三种方法
Feb 09 Python
Python编程之序列操作实例详解
Jul 22 Python
Python之读取TXT文件的方法小结
Apr 27 Python
Python3视频转字符动画的实例代码
Aug 29 Python
Python内置类型性能分析过程实例
Jan 29 Python
如何实现在jupyter notebook中播放视频(不停地展示图片)
Apr 23 Python
基于matplotlib中ion()和ioff()的使用详解
Jun 16 Python
Python 中Operator模块的使用
Jan 30 Python
Flask中jinja2的继承实现方法及实例
Mar 03 Python
python基于json文件实现的gearman任务自动重启代码实例
Aug 13 #Python
Python 写入训练日志文件并控制台输出解析
Aug 13 #Python
基于MATLAB和Python实现MFCC特征参数提取
Aug 13 #Python
Python 使用 docopt 解析json参数文件过程讲解
Aug 13 #Python
Django项目中实现使用qq第三方登录功能
Aug 13 #Python
一篇文章搞定Python操作文件与目录
Aug 13 #Python
Python Django Cookie 简单用法解析
Aug 13 #Python
You might like
php检测图片木马多进制编程实践
2013/04/11 PHP
PHP实现图片批量打包下载功能
2017/03/01 PHP
[原创]php正则删除img标签的方法示例
2017/05/27 PHP
PHP实现登录验证码校验功能
2018/05/17 PHP
PHP将英文数字转换为阿拉伯数字实例讲解
2019/01/28 PHP
Thinkphp5+Redis实现商品秒杀代码实例讲解
2020/12/29 PHP
不间断滚动JS打包类,基本可以实现所有的滚动效果,太强了
2007/12/08 Javascript
由Javascript实现的页面日历
2011/11/04 Javascript
js实现鼠标划过给div加透明度的方法
2015/05/25 Javascript
jquery实现点击向下展开菜单项(伸缩导航)效果
2015/08/22 Javascript
AngularJS向后端ASP.NET API控制器上传文件
2016/02/03 Javascript
利用原生js和jQuery实现单选框的勾选和取消操作的方法
2016/09/04 Javascript
详解如何让Express支持async/await
2017/10/09 Javascript
基于jquery实现的tab选项卡功能示例【附源码下载】
2019/06/10 jQuery
如何通过vscode运行调试javascript代码
2020/07/24 Javascript
vue插件--仿微信小程序showModel实现模态提示窗功能
2020/08/19 Javascript
Python version 2.7 required, which was not found in the registry
2014/08/26 Python
在Python中使用lambda高效操作列表的教程
2015/04/24 Python
python利用正则表达式搜索单词示例代码
2017/09/24 Python
Python实现桶排序与快速排序算法结合应用示例
2017/11/22 Python
python实现傅里叶级数展开的实现
2018/07/21 Python
分析python请求数据
2018/08/19 Python
Python的互斥锁与信号量详解
2019/09/12 Python
python标准库os库的函数介绍
2020/02/12 Python
python 项目目录结构设置
2020/02/14 Python
Win10下用Anaconda安装TensorFlow(图文教程)
2020/06/18 Python
python绘制汉诺塔
2021/03/01 Python
HTML5新特性之语义化标签
2017/10/31 HTML / CSS
日本最佳原创设计品牌:Felissimo(芬理希梦)
2019/03/19 全球购物
几个Linux面试题笔试题
2012/12/01 面试题
公务员群众路线心得体会
2014/11/03 职场文书
银行自荐信范文
2015/03/25 职场文书
恰同学少年观后感
2015/06/08 职场文书
MySql开发之自动同步表结构
2021/05/28 MySQL
前端实现滑动按钮AJAX与后端交互的示例代码
2022/02/24 Javascript
常用的文件对应的MIME类型汇总
2022/04/26 HTML / CSS