编程 Python

Python3获取拉勾网招聘信息的方法实例

Posted in Python onApril 03, 2019

前言

为了了解跟python数据分析有关行业的信息，大概地了解一下对这个行业的要求以及薪资状况，我决定从网上获取信息并进行分析。既然想要分析就必须要有数据，于是我选择了拉勾，冒着危险深入内部，从他们那里得到了信息。不得不说，拉勾的反爬技术还挺厉害的，稍后再说明。话不多说，直接开始。

一、明确目的

每次爬虫都要有明确的目的，刚接触随便找东西试水的除外。我想要知道的是python数据分析的要求以及薪资状况，因此，薪资、学历、工作经验以及一些任职要求就是我的目的。

既然明确了目的，我们就要看一下它们在什么位置，所以我们打开浏览器，寻找目标。像拉勾这种网站他们的信息一般都是通过ajax加载的，而且在输入“python数据分析”敲击回车之后跳转的页面，招聘信息不是一开始就显示出来的，通过点击页码也只是招聘信息在变化甚至连network都没多大变化，可以大胆猜测他是通过post请求的，所以我们只关注post请求以及XHR文件，很快就发现了我们要的东西。

Python3获取拉勾网招聘信息的方法实例

点击preview可见详细信息以json形式保存着，其中‘salary'、‘workYear'、‘education'、‘positionID'（招聘信息详情页有关的id）是我们要的。再观察一下它的form data，其中kd=关键字，pn=pageNum（页码）这是我们请求的时候要带上的参数。另外我们要注意请求头的referer参数，待会儿要用。知道了目标之后，爬起来！

二、开始爬虫

先设置请求头headers，把平时用的user-agent带上，再把formdata也带上，用requests库直接requests.post(url, headers=headers, data=formdata) ，然后就开始报错了： {"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"......","state":2402}。

解决这个问题的关键在于，了解拉勾的反爬机制：在进入python数据分析招聘页之前，我们要在主页，不妨叫它start_url输入关键字跳转。在这个过程中，服务器会传回来一个cookies，如果带着这个cookies请求的话我们就可以得到要的东西，所以要先请求start_url获取cookies在请求目标url，而且在请求目标地址的话还要带上referer这个请求头参数，referer的含义大概是这样：告诉服务器我是从哪个页面链接过来的，服务器基此可以获得一些信息用于处理。另外，睡眠时间也要设置的长一点，不然很容易被封。知道了反爬机制之后，话不多说，直接上代码。

'''
@author: Max_Lyu
Create time: 2019/4/1
url: https://github.com/MaxLyu/Lagou_Analyze
'''
 # 请求起始 url 返回 cookies
 def get_start_url(self):
 session = requests.session()
 session.get(self.start_url, headers=self.headers, timeout=3)
 cookies = session.cookies
 return cookies

 # 将返回的 cookies 一起 post 给 target_url 并获取数据
 def post_target_url(self):
 cookies = self.get_start_url()
 pn = 1
 for pg in range(30):
  formdata = {
  'first': 'false',
  'pn': pn,
  'kd': 'python数据分析'
  }
  pn += 1

  response = requests.post(self.target_url, data=formdata, cookies=cookies, headers=self.headers, timeout=3)
  self.parse(response)
  time.sleep(60) # 拉勾的反扒技术比较强，短睡眠时间会被封

 # 解析 response，获取 items
 def parse(self, response):
 print(response)
 items = []
 print(response.text)
 data = json.loads(response.text)['content']['positionResult']['result']

 if len(data):
  for i in range(len(data)):
  positionId = data[i]['positionId']
  education = data[i]['education']
  workYear = data[i]['workYear']
  salary = data[i]['salary']
  list = [positionId, education, workYear, salary]
  items.append(list)
 self.save_data(items)
 time.sleep(1.3)

其中save_data(items)是保存文件，我是保存在csv文件。篇幅有限，这里就不展示了。

三、获取招聘详情

上面说了positionID 是为了获取详情页，详情页里面有要的任职要求。这个要获取就相对容易了，不过文本的处理并没有很简单，我只能通过“要求”这两个字获取任职要求（虽然有的为任职技能啥的，就这样进行取舍了）。

'''
@author: Max_Lyu
Create time: 2019/4/1
url: https://github.com/MaxLyu/Lagou_Analyze
'''
def get_url():
 urls = []
 with open("analyst.csv", 'r', newline='') as file:
 # 读取文件
 reader = csv.reader(file)
 for row in reader:
  # 根据 positionID 补全 url
  if row[0] != "ID":
  url = "https://www.lagou.com/jobs/{}.html".format(row[0])
  urls.append(url)

 file.close()
 return urls

# 获取详细信息
def get_info():
 urls = get_url()
 length = len(urls)
 for url in urls:
 print(url)
 description = ''
 print(length)
 response = requests.get(url, headers=headers)
 response.encoding = 'utf-8'
 content = etree.HTML(response.text)
 detail = content.xpath('//*[@id="job_detail"]/dd[2]/div/p/text()')
 print(detail)

 for i in range(1, len(detail)):

  if '要求' in detail[i-1]:
  for j in range(i, len(detail)):
   detail[j] = detail[j].replace('\xa0', '')
   detail[j] = re.sub('[、;；.0-9。]', '', detail[j])
   description = description + detail[j] + '/'
  print(description)
 write_file(description)
 length -= 1
 time.sleep(3)

四、成果与展示

Python3获取拉勾网招聘信息的方法实例

到这里，爬取的任务就结束了，源码地址：https://github.com/MaxLyu/Lagou_Analyze （本地下载）。获得数据之后就是小小地分析一下了，这个下次再总结。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。

Python3获取拉勾网招聘信息的方法实例

- Author -

Max_Lyu

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Tornado服务器中绑定域名、虚拟主机的方法

Aug 22 Python

Pythont特殊语法filter,map,reduce,apply使用方法

Feb 27 Python

Python中的sort()方法使用基础教程

Jan 08 Python

Python字符串和字典相关操作的实例详解

Sep 23 Python

在PyCharm环境中使用Jupyter Notebook的两种方法总结

May 24 Python

对django xadmin自定义菜单的实例详解

Jan 03 Python

Python配置虚拟环境图文步骤

May 20 Python

django的ORM操作删除和编辑实现详解

Jul 24 Python

Python实现自动打开电脑应用的示例代码

Apr 17 Python

python如何操作mysql

Aug 17 Python

pycharm 代码自动补全的实现方法(图文)

Sep 18 Python

python神经网络Xception模型

May 06 Python

Python3实现的旋转矩阵图像算法示例

Apr 03 #Python

python3对拉勾数据进行可视化分析的方法详解

Apr 03 #Python

python2.7使用plotly绘制本地散点图和折线图

Apr 02 #Python

Python时间序列处理之ARIMA模型的使用讲解

Apr 02 #Python

Python代码实现删除一个list里面重复元素的方法

Apr 02 #Python

从0开始的Python学习014面向对象编程（推荐）

Apr 02 #Python

Python参数解析模块sys、getopt、argparse使用与对比分析

Apr 02 #Python

You might like

利用php下载xls文件(自己动手写的)

2014/04/18 PHP

自己写了一个php检测文件编码的函数

2014/04/21 PHP

PHP使用header()输出图片缓存实例

2014/12/09 PHP

ThinkPHP自定义函数解决模板标签加减运算的方法

2015/07/03 PHP

php实现倒计时效果

2015/12/19 PHP

php实现的pdo公共类定义与用法示例

2017/07/19 PHP

Thinkphp5 自定义上传文件名的实现方法

2019/07/23 PHP

JavaScript DOM 编程艺术（第2版）读书笔记(JavaScript的最佳实践)

2013/10/01 Javascript

简单时间提示DEMO从0开始一直进行计时

2013/11/19 Javascript

Node.js事件循环（Event Loop）和线程池详解

2015/01/28 Javascript

js图片跟随鼠标移动代码

2015/11/26 Javascript

JS获取当前脚本文件的绝对路径

2016/03/02 Javascript

第七篇Bootstrap表单布局实例代码详解(三种表单布局)

2016/06/21 Javascript

微信小程序 vidao实现视频播放和弹幕的功能

2016/11/02 Javascript

tablesorter.js表格排序使用方法(支持中文排序)

2017/02/10 Javascript

Element input树型下拉框的实现代码

2018/12/21 Javascript

基于mpvue小程序使用echarts画折线图的方法示例

2019/04/24 Javascript

vue项目出现页面空白的解决方案

2019/10/31 Javascript

jenkins自动构建发布vue项目的方法步骤

2021/01/04 Vue.js

python3中eval函数用法使用简介

2019/08/02 Python

Python语言异常处理测试过程解析

2020/01/08 Python

40行Python代码实现天气预报和每日鸡汤推送功能

2020/02/27 Python

Python Excel vlookup函数实现过程解析

2020/06/22 Python

德国的大型美妆个护电商：Flaconi

2020/06/26 全球购物

建筑施工实习自我鉴定

2013/09/19 职场文书

农药学硕士毕业生自荐信

2013/09/25 职场文书

应届医学毕业生求职信分享

2013/12/02 职场文书

酒店销售经理岗位职责

2014/01/31 职场文书

群众路线批评与自我批评

2014/02/06 职场文书

班级文化标语

2014/06/23 职场文书

党的群众路线对照检查材料范文

2014/09/24 职场文书

2014年党员教师自我剖析材料

2014/09/30 职场文书

2016年119消防宣传日活动总结

2016/04/05 职场文书

sql通过日期判断年龄函数的示例代码

2021/07/16 SQL Server

详解JavaScript中Arguments对象用途

2021/08/30 Javascript

实操Python爬取觅知网素材图片示例

2021/11/27 Python