Python爬虫小例子——爬取51job发布的工作职位


Posted in Python onJuly 10, 2020

概述

不知从何时起,Python和爬虫就如初恋一般,情不知所起,一往而深,相信很多朋友学习Python,都是从爬虫开始,其实究其原因,不外两方面:其一Python对爬虫的支持度比较好,类库众多。其二Pyhton的语法简单,入门容易。所以两者形影相随,不离不弃,本文主要以一个简单的小例子,简述Python在爬虫方面的简单应用,仅供学习分享使用,如有不足之处,还请指正。

涉及知识点

本例主要爬取51job发布的工作职位,用到的知识点如下:

  • 开发环境及工具:主要用到Python3.7 ,IDE为PyCharm
  • requests类库:本类库封装了python的内置模块,主要用于网络的请求和获取数据,可以支持不同形式的请求。
  • BeautifulSoup库:主要用于解析获取的数据,包括Html,Xml,Json等不同的格式。
  • 数据持久化:主要是将内存中的数据,保存到数据库或者文件中。

爬虫的基本步骤

爬虫的基本步骤,如下图所示:

Python爬虫小例子——爬取51job发布的工作职位

爬取目标

如有要爬取相关内容,首先要对爬取的目标进行分析,了解其目录结构,才能进行解析。本例主要爬取51job中的工作列表,如下所示:

Python爬虫小例子——爬取51job发布的工作职位

核心源码

1.获取数据

定义一个函数get_data,用于发起请求并获取数据,如下所示:

headers中的User-Agent主要用于模拟浏览器,不然会被反爬虫程序屏蔽,http状态码为418,意思是被网站的反爬程序返回的。

encoding是要爬取的网站的编码为gbk,如果不加,会产生乱码,默认为utf-8

def get_data(req_url):
  """获取数据"""
  headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko',
    'Accept-Language': 'zh-Hans-CN, zh-Hans;q=0.5'
  }
  resp = requests.get(req_url, headers=headers)
  resp.encoding = 'gbk' # 不加会产生中文乱码
  if resp.status_code == 200:
    return resp.text
  else:
    return None

2.解析数据

定义一个函数parse_data,用于解析获取到的内容,如下所示:

采用BeautifulSoup,将返回的文本,解析成html对象,并获取对应的内容。本例主要获取工作的列表

def parse_data(resp_html):
  """解析数据,并返回列表"""
  soup = BeautifulSoup(resp_html, features='html.parser')
  job_table = soup.find('div', attrs={'class': 'dw_table'})
  # print(job_table)
  job_list = job_table.find_all('div', attrs={'class': 'el'})
  # print(job_list)
  # 循环列表,去掉第一个title和最后一个
  res_list = []
  for job in job_list[1: -1]:
    job_name = job.find('p', attrs={'class': "t1"}).find('span').find('a').get_text()
    job_name = job_name.replace('\r\n', '').strip()
    job_company = job.find('span', attrs={'class': "t2"}).find('a').get_text()
    job_addr = job.find('span', attrs={'class': "t3"}).get_text()
    job_salary = job.find('span', attrs={'class': "t4"}).get_text()
    job_time = job.find('span', attrs={'class': "t5"}).get_text()
    # print('工作信息:', job_name, '---', job_company, '---', job_addr, '---', job_salary, '---', job_time)
    res_item = {
      '工作名称': job_name,
      '公司': job_company,
      '工作地址': job_addr,
      '薪资水平': job_salary,
      '发布时间': job_time
    }
    res_list.append(res_item)
  return res_list

3.保存数据

定义一个函数save_data,用于将获取到的内容保存到json文件中,如下所示:

with函数 可以自动进行释放。因包含中文,所以json文件的编码为utf-8,否则会出现乱码

def save_data(res_list):
   """保存数据"""
   with open('jobs.json', 'w', encoding='utf-8') as f:
     res_list_json = json.dumps(res_list, ensure_ascii=False)
     f.write(res_list_json)

4.整体调用步骤

依次调用定义的三个函数,如下所示:

if __name__ == '__main__':
  """如果是主程序自己调用"""
  req_url = 'https://search.51job.com/list/040000,000000,0000,00,9,99,java,2,1.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='
  # 获取数据
  resp_html = get_data(req_url)
  # print(html)
  # 解析数据
  res_list = parse_data(resp_html)
  # 保存数据
  save_data(res_list)

爬取结果展示

爬取的结果保存在jobs.json文件中,如下所示:

[
 {
  "工作名称": "Java架构师",
  "公司": "深圳市钻木信息技术有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1.8-3万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java实习生 6k起",
  "公司": "深圳市智玩创新科技有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "6-8千/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java实习生6k起",
  "公司": "深圳市康姆达科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "6-8千/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市网新新思软件有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1.5-1.7万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市睿服科技有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1.3-1.7万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发经理",
  "公司": "深圳市聚惠企业登记代理有限公司",
  "工作地址": "深圳-龙华新区",
  "薪资水平": "1-3万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "高级JAVA",
  "公司": "深圳易加油信息科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1.5-2.1万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "深圳市绿联科技有限公司",
  "工作地址": "深圳-龙华新区",
  "薪资水平": "2-3万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市博悦科创科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "易普森智慧健康科技(深圳)有限公...",
  "工作地址": "深圳",
  "薪资水平": "1.5-2.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳易世通达科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1.2-1.8万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "苏州今融加科技有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1.5-2万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java后端开发工程师",
  "公司": "深圳市长隆科技有限公司",
  "工作地址": "深圳-龙岗区",
  "薪资水平": "1.5-2万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市元诺智能系统有限公司",
  "工作地址": "深圳-龙华新区",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "java 有物流类经验",
  "公司": "深圳市欧恩德技术有限公司",
  "工作地址": "深圳-罗湖区",
  "薪资水平": "0.8-1.1万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师-2020校园招聘",
  "公司": "金蝶软件(中国)有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "0.8-1.6万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "丰疆智能科技股份有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "2.5-3万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA软件开发工程师",
  "公司": "深圳市吉星时代科技有限公司",
  "工作地址": "深圳-龙岗区",
  "薪资水平": "2-3万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA 高级软件工程师",
  "公司": "相通网络技术有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1.5-3万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA开发工程师(接受应届生)",
  "公司": "深圳市智岩科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "0.8-1万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java后台开发工程师",
  "公司": "深圳市炬驰科技发展有限公司",
  "工作地址": "深圳",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市韶音科技有限公司",
  "工作地址": "深圳-宝安区",
  "薪资水平": "0.8-1万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA 开发工程师",
  "公司": "深圳市优博讯科技股份有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市有豆科技有限公司",
  "工作地址": "深圳-宝安区",
  "薪资水平": "1.8-3万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Saas平台架构师(Java方向)",
  "公司": "深圳市智布互联纺织科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1.7-2.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发实习生",
  "公司": "云软科技",
  "工作地址": "深圳-宝安区",
  "薪资水平": "6-9千/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "深圳市阿尔法智汇科技有限公司",
  "工作地址": "深圳-宝安区",
  "薪资水平": "2-4万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java 全栈开发工程师",
  "公司": "深圳市杰纳斯科技有限公司",
  "工作地址": "深圳-宝安区",
  "薪资水平": "1-3.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "中高级java工程师",
  "公司": "北京联创智融信息技术有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1.3-1.8万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "得实信息科技(深圳)有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "0.6-1万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市联创科技集团有限公司",
  "工作地址": "深圳-龙岗区",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "中级JAVA(J13824)",
  "公司": "银雁科技服务集团股份有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "java工程师",
  "公司": "深圳市安思疆科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "0.8-1.6万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA 高级开发工程师",
  "公司": "汇才保险代理(深圳)有限公司",
  "工作地址": "深圳-罗湖区",
  "薪资水平": "1.5-2万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师(直连)",
  "公司": "深圳市天泰国际航空旅行社有限公司...",
  "工作地址": "深圳",
  "薪资水平": "2-4万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA工程师",
  "公司": "深圳市开度贸易有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "0.8-1.2万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "后台开发Leader(JAVA方向)",
  "公司": "深圳金世纪保险经纪有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "3-4万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市中深力人力资源管理有限公司...",
  "工作地址": "深圳-南山区",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "研祥高科技控股集团有限公司",
  "工作地址": "深圳-光明新区",
  "薪资水平": "0.9-1.8万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java(证券不加班)",
  "公司": "上海华腾软件系统有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1.8-2.2万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "深圳大美商业地产管理有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1.5-2万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "资深/高级Java工程师",
  "公司": "未来穿戴(深圳)有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "3-4万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "深圳市太阳星通信科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "0.8-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "深圳市蓝鹰立德软件咨询有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1.5-1.8万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA(高级、架构)",
  "公司": "深圳市几米物联有限公司",
  "工作地址": "深圳-宝安区",
  "薪资水平": "2.2-3.2万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA开发工程师",
  "公司": "江苏康尚生物医疗科技有限公司",
  "工作地址": "深圳-宝安区",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "java架构师",
  "公司": "深圳市泓齐网络科技有限公司",
  "工作地址": "深圳",
  "薪资水平": "1.5-1.8万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市智?科技有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "0.9-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "上海舟恩信息技术有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1.4-1.9万/月",
  "发布时间": "06-13"
 }
]

进一步思考

本例可以进一步优化的空间,如下所示:

  • 本次爬虫只是单次爬取,数据量相对小,如果要爬取大量数据的时候,则需要使用多线程相关的知识。
  • 基础的爬虫,只能爬取静态渲染的内容,如果是异步动态渲染的数据,如何爬取呢?
  • 将爬取的结果保存到数据库如何操作呢?

以上就是Python爬虫小例子——爬取51job发布的工作职位的详细内容,更多关于Python爬虫爬取工作职位的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python中urllib.unquote乱码的原因与解决方法
Apr 24 Python
python3+PyQt5自定义视图详解
Apr 24 Python
Python实现多条件筛选目标数据功能【测试可用】
Jun 13 Python
Window 64位下python3.6.2环境搭建图文教程
Sep 19 Python
windows下numpy下载与安装图文教程
Apr 02 Python
python+numpy按行求一个二维数组的最大值方法
Jul 09 Python
django多文件上传,form提交,多对多外键保存的实例
Aug 06 Python
python set集合使用方法解析
Nov 05 Python
python实现连续变量最优分箱详解--CART算法
Nov 22 Python
解决python 读取 log日志的编码问题
Dec 24 Python
Django-xadmin后台导入json数据及后台显示信息图标和主题更改方式
Mar 11 Python
Django设置Postgresql的操作
May 14 Python
Python 如何对文件目录操作
Jul 10 #Python
Python下划线5种含义代码实例解析
Jul 10 #Python
Python 没有main函数的原因
Jul 10 #Python
如何教少儿学习Python编程
Jul 10 #Python
Django def clean()函数对表单中的数据进行验证操作
Jul 09 #Python
django form和field具体方法和属性说明
Jul 09 #Python
浅谈Python里面None True False之间的区别
Jul 09 #Python
You might like
php5 and xml示例
2006/11/22 PHP
php读取mysql乱码,用set names XXX解决的原理分享
2011/12/29 PHP
PHP获取php,mysql,apche的版本信息示例代码
2014/01/16 PHP
如何把php5.3版本升级到php5.4或者php5.5
2015/07/31 PHP
ThinkPHP中where()使用方法详解
2016/04/19 PHP
php取出数组单个值的方法
2018/03/12 PHP
PHP接入微信H5支付的方法示例
2019/10/28 PHP
Laravel5.1 框架控制器基础用法实例分析
2020/01/04 PHP
利用google提供的API(JavaScript接口)获取网站访问者IP地理位置的代码详解
2010/07/24 Javascript
jQuery获取Select选择的Text和Value(详细汇总)
2013/01/25 Javascript
js post提交调用方法
2014/02/12 Javascript
jQuery的text()方法用法分析
2014/12/20 Javascript
JQuery包裹DOM节点的方法
2015/06/11 Javascript
JavaScript+html5 canvas绘制的小人效果
2016/01/27 Javascript
基于React.js实现原生js拖拽效果引发的思考
2016/03/30 Javascript
Javascript实现图片加载从模糊到清晰显示的方法
2016/06/21 Javascript
jquery层级选择器的实现(匹配后代元素div)
2016/09/05 Javascript
js实现键盘自动打字效果
2016/12/23 Javascript
ES6 系列之 WeakMap的使用示例
2018/08/06 Javascript
详解mpvue scroll-view自动回弹bug解决方案
2018/10/01 Javascript
Vue组件的使用及个人理解与介绍
2019/02/09 Javascript
vue实现的请求服务器端API接口示例
2019/05/25 Javascript
js前端传json后台接收‘‘被转为quot的问题解决
2020/11/12 Javascript
[14:57]DOTA2 HEROS教学视频教你分分钟做大人-幽鬼
2014/06/13 DOTA
浅谈Python的异常处理
2016/06/19 Python
对Python使用mfcc的两种方式详解
2019/01/09 Python
Pytorch .pth权重文件的使用解析
2020/02/14 Python
Python tkinter 下拉日历控件代码
2020/03/04 Python
解决python图像处理图像赋值后变为白色的问题
2020/06/04 Python
The Beach People美国:澳洲海滨奢华品牌
2018/07/05 全球购物
JD Sports荷兰:英国领先的运动时尚零售商
2020/03/13 全球购物
介绍一下Linux中的链接
2016/06/05 面试题
标准导师推荐信(医学类)
2013/10/28 职场文书
信访工作者先进事迹
2014/01/17 职场文书
西安交大自主招生自荐信
2014/01/27 职场文书
对PyTorch中inplace字段的全面理解
2021/05/22 Python