Python爬虫小例子——爬取51job发布的工作职位


Posted in Python onJuly 10, 2020

概述

不知从何时起,Python和爬虫就如初恋一般,情不知所起,一往而深,相信很多朋友学习Python,都是从爬虫开始,其实究其原因,不外两方面:其一Python对爬虫的支持度比较好,类库众多。其二Pyhton的语法简单,入门容易。所以两者形影相随,不离不弃,本文主要以一个简单的小例子,简述Python在爬虫方面的简单应用,仅供学习分享使用,如有不足之处,还请指正。

涉及知识点

本例主要爬取51job发布的工作职位,用到的知识点如下:

  • 开发环境及工具:主要用到Python3.7 ,IDE为PyCharm
  • requests类库:本类库封装了python的内置模块,主要用于网络的请求和获取数据,可以支持不同形式的请求。
  • BeautifulSoup库:主要用于解析获取的数据,包括Html,Xml,Json等不同的格式。
  • 数据持久化:主要是将内存中的数据,保存到数据库或者文件中。

爬虫的基本步骤

爬虫的基本步骤,如下图所示:

Python爬虫小例子——爬取51job发布的工作职位

爬取目标

如有要爬取相关内容,首先要对爬取的目标进行分析,了解其目录结构,才能进行解析。本例主要爬取51job中的工作列表,如下所示:

Python爬虫小例子——爬取51job发布的工作职位

核心源码

1.获取数据

定义一个函数get_data,用于发起请求并获取数据,如下所示:

headers中的User-Agent主要用于模拟浏览器,不然会被反爬虫程序屏蔽,http状态码为418,意思是被网站的反爬程序返回的。

encoding是要爬取的网站的编码为gbk,如果不加,会产生乱码,默认为utf-8

def get_data(req_url):
  """获取数据"""
  headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko',
    'Accept-Language': 'zh-Hans-CN, zh-Hans;q=0.5'
  }
  resp = requests.get(req_url, headers=headers)
  resp.encoding = 'gbk' # 不加会产生中文乱码
  if resp.status_code == 200:
    return resp.text
  else:
    return None

2.解析数据

定义一个函数parse_data,用于解析获取到的内容,如下所示:

采用BeautifulSoup,将返回的文本,解析成html对象,并获取对应的内容。本例主要获取工作的列表

def parse_data(resp_html):
  """解析数据,并返回列表"""
  soup = BeautifulSoup(resp_html, features='html.parser')
  job_table = soup.find('div', attrs={'class': 'dw_table'})
  # print(job_table)
  job_list = job_table.find_all('div', attrs={'class': 'el'})
  # print(job_list)
  # 循环列表,去掉第一个title和最后一个
  res_list = []
  for job in job_list[1: -1]:
    job_name = job.find('p', attrs={'class': "t1"}).find('span').find('a').get_text()
    job_name = job_name.replace('\r\n', '').strip()
    job_company = job.find('span', attrs={'class': "t2"}).find('a').get_text()
    job_addr = job.find('span', attrs={'class': "t3"}).get_text()
    job_salary = job.find('span', attrs={'class': "t4"}).get_text()
    job_time = job.find('span', attrs={'class': "t5"}).get_text()
    # print('工作信息:', job_name, '---', job_company, '---', job_addr, '---', job_salary, '---', job_time)
    res_item = {
      '工作名称': job_name,
      '公司': job_company,
      '工作地址': job_addr,
      '薪资水平': job_salary,
      '发布时间': job_time
    }
    res_list.append(res_item)
  return res_list

3.保存数据

定义一个函数save_data,用于将获取到的内容保存到json文件中,如下所示:

with函数 可以自动进行释放。因包含中文,所以json文件的编码为utf-8,否则会出现乱码

def save_data(res_list):
   """保存数据"""
   with open('jobs.json', 'w', encoding='utf-8') as f:
     res_list_json = json.dumps(res_list, ensure_ascii=False)
     f.write(res_list_json)

4.整体调用步骤

依次调用定义的三个函数,如下所示:

if __name__ == '__main__':
  """如果是主程序自己调用"""
  req_url = 'https://search.51job.com/list/040000,000000,0000,00,9,99,java,2,1.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='
  # 获取数据
  resp_html = get_data(req_url)
  # print(html)
  # 解析数据
  res_list = parse_data(resp_html)
  # 保存数据
  save_data(res_list)

爬取结果展示

爬取的结果保存在jobs.json文件中,如下所示:

[
 {
  "工作名称": "Java架构师",
  "公司": "深圳市钻木信息技术有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1.8-3万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java实习生 6k起",
  "公司": "深圳市智玩创新科技有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "6-8千/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java实习生6k起",
  "公司": "深圳市康姆达科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "6-8千/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市网新新思软件有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1.5-1.7万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市睿服科技有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1.3-1.7万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发经理",
  "公司": "深圳市聚惠企业登记代理有限公司",
  "工作地址": "深圳-龙华新区",
  "薪资水平": "1-3万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "高级JAVA",
  "公司": "深圳易加油信息科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1.5-2.1万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "深圳市绿联科技有限公司",
  "工作地址": "深圳-龙华新区",
  "薪资水平": "2-3万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市博悦科创科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "易普森智慧健康科技(深圳)有限公...",
  "工作地址": "深圳",
  "薪资水平": "1.5-2.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳易世通达科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1.2-1.8万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "苏州今融加科技有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1.5-2万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java后端开发工程师",
  "公司": "深圳市长隆科技有限公司",
  "工作地址": "深圳-龙岗区",
  "薪资水平": "1.5-2万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市元诺智能系统有限公司",
  "工作地址": "深圳-龙华新区",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "java 有物流类经验",
  "公司": "深圳市欧恩德技术有限公司",
  "工作地址": "深圳-罗湖区",
  "薪资水平": "0.8-1.1万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师-2020校园招聘",
  "公司": "金蝶软件(中国)有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "0.8-1.6万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "丰疆智能科技股份有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "2.5-3万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA软件开发工程师",
  "公司": "深圳市吉星时代科技有限公司",
  "工作地址": "深圳-龙岗区",
  "薪资水平": "2-3万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA 高级软件工程师",
  "公司": "相通网络技术有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1.5-3万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA开发工程师(接受应届生)",
  "公司": "深圳市智岩科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "0.8-1万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java后台开发工程师",
  "公司": "深圳市炬驰科技发展有限公司",
  "工作地址": "深圳",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市韶音科技有限公司",
  "工作地址": "深圳-宝安区",
  "薪资水平": "0.8-1万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA 开发工程师",
  "公司": "深圳市优博讯科技股份有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市有豆科技有限公司",
  "工作地址": "深圳-宝安区",
  "薪资水平": "1.8-3万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Saas平台架构师(Java方向)",
  "公司": "深圳市智布互联纺织科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1.7-2.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发实习生",
  "公司": "云软科技",
  "工作地址": "深圳-宝安区",
  "薪资水平": "6-9千/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "深圳市阿尔法智汇科技有限公司",
  "工作地址": "深圳-宝安区",
  "薪资水平": "2-4万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java 全栈开发工程师",
  "公司": "深圳市杰纳斯科技有限公司",
  "工作地址": "深圳-宝安区",
  "薪资水平": "1-3.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "中高级java工程师",
  "公司": "北京联创智融信息技术有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1.3-1.8万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "得实信息科技(深圳)有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "0.6-1万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市联创科技集团有限公司",
  "工作地址": "深圳-龙岗区",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "中级JAVA(J13824)",
  "公司": "银雁科技服务集团股份有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "java工程师",
  "公司": "深圳市安思疆科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "0.8-1.6万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA 高级开发工程师",
  "公司": "汇才保险代理(深圳)有限公司",
  "工作地址": "深圳-罗湖区",
  "薪资水平": "1.5-2万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师(直连)",
  "公司": "深圳市天泰国际航空旅行社有限公司...",
  "工作地址": "深圳",
  "薪资水平": "2-4万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA工程师",
  "公司": "深圳市开度贸易有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "0.8-1.2万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "后台开发Leader(JAVA方向)",
  "公司": "深圳金世纪保险经纪有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "3-4万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市中深力人力资源管理有限公司...",
  "工作地址": "深圳-南山区",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "研祥高科技控股集团有限公司",
  "工作地址": "深圳-光明新区",
  "薪资水平": "0.9-1.8万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java(证券不加班)",
  "公司": "上海华腾软件系统有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1.8-2.2万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "深圳大美商业地产管理有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "1.5-2万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "资深/高级Java工程师",
  "公司": "未来穿戴(深圳)有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "3-4万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "深圳市太阳星通信科技有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "0.8-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java高级开发工程师",
  "公司": "深圳市蓝鹰立德软件咨询有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1.5-1.8万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA(高级、架构)",
  "公司": "深圳市几米物联有限公司",
  "工作地址": "深圳-宝安区",
  "薪资水平": "2.2-3.2万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "JAVA开发工程师",
  "公司": "江苏康尚生物医疗科技有限公司",
  "工作地址": "深圳-宝安区",
  "薪资水平": "1-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "java架构师",
  "公司": "深圳市泓齐网络科技有限公司",
  "工作地址": "深圳",
  "薪资水平": "1.5-1.8万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "深圳市智?科技有限公司",
  "工作地址": "深圳-福田区",
  "薪资水平": "0.9-1.5万/月",
  "发布时间": "06-13"
 },
 {
  "工作名称": "Java开发工程师",
  "公司": "上海舟恩信息技术有限公司",
  "工作地址": "深圳-南山区",
  "薪资水平": "1.4-1.9万/月",
  "发布时间": "06-13"
 }
]

进一步思考

本例可以进一步优化的空间,如下所示:

  • 本次爬虫只是单次爬取,数据量相对小,如果要爬取大量数据的时候,则需要使用多线程相关的知识。
  • 基础的爬虫,只能爬取静态渲染的内容,如果是异步动态渲染的数据,如何爬取呢?
  • 将爬取的结果保存到数据库如何操作呢?

以上就是Python爬虫小例子——爬取51job发布的工作职位的详细内容,更多关于Python爬虫爬取工作职位的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
windows下安装python paramiko模块的代码
Feb 10 Python
python实现简单socket程序在两台电脑之间传输消息的方法
Mar 13 Python
简单谈谈python的反射机制
Jun 28 Python
Python之Web框架Django项目搭建全过程
May 02 Python
Python交互式图形编程的实现
Jul 25 Python
pandas-resample按时间聚合实例
Dec 27 Python
Python3中configparser模块读写ini文件并解析配置的用法详解
Feb 18 Python
jupyter notebook 使用过程中python莫名崩溃的原因及解决方式
Apr 10 Python
Python操作MySQL数据库的示例代码
Jul 13 Python
想学画画?python满足你!
Dec 24 Python
python基础之while循环语句的使用
Apr 20 Python
Python列表删除重复元素与图像相似度判断及删除实例代码
May 07 Python
Python 如何对文件目录操作
Jul 10 #Python
Python下划线5种含义代码实例解析
Jul 10 #Python
Python 没有main函数的原因
Jul 10 #Python
如何教少儿学习Python编程
Jul 10 #Python
Django def clean()函数对表单中的数据进行验证操作
Jul 09 #Python
django form和field具体方法和属性说明
Jul 09 #Python
浅谈Python里面None True False之间的区别
Jul 09 #Python
You might like
PHP中比较两个字符串找出第一个不同字符位置例子
2014/04/08 PHP
Laravel 5 框架入门(四)完结篇
2015/04/09 PHP
PHP中的traits实现代码复用使用实例
2015/05/13 PHP
php ajax异步读取rss文档数据
2016/03/29 PHP
自定义min版smarty模板引擎MinSmarty.class.php文件及用法
2016/05/20 PHP
Laravel 加载第三方类库的方法
2018/04/20 PHP
PHP SESSION机制的理解与实例
2019/03/22 PHP
同域jQuery(跨)iframe操作DOM(示例代码)
2013/12/13 Javascript
浅谈关于JavaScript API设计的一些建议和准则
2015/06/24 Javascript
理解javascript中的原型和原型链
2015/07/30 Javascript
js制作带有遮罩弹出层实现登录注册表单特效代码分享
2015/09/05 Javascript
jQuery实现带渐显效果的人物多级关系图代码
2015/10/16 Javascript
微信小程序 Page()函数详解
2016/10/17 Javascript
值得学习的bootstrap fileinput文件上传工具
2016/11/08 Javascript
JavaScript使用简单正则表达式的数据验证功能示例
2017/01/13 Javascript
Bootstrap中glyphicons-halflings-regular.woff字体报404错notfound的解决方法
2017/01/19 Javascript
JavaScript监听手机物理返回键的两种解决方法
2017/08/14 Javascript
async/await地狱该如何避免详解
2018/05/10 Javascript
JS中使用react-tooltip插件实现鼠标悬浮显示框
2019/05/15 Javascript
Python简单获取自身外网IP的方法
2016/09/18 Python
Python+OpenCV实现图像融合的原理及代码
2018/12/03 Python
Python 存储字符串时节省空间的方法
2019/04/23 Python
PyQt5中QTableWidget如何弹出菜单的示例代码
2020/02/23 Python
python tkinter实现连连看游戏
2020/11/16 Python
Vision Directa智利眼镜网:框架眼镜、隐形眼镜和名牌太阳眼镜
2016/11/23 全球购物
阿迪达斯墨西哥官方网站:adidas墨西哥
2017/11/03 全球购物
Lookfantastic西班牙官网:英国知名美妆购物网站
2018/06/13 全球购物
卡骆驰英国官网:Crocs英国
2019/08/22 全球购物
捷克购买家具网站:JENA nábytek
2020/03/19 全球购物
《我要的是葫芦》教学反思
2014/02/23 职场文书
师范生求职自荐信
2014/06/14 职场文书
幼儿园中班区域活动总结
2014/07/09 职场文书
2015年学校党支部工作总结
2015/04/01 职场文书
2016年第16个全民国防教育日宣传活动总结
2016/04/05 职场文书
Javascript中Microtask和Macrotask鲜为人知的知识点
2022/04/02 Javascript
改造DE1103三步曲
2022/04/07 无线电