node.js爬虫爬取拉勾网职位信息


Posted in Javascript onMarch 14, 2017

简介

用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京、上海、广州、深圳、杭州、西安、成都7个城市的数据,分别以前端、PHP、java、c++、python、Android、ios作为关键词进行爬取,爬到的数据以json格式储存到本地,为了方便观察,我将数据整理了一下供大家参考

数据结果

node.js爬虫爬取拉勾网职位信息

上述数据为3月13日22时爬取的数据,可大致反映各个城市对不同语言的需求量。

爬取过程展示

控制并发进行爬取

node.js爬虫爬取拉勾网职位信息

爬取到的数据文件

node.js爬虫爬取拉勾网职位信息

json数据文件

node.js爬虫爬取拉勾网职位信息

爬虫程序

实现思路

请求拉钩网的 “https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=城市&kd=关键词&pn=页数”可以返回一个json格式的数据,该数据包含所要请求职位的信息,省去了使用chreio解析的麻烦,所以直接用superagent来进行请求上述地址,并将数据储存在本地即可,其中参数city是为城市,kd为所要搜索的关键词,pn为要请求的页数,当中使用到了async来控制异步流程,使得并发数不超过3,防止被封ip。

代码地址及使用

github:https://github.com/zsqosos/positionAnalysis

代码请在github上查看,使用该程序需要安装node环境,如果觉得还不错的话烦请给个star,欢迎大家修改使用该程序。

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,同时也希望多多支持三水点靠木!

Javascript 相关文章推荐
使用jQuery UI的tooltip函数修饰title属性的气泡悬浮框
Jun 24 Javascript
js中switch case循环实例代码
Dec 30 Javascript
在JavaScript应用中实现延迟加载的方法
Jun 25 Javascript
百度地图api如何使用
Aug 03 Javascript
JavaScript函数学习总结以及相关的编程习惯指南
Nov 16 Javascript
Angular和百度地图的结合实例代码
Oct 19 Javascript
jQuery学习笔记之入门
Dec 14 Javascript
Vuejs 页面的区域化与组件封装的实现
Sep 11 Javascript
微信小程序实现省市区三级地址选择
Jun 21 Javascript
vue项目中实现缓存的最佳方案详解
Jul 11 Javascript
解决vue2中使用elementUi打包报错的问题
Sep 22 Javascript
html中创建并调用vue组件的几种方法汇总
Nov 17 Javascript
AngularJS实现页面定时刷新
Mar 14 #Javascript
原生JS实现左右箭头选择日期实例代码
Mar 14 #Javascript
JavaScript校验Number(4,1)格式的数字实例代码
Mar 13 #Javascript
Bootstrap笔记—折叠实例代码
Mar 13 #Javascript
jquery插件ContextMenu设置右键菜单
Mar 13 #Javascript
jQuery实现表格奇偶行显示不同背景色 就这么简单
Mar 13 #Javascript
轻松实现jQuery添加删除按钮Click事件
Mar 13 #Javascript
You might like
第四章 php数学运算
2011/12/30 PHP
PHP判断浏览器、判断语言代码分享
2015/03/05 PHP
Yii2前后台分离及migrate使用(七)
2016/05/04 PHP
php使用GD2绘制几何图形示例
2017/02/15 PHP
获取HTML DOM节点元素的方法的总结
2009/08/21 Javascript
javascript 判断字符串是否包含某字符串及indexOf使用示例
2013/10/18 Javascript
jQuery循环滚动新闻列表示例代码
2014/06/17 Javascript
js中string转int把String类型转化成int类型
2014/08/13 Javascript
jQuery实现DIV层淡入淡出拖动特效的方法
2015/02/13 Javascript
AngularJS入门教程之表单校验用法示例
2016/11/02 Javascript
jQuery+ajax的资源回收处理机制分析
2017/01/07 Javascript
Vue利用路由钩子token过期后跳转到登录页的实例
2017/10/26 Javascript
详谈vue+webpack解决css引用图片打包后找不到资源文件的问题
2018/03/06 Javascript
详解vuex持久化插件解决浏览器刷新数据消失问题
2019/04/15 Javascript
vue 搭建后台系统模块化开发详解
2019/05/01 Javascript
解决前后端分离 vue+springboot 跨域 session+cookie失效问题
2019/05/13 Javascript
vue-router路由懒加载及实现的3种方式
2021/02/28 Vue.js
python操作日期和时间的方法
2014/03/11 Python
python使用socket向客户端发送数据的方法
2015/04/29 Python
python利用Guetzli批量压缩图片
2017/03/23 Python
python利用paramiko连接远程服务器执行命令的方法
2017/10/16 Python
Python面向对象类继承和组合实例分析
2018/05/28 Python
Python global全局变量函数详解
2018/09/18 Python
Pycharm保存不能自动同步到远程服务器的解决方法
2019/06/27 Python
pytorch 在sequential中使用view来reshape的例子
2019/08/20 Python
python argparser的具体使用
2019/11/10 Python
荷兰优雅女装网上商店:Heine
2016/11/14 全球购物
介绍一下Linux中的链接
2016/05/28 面试题
高三语文教学反思
2014/01/15 职场文书
房地产财务管理制度
2014/02/02 职场文书
授权委托书范文
2014/07/31 职场文书
毕业生银行实习自我鉴定
2014/10/14 职场文书
医院领导班子四风问题对照检查材料
2014/10/26 职场文书
小王子读书笔记
2015/06/29 职场文书
2015年大学组织委员个人工作总结
2015/10/23 职场文书
Python中的socket网络模块介绍
2022/07/23 Python