node.js爬虫爬取拉勾网职位信息


Posted in Javascript onMarch 14, 2017

简介

用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京、上海、广州、深圳、杭州、西安、成都7个城市的数据,分别以前端、PHP、java、c++、python、Android、ios作为关键词进行爬取,爬到的数据以json格式储存到本地,为了方便观察,我将数据整理了一下供大家参考

数据结果

node.js爬虫爬取拉勾网职位信息

上述数据为3月13日22时爬取的数据,可大致反映各个城市对不同语言的需求量。

爬取过程展示

控制并发进行爬取

node.js爬虫爬取拉勾网职位信息

爬取到的数据文件

node.js爬虫爬取拉勾网职位信息

json数据文件

node.js爬虫爬取拉勾网职位信息

爬虫程序

实现思路

请求拉钩网的 “https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=城市&kd=关键词&pn=页数”可以返回一个json格式的数据,该数据包含所要请求职位的信息,省去了使用chreio解析的麻烦,所以直接用superagent来进行请求上述地址,并将数据储存在本地即可,其中参数city是为城市,kd为所要搜索的关键词,pn为要请求的页数,当中使用到了async来控制异步流程,使得并发数不超过3,防止被封ip。

代码地址及使用

github:https://github.com/zsqosos/positionAnalysis

代码请在github上查看,使用该程序需要安装node环境,如果觉得还不错的话烦请给个star,欢迎大家修改使用该程序。

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,同时也希望多多支持三水点靠木!

Javascript 相关文章推荐
JS控制图片等比例缩放的示例代码
Dec 24 Javascript
javascript history对象(历史记录)使用方法(实现浏览器前进后退)
Jan 07 Javascript
div失去焦点事件实现思路
Apr 22 Javascript
jQuery中addClass()方法用法实例
Jan 05 Javascript
JavaScript数据推送Comet技术详解
Apr 07 Javascript
JS使用正则表达式过滤多个词语并替换为相同长度星号的方法
Aug 03 Javascript
JavaScript中的return布尔值的用法和原理解析
Aug 14 Javascript
利用Javascript获取选择文本所在的句子详解
Dec 03 Javascript
微信小程序scroll-x失效的完美解决方法
Jul 18 Javascript
Node.js 使用request模块下载文件的实例
Sep 05 Javascript
Node.js中读取TXT文件内容fs.readFile()用法
Oct 10 Javascript
微信小程序后端实现授权登录
Feb 24 Javascript
AngularJS实现页面定时刷新
Mar 14 #Javascript
原生JS实现左右箭头选择日期实例代码
Mar 14 #Javascript
JavaScript校验Number(4,1)格式的数字实例代码
Mar 13 #Javascript
Bootstrap笔记—折叠实例代码
Mar 13 #Javascript
jquery插件ContextMenu设置右键菜单
Mar 13 #Javascript
jQuery实现表格奇偶行显示不同背景色 就这么简单
Mar 13 #Javascript
轻松实现jQuery添加删除按钮Click事件
Mar 13 #Javascript
You might like
PHP 高手之路(二)
2006/10/09 PHP
Zend Studio 无法启动的问题解决方法
2008/12/04 PHP
PHP使用GD库输出汉字的方法【测试可用】
2016/11/10 PHP
php打开本地exe程序,js打开本地exe应用程序,并传递相关参数方法
2018/02/06 PHP
laravel使用数据库测试注意事项
2020/04/10 PHP
JavaScript 函数式编程的原理
2009/10/16 Javascript
基于js与flash实现的网站flv视频播放插件代码
2014/10/14 Javascript
JavaScript事件委托用法分析
2015/01/24 Javascript
javascript将DOM节点添加到文档的方法实例分析
2015/08/04 Javascript
延时加载JavaScript代码提高速度
2015/12/27 Javascript
如何高效率去掉js数组中的重复项
2016/04/12 Javascript
简单实现JavaScript图片切换效果
2016/11/28 Javascript
Vue实例中生命周期created和mounted的区别详解
2017/08/25 Javascript
使用 vue.js 构建大型单页应用
2018/02/10 Javascript
angular4 JavaScript内存溢出问题
2018/03/06 Javascript
nodeJS模块简单用法示例
2018/04/21 NodeJs
jQuery+css last-child实现选择最后一个子元素操作示例
2018/12/10 jQuery
node错误处理与日志记录的实现
2018/12/24 Javascript
Vue中全局变量的定义和使用
2019/06/05 Javascript
JS几个常用的函数和对象定义与用法示例
2020/01/15 Javascript
javascript实现贪吃蛇游戏(娱乐版)
2020/08/17 Javascript
vue项目中微信登录的实现操作
2020/09/08 Javascript
[01:15:12]DOTA2上海特级锦标赛主赛事日 - 1 败者组第一轮#4Newbee VS CDEC
2016/03/03 DOTA
将python代码和注释分离的方法
2018/04/21 Python
python批量修改图片大小的方法
2018/07/24 Python
django 自定义过滤器的实现
2019/02/26 Python
Python解析json时提示“string indices must be integers”问题解决方法
2019/07/31 Python
Django 解决新建表删除后无法重新创建等问题
2020/05/21 Python
python的launcher用法知识点总结
2020/08/07 Python
大学四年职业生涯规划书范文
2014/01/02 职场文书
播音主持专业个人自我评价
2014/01/09 职场文书
初三化学教学反思
2016/02/22 职场文书
健身房被搭讪?用python写了个小米计时器助人为乐
2021/06/08 Python
解析目标检测之IoU
2021/06/26 Python
Redis调用Lua脚本及使用场景快速掌握
2022/03/16 Redis
使用 Koa + TS + ESLlint 搭建node服务器的过程详解
2022/05/30 NodeJs