node.js爬虫爬取拉勾网职位信息


Posted in Javascript onMarch 14, 2017

简介

用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京、上海、广州、深圳、杭州、西安、成都7个城市的数据,分别以前端、PHP、java、c++、python、Android、ios作为关键词进行爬取,爬到的数据以json格式储存到本地,为了方便观察,我将数据整理了一下供大家参考

数据结果

node.js爬虫爬取拉勾网职位信息

上述数据为3月13日22时爬取的数据,可大致反映各个城市对不同语言的需求量。

爬取过程展示

控制并发进行爬取

node.js爬虫爬取拉勾网职位信息

爬取到的数据文件

node.js爬虫爬取拉勾网职位信息

json数据文件

node.js爬虫爬取拉勾网职位信息

爬虫程序

实现思路

请求拉钩网的 “https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=城市&kd=关键词&pn=页数”可以返回一个json格式的数据,该数据包含所要请求职位的信息,省去了使用chreio解析的麻烦,所以直接用superagent来进行请求上述地址,并将数据储存在本地即可,其中参数city是为城市,kd为所要搜索的关键词,pn为要请求的页数,当中使用到了async来控制异步流程,使得并发数不超过3,防止被封ip。

代码地址及使用

github:https://github.com/zsqosos/positionAnalysis

代码请在github上查看,使用该程序需要安装node环境,如果觉得还不错的话烦请给个star,欢迎大家修改使用该程序。

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,同时也希望多多支持三水点靠木!

Javascript 相关文章推荐
JavaScript 解析读取XML文档 实例代码
Jul 07 Javascript
firefox插件Firebug的使用教程
Jan 02 Javascript
javascript实现动态侧边栏代码
Feb 19 Javascript
js使用栈来实现10进制转8进制与取除数及余数
Jun 11 Javascript
谈谈JavaScript中的几种借用方法
Aug 09 Javascript
JS正则RegExp.test()使用注意事项(不具有重复性)
Dec 28 Javascript
详解Html a标签中href和onclick用法、区别、优先级别
Jan 16 Javascript
JavaScript闭包原理与用法实例分析
Aug 10 Javascript
简单说说如何使用vue-router插件的方法
Apr 08 Javascript
arctext.js实现文字平滑弯曲弧形效果的插件
May 13 Javascript
微信小程序—setTimeOut定时器的问题及解决
Jul 26 Javascript
axios实现文件上传并获取进度
Mar 25 Javascript
AngularJS实现页面定时刷新
Mar 14 #Javascript
原生JS实现左右箭头选择日期实例代码
Mar 14 #Javascript
JavaScript校验Number(4,1)格式的数字实例代码
Mar 13 #Javascript
Bootstrap笔记—折叠实例代码
Mar 13 #Javascript
jquery插件ContextMenu设置右键菜单
Mar 13 #Javascript
jQuery实现表格奇偶行显示不同背景色 就这么简单
Mar 13 #Javascript
轻松实现jQuery添加删除按钮Click事件
Mar 13 #Javascript
You might like
分页显示Oracle数据库记录的类之一
2006/10/09 PHP
使用ucenter实现多站点同步登录的讲解
2019/03/21 PHP
PHP使用redis位图bitMap 实现签到功能
2019/10/08 PHP
PHP程序员简单的开展服务治理架构操作详解(三)
2020/05/14 PHP
利用谷歌地图API获取点与点的距离的js代码
2012/10/11 Javascript
JS生成不重复随机数组的函数代码
2014/06/10 Javascript
JS实现图片无间断滚动代码汇总
2014/07/30 Javascript
angularjs 处理多个异步请求方法汇总
2015/01/06 Javascript
修改或扩展jQuery原生方法的代码实例
2015/01/13 Javascript
JQuery动画与特效实例分析
2015/02/02 Javascript
Jquery 分页插件之Jquery Pagination
2015/08/25 Javascript
第一次接触神奇的前端框架vue.js
2016/12/01 Javascript
react实现pure render时bind(this)隐患需注意!
2017/03/09 Javascript
实例分析nodejs模块xml2js解析xml过程中遇到的坑
2017/03/18 NodeJs
Angular父子组件通过服务传参的示例方法
2018/10/31 Javascript
vue单页面实现当前页面刷新或跳转时提示保存
2018/11/02 Javascript
js实现倒计时器自定义时间和暂停
2019/02/25 Javascript
layer弹出层扩展主题的方法
2019/09/11 Javascript
[07:43]《辉夜杯》公开赛晋级外卡赛战队—TRG训练生活探秘
2015/12/11 DOTA
[03:12]TI9战队档案 - Virtus Pro
2019/08/20 DOTA
Python求两个list的差集、交集与并集的方法
2014/11/01 Python
Python中的测试模块unittest和doctest的使用教程
2015/04/14 Python
Django与JS交互的示例代码
2017/08/23 Python
基于python实现聊天室程序
2018/07/27 Python
Python+selenium 获取浏览器窗口坐标、句柄的方法
2018/10/14 Python
python实现多进程通信实例分析
2019/09/01 Python
python实现一个点绕另一个点旋转后的坐标
2019/12/04 Python
Python3利用scapy局域网实现自动多线程arp扫描功能
2021/01/21 Python
检测用户浏览器是否支持CSS3的方法
2009/08/29 HTML / CSS
BASIC HOUSE官方旗舰店:韩国著名的服装品牌
2018/09/27 全球购物
Mybag美国/加拿大:英国奢华包包和名牌手袋网站
2020/02/16 全球购物
商务英语大学生职业生涯规划书范文
2014/01/01 职场文书
房屋出租委托书格式
2014/09/23 职场文书
十佳少年事迹材料
2014/12/25 职场文书
2015年入党决心书
2015/02/05 职场文书
Spring整合Mybatis的全过程
2021/06/28 Java/Android