编程 Javascript

node.js 基于cheerio的爬虫工具的实现（需要登录权限的爬虫工具）

Posted in Javascript onApril 10, 2019

公司有过一个需求,需要拿一个网页的的表格数据，数据量达到30w左右；为了提高工作效率。

结合自身经验和网上资料。写了一套符合自己需求的nodejs爬虫工具。也许也会适合你的。

先上代码。在做讲解

'use strict';
// 引入模块
const superagent = require('superagent');
const cheerio = require('cheerio');
const Excel = require('exceljs');
var baseUrl = '';
var Cookies = 'PHPSESSID=1c948cafb361cb5dce87122846e649cd'; //伪装的cookie
let pageDatas = [];
let count = 1;
let limit = 3;
for (count; count < limit; count++) { 
  baseUrl = `http://bxjd.henoo.com/policy/policyList?page=${count}`;
  loadPage(baseUrl); 
}
function loadPage(baseUrl) { 
   getPageLoad(baseUrl);
} 
async function getPageLoad(baseUrl) {
  try {
    let body = await superagent.get(baseUrl)
      .set("Cookie", Cookies)
    var $ = cheerio.load(body.text);
    var trList = $("#tableList").children("tr");  
      for (var i = 0; i < trList.length; i++) { 
        let item = {};
        var tdArr = trList.eq(i).find("td");
        var id = tdArr.eq(0).text();
        item.sortId = id;
        var detailUrl = `http://bxjd.henoo.com/policy/view?id=${id}`;
        item.policyId = tdArr.eq(1).text();
        item.policyProductName = tdArr.eq(2).text();
        item.policyName = tdArr.eq(3).text();
        item.policyMoney = tdArr.eq(4).text();
        let detailBody = await superagent.get(detailUrl)
          .set("Cookie", Cookies);
        var $$ = cheerio.load(detailBody.text);
        var detailT = $$(".table-view");     
        //投保人证件号
        item.policyIdNum = detailT.find("tr").eq(11).find("td").eq(1).text();
        //投保人手机号
        item.policyPhone = detailT.find("tr").eq(10).find("td").eq(1).text();
        //被保人手机号
        item.bePoliciedPhone = detailT.find("tr").eq(16).find("td").eq(1).text();      
        //被保人姓名
        item.bePoliciedName = detailT.find("tr").eq(13).find("td").eq(1).text();
        console.log(item.bePoliciedName)
        //被保人证件号
        item.bePoliciedIdNum = detailT.find("tr").eq(17).find("td").eq(1).text();
        pageDatas = [...pageDatas,item];
      }
    if (pageDatas.length / 15 == (count - 1)) { 
      writeXLS(pageDatas)
    }
  } catch (error) {
  }
}
function writeXLS(pageDatas) {
  const workbook = new Excel.Workbook();
  const sheet = workbook.addWorksheet('My Sheet');
  const reColumns=[
    {header:'序号',key:'sortId'},
    {header:'投保单号',key:'policyId'},
    {header: '产品名称', key: 'policyProductName'},
    {header: '投保人姓名', key: 'policyName' },
    {header: '投保人手机号', key: 'policyPhone' },
    {header: '投保人证件号', key: 'policyIdNum'},
    {header: '被保人姓名', key: 'bePoliciedName' },
    {header: '被保人手机号', key: 'bePoliciedPhone' },
    {header: '被保人证件号', key: 'bePoliciedIdNum' },
    {header:'保费',key:'policyMoney'},
  ];
  sheet.columns = reColumns;
  for(let trData of pageDatas){
    sheet.addRow(trData);
  }
  const filename = './projects.xlsx';
  workbook.xlsx.writeFile(filename)
  .then(function() {
   console.log('ok');
  }).catch(function (error) { 
     console.error(error); 
  });
 }

代码使用方式

一、npm install 相关的依赖二、代码修改

1、修改为自己的baseUrl

2、如果不需要携带cookie时将set("Cookie", Cookies)代码去掉

3、修改自己的业务代码

三、运行 node index四、部分代码说明

所有代码不过90行不到,操作了表格数据获取和单条数据详情的获取

node.js 基于cheerio的爬虫工具的实现（需要登录权限的爬虫工具）

接口请求的框架使用superagent的原因是拼接伪装的cookie的操作比较简单。因为有的时候我们需要获取登录后的页面数据。

这个时候可能需要请求是携带登录cookie信息。返回后的body对象通过cheerio.load之后就能拿到一个类似jquery的文档对象。

后面就可以很方便的使用jquery的dom操作方式去拿到页面内自己想要的数据了。

node.js 基于cheerio的爬虫工具的实现（需要登录权限的爬虫工具）

数据写入到excel中。

五、结果

node.js 基于cheerio的爬虫工具的实现（需要登录权限的爬虫工具）

总结

node.js 基于cheerio的爬虫工具的实现（需要登录权限的爬虫工具）

- Author -

runRole

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Javascript 相关文章推荐

JS Excel读取和写入操作（模板操作）实现代码

Apr 11 Javascript

js中的onchange和onpropertychange (onchange无效的解决方法)

Mar 08 Javascript

《JavaScript DOM 编程艺术》读书笔记之JavaScript 简史

Jan 09 Javascript

jquery实现简单文字提示效果

Dec 02 Javascript

DOM操作原生js 的bug,使用jQuery 可以消除的解决方法

Sep 04 Javascript

AngularJs ng-route路由详解及实例代码

Sep 14 Javascript

JavaScript递归操作实例浅析

Oct 31 Javascript

Bootstrap 3多级下拉菜单实例

Nov 23 Javascript

用js简单提供增删改查接口

May 12 Javascript

node基于async/await对mysql进行封装

Jun 20 Javascript

Jquery Fade用法详解

Nov 06 jQuery

微信小程序实现倒计时功能

Nov 19 Javascript

详解关于html，css，js三者的加载顺序问题

Apr 10 #Javascript

angular2 NgModel模块的具体使用方法

Apr 10 #Javascript

bootstrap tooltips在 angularJS中的使用方法

Apr 10 #Javascript

javascript判断一个变量是数组还是对象

Apr 10 #Javascript

Angular CLI 使用教程指南参考小结

Apr 10 #Javascript

基于vue开发微信小程序mpvue-docs跳转页面功能

Apr 10 #Javascript

element-ui多文件上传的实现示例

Apr 10 #Javascript

You might like

PHP转盘抽奖接口实例

2015/02/09 PHP

php判断手机浏览还是web浏览,并执行相应的动作简单实例

2016/07/28 PHP

php的laravel框架快速集成微信登录的方法

2016/12/12 PHP

深入认识JavaScript中的函数

2007/01/22 Javascript

Jquery 设置标题的自动翻转

2009/10/03 Javascript

JQuery select控件的相关操作实现代码

2012/09/14 Javascript

js 获取、清空input type="file"的值示例代码

2014/02/19 Javascript

JavaScript中实现PHP的打乱数组函数shuffle实例

2014/10/11 Javascript

jquery ui resize 中border-box的bug修正

2015/04/26 Javascript

JavaScript基本语法讲解

2015/06/03 Javascript

javascript基础知识分享之类与函数化

2016/02/13 Javascript

详解vue+vueRouter+webpack的简单实例

2017/06/17 Javascript

使用Ajax和Jquery配合数据库实现下拉框的二级联动的示例

2018/01/25 jQuery

layerUI下的绑定事件实例代码

2018/08/17 Javascript

javascript实现计算器功能

2020/03/30 Javascript

nuxt 实现在其它js文件中使用store的方式

2020/11/05 Javascript

[42:22]DOTA2上海特级锦标赛C组小组赛#1 OG VS Archon第一局

2016/02/27 DOTA

python base64 decode incorrect padding错误解决方法

2015/01/08 Python

python实现复制整个目录的方法

2015/05/12 Python

Python3按一定数据位数格式处理bin文件的方法

2019/01/24 Python

Python中将两个或多个list合成一个list的方法小结

2019/05/12 Python

Flask框架重定向,错误显示,Responses响应及Sessions会话操作示例

2019/08/01 Python

python redis存入字典序列化存储教程

2020/07/16 Python

pytest fixtures装饰器的使用和如何控制用例的执行顺序

2021/01/28 Python

python装饰器代码深入讲解

2021/03/01 Python

优秀毕业生求职推荐信范文

2013/11/21 职场文书

幼儿园小班教学反思

2014/02/02 职场文书

公司司机岗位职责

2014/02/07 职场文书

财务科科长岗位职责

2014/03/10 职场文书

租车协议书范本

2014/04/22 职场文书

小学生安全演讲稿

2014/04/25 职场文书

党员目标管理责任书

2014/07/25 职场文书

纪律教育学习月活动总结

2014/08/27 职场文书

党员群众路线学习心得体会

2014/11/04 职场文书

2015年公司行政后勤工作总结

2015/05/20 职场文书

2019个人工作总结

2019/06/21 职场文书