编程 Javascript

Puppeteer 爬取动态生成的网页实战

Posted in Javascript onNovember 14, 2018

Puppeteer 相关介绍与安装不过多介绍，可通过以下链接进行学习

一、Puppeteer

开源地址

英文文档

中文社区

二、爬取动态网页

1. 需求

首先，了解下我们的需求: 爬取zoomcharts 文档中 Net Chart 目录下所有访问连接对应的页面，并保存到本地

Puppeteer 爬取动态生成的网页实战

2. 研究 ZoomCharts 文档页面结构

首先，我们得研究透 ZoomCharts 页面如何加载，以及左侧导航的 DOM 树结构，才好进行下一步操作

页面首次加载

Puppeteer 爬取动态生成的网页实战

页面首次加载，左侧导航第一个目录 Introduction 高亮，从控制台可看出，该元素增加了 active 类，同时 li[data-section="net-chart"] 节点下只有一个元素节点 a

点击 Net Chart 目录

Puppeteer 爬取动态生成的网页实战

点击 Net Chart 目录, Net Chart 目录高亮，下拉显示子目录，查看控制台，其元素节点增加 active 类，并增加 ul 子元素节点, 此时，第一个子目录节点也只有一个子元素节点 a

结论

不难发现, 左侧目录是动态生成的，而不是静态写死的，只有点击父级目录，其子目录才会生成显示，同时，父级目录元素上的 drop 类表明存在子级目录

3. 编写主程序

通过上面分析，得出大概流程如下

从上到下，遍历 Net Chart 目录的 DOM 树，当找到 a.drop 的元素节点，模拟鼠标点击事件 click ，生成子目录节点
找到 Net Chart 目录下所有的 a 链接，生成一个数组
遍历数组，访问每一个子目录页面，保存页面的 html 文件到本地

接下来实现每个具体流程

项目初始化

安装 puppeteer , rimraf (文件夹操作时需用到)

npm i -S puppeteer rimraf

新建 test.js 文件并引入

const puppeteer = require('puppeteer');
const chalk = require('chalk');
const path = require('path');
const https = require('https');
const fs = require('fs');
const rm = require('rimraf');

const settings = {
 headless: false
}

function resolve(dir, dir2 = '') {
	return path.posix.join(__dirname, './', dir, dir2);
}

async function main () {
 const browser = await puppeteer.launch(settings); // 创建一个Browser 对象
 try {
  const page = await browser.newPage(); // 使用 Browser 创建 Page 
  page.setDefaultNavigationTimeout(600000);
  // 监听 console 
  page.on('console', msg => {
   for (let i = 0; i < msg.args().length; ++i) {
    console.log(`${i}: ${msg.args()[i]}`);
   }
  });
  
  <!-- main start -->
  // main 区域
  
  <!-- end start-->
  console.log('服务正常结束')
 } catch (error) {
  console.log('服务出现错误：')
  console.log(error)
 } finally {
  
 }
}

main()

接下来所有代码都在 main 区域内完成，完整代码可访问github代码仓库查看，下面仅列出每部分的思路

创建文件夹，用于保存爬取的文件

定义文件输出路径
根据路径生成文件夹
当文件夹已经存在，先删除，再新建

实现 Net Chart 目录下所有 a.drop 元素的点击事件

这部分涉及到DOM 操作, 只有在 page.evaluate() 中才能访问真实的 DOM 元素，同时，在 page.evaluate() 中不能直接调用外面定义的函数，可将函数传递进去，或将函数绑定到 window 对象上

await page.evaluate(async () => {
 const rootNode = document.querySelector('#menu > ul > li:nth-child(5) > ul > li:nth-child(5)');
 await window.walkDOM(rootNode)
})

此时，绑定到 window 对象上的 walkDOM 函数需要在 page.evaluateOnNewDocument 函数中定义才能生效

await page.evaluateOnNewDocument(() => {
 // 遍历DOM
 window.walkDOM = (node) => {
  if (node === null) {
   return
  }
  if (node.tagName === 'A' && node.className.indexOf('drop') > -1) {
   node.click() // 点击事件
  }
  node = node.firstElementChild
  while (node) {
   walkDOM(node)
   node = node.nextElementSibling
  }
 }
})

当Net Chart 目录下所有 a.drop 元素点击过后， Net Chart 目录下所有后代子目录都会加载生成，接下来操作就简单了

获取Net Chart 目录下所有 a 元素

通过 document.querySelectorAll() 查找到所有 a 元素，保存到数组
遍历数组，对数组每一项进行处理成 {href: '',text: ''} 对象
返回对象数组

遍历对象数组，访问每一个链接，下载其HTML文件

跳转每一个链接，下载需要的html到指定文件夹
当 HTML 中存在 img 时，下载所有图片

4. 总结

第一次使用Puppeteer也是磕磕绊绊，花费不少时间，期间也参考了不少文章，还需多多练习

代码仓库

代码仓库

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Puppeteer 爬取动态生成的网页实战

- Author -

Alone1469546971808

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Javascript 相关文章推荐

分享14个很酷的jQuery导航菜单插件

Apr 25 Javascript

基于jquery自定义图片热区效果

Jul 21 Javascript

JavaScript 在网页上单击鼠标的地方显示层及关闭层

Dec 30 Javascript

js 控制页面跳转的5种方法

Sep 09 Javascript

jQuery Mobile动态刷新页面样式的实现方法

May 28 Javascript

微信小程序“摇一摇”的实例代码

Jul 20 Javascript

浅谈js获取ModelAndView值的问题

Mar 28 Javascript

AngularJs用户输入动态模板XSS攻击示例详解

Apr 21 Javascript

vue 监听键盘回车事件详解 @keyup.enter || @keyup.enter.native

Aug 25 Javascript

解决Vue打包后访问图片/图标不显示的问题

Jul 25 Javascript

微信小程序高德地图路线规划实现过程详解

Aug 05 Javascript

vue 根据选择的月份动态展示日期对应的星期几

Feb 06 Vue.js

React和Vue中监听变量变化的方法

Nov 14 #Javascript

详解jQuery获取特殊属性的值以及设置内容

Nov 14 #jQuery

浅谈vue中关于checkbox数据绑定v-model指令的个人理解

Nov 14 #Javascript

js html实现计算器功能

Nov 13 #Javascript

JavaScript使用类似break机制中断forEach循环的方法

Nov 13 #Javascript

小程序登录态管理的方法示例

Nov 13 #Javascript

Vuex 使用 v-model 配合 state的方法

Nov 13 #Javascript

You might like

解析php时间戳与日期的转换

2013/06/06 PHP

PHP创建文件，并向文件中写入数据,覆盖,追加的实现代码

2016/03/25 PHP

解析PHP之提取多维数组指定列的方法

2017/01/03 PHP

用Laravel Sms实现laravel短信验证码的发送的实现

2018/11/29 PHP

tp5框架使用composer实现日志记录功能示例

2019/01/10 PHP

jQuery 判断元素上是否绑定了事件

2009/10/28 Javascript

TreeView 用法（有代码）（asp.net）

2011/07/15 Javascript

原生js实现shift/ctrl/alt按键的获取

2013/04/08 Javascript

js实现点小图看大图效果的思路及示例代码

2013/10/28 Javascript

javascript父、子页面交互技巧总结

2014/08/08 Javascript

详解react如何在组件中获取路由参数

2017/06/15 Javascript

Vue filter介绍及其使用详解

2017/10/21 Javascript

javascript+css3开发打气球小游戏完整代码

2017/11/28 Javascript

微信小程序发布新版本时自动提示用户更新的方法

2019/06/07 Javascript

JavaScript实现移动端弹窗后禁止滚动

2020/05/25 Javascript

JavaScript DOM常用操作代码汇总

2020/07/03 Javascript

JavaScript中的Proxy对象

2020/11/27 Javascript

微信小程序实现登录注册功能

2020/12/29 Javascript

Python语言的12个基础知识点小结

2014/07/10 Python

python实现爬虫下载美女图片

2015/07/14 Python

ubuntu系统下使用pm2设置nodejs开机自启动的方法

2018/05/12 NodeJs

python爬虫之快速对js内容进行破解

2019/07/09 Python

使用pyhon绘图比较两个手机屏幕大小(实例代码)

2020/01/03 Python

python sitk.show()与imageJ结合使用常见的问题

2020/04/20 Python

Python实现播放和录制声音的功能

2020/08/12 Python

使用CSS3制作版头动画效果

2020/12/24 HTML / CSS

蛋白质世界：Protein World

2017/11/23 全球购物

Crucial英睿达法国官网：内存条及SSD固态硬盘升级

2018/07/13 全球购物

家长给小学生的评语

2014/01/30 职场文书

竞争上岗实施方案

2014/03/21 职场文书

投资意向书范本

2014/04/01 职场文书

就业协议书范本

2014/04/11 职场文书

女儿满月酒致辞

2015/07/29 职场文书

2019年市场部个人述职报告（三篇）

2019/10/23 职场文书

pytorch 运行一段时间后出现GPU OOM的问题

2021/06/02 Python

使用CSS自定义属性实现骨架屏效果

2022/06/21 HTML / CSS