Windows下Node爬虫神器Puppeteer安装记


Posted in Javascript onJanuary 09, 2019

对于爬虫,相信大家并不陌生。当希望得到一些网站的数据并做一些有趣的事时,必不可少要爬取网页,用到爬虫。而目前网络上也有很多爬虫的教程资料,不过又尤以python语言居多。想来自己是做web的,就希望以js的方式解决问题,于是希望利用nodejs。今天介绍一款node的爬虫利器:Puppeteer。

Puppeteer正如其名“木偶”,它允许我们像牵线木偶一样操纵它。它是一个建立在DevTools协议上的提供控制无头Chrome或Chromium的高级接口的Node库。官网上对其应用举了几个例子:

  • - 生成网页的截屏(目前仅支持支持jpeg、png格式)和pdf文件
  • - 爬取SPA和异步渲染网页
  • - 自动表单提交、键盘输入、UI测试等
  • - 创建最新的自动测试环境,也就是说可以使用最新的浏览器特性
  • - 捕获站点的时间线以帮助分析性能问题

Puppeteer本质上是一个headless chrome。无头浏览器,相信如果大家做爬虫肯定有所耳闻。其实就是一个没有UI界面的浏览器,它包含了浏览器应该具有的功能,通常做web测试用,不过做爬虫也是没问题的。PhantomJS就提供这样的功能,基于webkit内核,已经有好几年历史了。不过因为Puppeteer有背景(谷歌Chrome团队开发),我最后还是选择了Puppeteer。它们之间的不同点是后者只关注于Chromium或Chrome。这也导致了最坑的一点是总是绑定最新版本的Chromium。

上面说到Puppeteer会绑定最新版本的Chromium,这意味着每次使用npm i puppeteer安装使用它时都会下载最新版本的Chromium,该版本在Windows上大约是130Mb。本来下载npm包就很不易,还要下载一个一百多兆的东西更是难上加难了。当然可以使用cnpm,下图是我下载的一个界面。可以看到下载了55分钟,这固然有我网络慢的问题,但是能不下载Chromium就尽量不下载了吧。

Windows下Node爬虫神器Puppeteer安装记

官网讲到可以通过设置环境变量或配置npm config的方式避免下载。但设置环境变量我一直没有成功,所以接下来讲解配置npm config的方式。PUPPETEER_SKIP_CHROMIUM_DOWNLOAD参数可以避免下载,所以可以在安装puppeteer之前使用下面的命令:

npm config set puppeteer_skip_chromium_download = 1

但这样每次都要敲这个命令总不是办法,所以可以将其写入.npmrc文件中。npm官网讲到有四个影响npm配置的文件,分别是:项目配置文件(/path/to/my/project/.npmrc)、用户配置文件 (~/.npmrc)、全局配置文件($PREFIX/etc/npmrc)、npm内置配置文件(/path/to/npm/npmrc)。可以使用npm config list来查看影响npm的配置文件有哪些。不过这里面有个问题,就是上面的介绍文档是针对npm最新的6.0版本的。而一般随nodejs下载的npm版本没有这么高,只是npm4.x,导致项目中的配置文件不生效。可以从下面两张图片看到两种版本的npm的配置文件的不同(上面一张:npm4.0.2,下面一张npm6.0),可以看到后者多出一个project config列表。

Windows下Node爬虫神器Puppeteer安装记

Windows下Node爬虫神器Puppeteer安装记

身为强迫症的我,当然希望直接在项目目录中更改配置文件了,所以使用下面的命令安装最新版本的npm:

npm install npm@latest -g

然后在项目目录下建立.npmrc文件,输入以下配置命令:

puppeteer_skip_chromium_download = 1

这样配置之后,就可以跳过下载了,如图所示:

Windows下Node爬虫神器Puppeteer安装记

接着就可以使用它了,以官网的例子为例:

const puppeteer = require('puppeteer');

(async () => {
 const browser = await puppeteer.launch();
 const page = await browser.newPage();
 await page.goto('https://example.com');
 await page.screenshot({path: 'example.png'});

 await browser.close();
})();

以为这样就完了吗?不,虽然跳过下载的事情解决了,但是因为没有下载会导致puppeteer无法得知要使用的Chrome或Chromium在哪里,所以还需要指明启动路径。修改一下:

const puppeteer = require('puppeteer');

(async () => {
 const browser = await puppeteer.launch({
   // headless: false,//不使用无头chrome模式
   executablePath: 'C:\\Users\\sunbo\\AppData\\Local\\Google\\Chrome\\Application\\chrome.exe',//path to your chrome
 });
 const page = await browser.newPage();
 await page.goto('https://example.com');
 await page.screenshot({path: 'example.png'});

 await browser.close();
})();

更改executablePath参数指向你本地chrome所在目录,注意一定要指向chrome.exe才能正常使用。headless参数也是挺有趣的,如果其值为false,就会真的为我们启动一个chrome进程,让我们可以可视化整个程序运行的过程。

好了,安装配置好就可以尽情享受Puppeteer带给我们的美好世界了。最后说一点,官网例子使用async/awaitpromise,所以有必要了解这些异步知识,这些东西运用好,简直打开了异步编程的新世界。祝好运!!!

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Javascript 相关文章推荐
运算符&&的三个不同层次
Apr 07 Javascript
JQuery.Ajax之错误调试帮助信息介绍
Jul 04 Javascript
jQuery插件开发详细教程
Jun 06 Javascript
javascript实现可拖动变色并关闭层窗口实例
May 15 Javascript
浅析JS获取url中的参数实例代码
Jun 14 Javascript
浅谈jQuery中的$.extend方法来扩展JSON对象
Feb 12 Javascript
JavaScript 总结几个提高性能知识点(推荐)
Feb 20 Javascript
jQuery实现单击按钮遮罩弹出对话框效果(2)
Feb 20 Javascript
用Vue-cli搭建的项目中引入css报错的原因分析
Jul 20 Javascript
vue 2.1.3 实时显示当前时间,每秒更新的方法
Sep 16 Javascript
如何用JS实现网页瀑布流布局
Apr 24 Javascript
如何通过简单的代码描述Angular父组件、子组件传值
Apr 07 Javascript
jQuery简单实现根据日期计算星期几的方法
Jan 09 #jQuery
jQuery实现根据身份证号获取生日、年龄、性别等信息的方法
Jan 09 #jQuery
爬虫利器Puppeteer实战
Jan 09 #Javascript
puppeteer库入门初探
Jan 09 #Javascript
node.js的Express服务器基本使用教程
Jan 09 #Javascript
JavaScript学习笔记之基于定时器实现图片无缝滚动功能详解
Jan 09 #Javascript
element-ui 时间选择器限制范围的实现(随动)
Jan 09 #Javascript
You might like
ThinkPHP利用PHPMailer实现邮件发送实现代码
2013/09/26 PHP
PHP解码unicode编码的中文字符代码分享
2014/08/13 PHP
ThinkPHP无限级分类原理实现留言与回复功能实例
2014/10/31 PHP
PHP中使用jQuery+Ajax实现分页查询多功能操作(示例讲解)
2017/09/17 PHP
thinkPHP中钩子的使用方法实例分析
2017/11/16 PHP
网页中的图片的处理方法与代码
2009/11/26 Javascript
jquery $.ajax()取xml数据的小问题解决方法
2010/11/20 Javascript
jQuery基础知识点总结(DOM操作)
2016/06/01 Javascript
JS绘制微信小程序画布时钟
2016/12/24 Javascript
JS实现浏览上传文件的代码
2017/08/23 Javascript
vue+vue-validator 表单验证功能的实现代码
2017/11/13 Javascript
JS计算距当前时间的时间差实例
2017/12/29 Javascript
vue2.0在没有dev-server.js下的本地数据配置方法
2018/02/23 Javascript
javascript将非数值转换为数值
2018/09/13 Javascript
微信小程序实现modal弹出框遮罩层组件(可带文本框)
2020/12/20 Javascript
[03:42]2014DOTA2国际邀请赛 第三日比赛排位扑朔迷离
2014/07/12 DOTA
[03:20]次级联赛厮杀超职业 现超级兵对拆世纪大战
2014/10/30 DOTA
[25:59]Newbee vs TNC 2018国际邀请赛小组赛BO2 第二场 8.16
2018/08/17 DOTA
详解Python中time()方法的使用的教程
2015/05/22 Python
Python计算斗牛游戏概率算法实例分析
2017/09/26 Python
对python插入数据库和生成插入sql的示例讲解
2018/11/14 Python
python实现微信定时每天和女友发送消息
2019/04/29 Python
Python的matplotlib绘图如何修改背景颜色的实现
2019/07/16 Python
python hashlib加密实现代码
2019/10/17 Python
解决Django中checkbox复选框的传值问题
2020/03/31 Python
python递归函数求n的阶乘,优缺点及递归次数设置方式
2020/04/02 Python
在keras里实现自定义上采样层
2020/06/28 Python
python计算auc的方法
2020/09/09 Python
Weblogic和WebSphere不同特点
2012/05/09 面试题
煤矿开采专业求职信
2014/07/08 职场文书
高中运动会广播稿
2014/09/16 职场文书
人事任命书范本
2015/09/21 职场文书
在Java中Collection的一些常用方法总结
2021/06/13 Java/Android
MySQL8.0的WITH查询详情
2021/08/30 MySQL
斗罗大陆八大特殊魂兽,龙族始祖排榜首,第五最残忍(翠魔鸟)
2022/03/18 国漫
输入框跟随文字内容适配宽实现示例
2022/08/14 Javascript