Puppeteer使用示例详解


Posted in Python onJune 20, 2019

PhantomJS曾经是无头浏览器里的王者,测试、爬虫等都在使用,随着GoogleChrome Headless的出现,PhantomJS的作者已经明确表示不在更新,而GoogleChrome Headless将会是未来爬虫的趋势,而测试将依然会使用Webdriver那套方案,GoogleChrome Headless可以利用WebDriver调用,也可以使用其集成的API——Puppeteer(操纵木偶的人),他的功能和他的名字一样强大,可以随意操控Chrome或Chromeium,缺点就是只有node的API,来看看他的图标:

Puppeteer使用示例详解

Puppeteer是基于DevTools协议来控制headless Chrome的Node库,依赖6.4以上版本的node,本人是在接触这个软件时才开始学习node,依然感觉到它的异步async/await超级强大,在Puppeteer中也大量使用异步来完成任务。

Puppeteer的安装可以使用node的包管理工具npm来安装:

npm i puppeteer

这里安装时会自动安装Chromeium,如果不需要则可以通过配置npm跳过下载,做为一名爬虫工程师我不会去讨论测试相关的使用,接下来看看如何使用,和WebDriver类似,首先需要实例化brower,代码如下:

const puppeteer = require('puppeteer');

(async () => { ​
 const browser = await puppeteer.launch(); 
 const page = await browser.newPage(); 
 await page.goto('http://www.baidu.com'); 
 await browser.close(); 
})();

这段代码执行结束时,你可能什么也没有感觉到,因为它在后台启动了一个Chromeium进程,打开了百度首页,接着就关闭了,当然我们可以在前台打开Chromeium,这里就需要配置一下,所配置参数只需传入launch()即可,常用参数如下:

headless:  是否打开浏览器,默认为true

ignoreHTTPSErrors: 是否忽略https错误,默认为true

executablePath:  配置要调用浏览器的可执行路径,默认是同Puppeteer一起安装的Chromeium

slowMo:指定的毫秒延缓Puppeteer的操作

args:设置浏览器的相关参数,比如是否启动沙箱模式“--no-sandbox”,是否更换代理“--proxy-server”,具体参数请点此查看

使用示例如下:

const browser = await puppeteer.launch({headless:false, args: ["--no-sandbox",]}) //打开浏览器

打开新的窗口:

const page = await browser.newPage();

设置窗口大小

await page.setViewport({
 width: 1920,
 height: 1080
})

过滤不需要的请求:

await page.setRequestInterception(true);
page.on('request', interceptedRequest => {
 if (interceptedRequest.url().endsWith('.png') || interceptedRequest.url().endsWith('.jpg'))
  interceptedRequest.abort();
 else
  interceptedRequest.continue();
});

为浏览器设置userAgent:

await page.setUserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299")

设置cookie,

const data = {
 name: "smidB2", 
 domain: ".csdn.net", 
 value: "201806051502283cf43902aa8991a248f9c605204f92530032f23ef22c16270"
}
await page.setCookie(data)

示例中只是演示,真实的cookie是一个列表形式的,需要循环添加才可以

for(let data of cookies){
 await page.setCookie(data)
}

请求url:

const url = "http://www.baidu.com"
await page.goto(url, { waitUntil: "networkidle2" });

设置页面等待时间:

await page.waitFor(1000); // 单位是毫秒

等待页面某个元素加载完成

await page.waitForSelector("input[class='usrname']")

点击某个元素

await page.click("input[class='submit']")

利用page.evaluate()函数拖动鼠标至页面底部,原理就是在页面注入js代码。

let scrollEnable = false;
let scrollStep = 500; //每次滚动的步长
while (scrollEnable) {
	scrollEnable = await page.evaluate((scrollStep) => {
		let scrollTop = document.scrollingElement.scrollTop;
		document.scrollingElement.scrollTop = scrollTop + scrollStep;
		return document.body.clientHeight > scrollTop + 1080 ? true : false
	}, scrollStep);
	await page.waitFor(600)
}

获取html信息

const frame = await page.mainFrame()
const bodyHandle = await frame.$('html');
const html = await frame.evaluate(body => body.innerHTML, bodyHandle);
await bodyHandle.dispose(); //销毁 
console.log(html)

这是爬虫能用到的大致操作,以下是爬取豆瓣热门电影的基本信息和评分的代码,写这个程序时对node也是一知半解,如有不对,欢迎留言

basePupp.js

const puppeteer = require("puppeteer")

class BasePuppeteer{
 puppConfig(){
  const config = {
   headless: false
  }
  return config
 }
 async openBrower(setting){
  const browser = puppeteer.launch(setting)
  return browser
 }
 async openPage(browser){
  const page = await browser.newPage()
  return page
 }
 async closeBrower(browser){
  await browser.close()
 }
 async closePage(page){
  await page.close()
 }
}

const pupp = new BasePuppeteer()
module.exports = pupp

douban.js

const pupp = require("./basePupp.js")
const cheerio = require("cheerio")
const mongo = require("mongodb")
const assert = require("assert")

const MongoClient = mongo.MongoClient
const Urls = "mongodb://10.4.251.129:27017/douban"

MongoClient.connect(Urls, function (err, db) {
 if (err) throw err;
  console.log('数据库已创建');
 var dbase = db.db("runoob");
 dbase.createCollection('detail', function (err, res) {
  if (err) throw err;
  console.log("创建集合!");
  db.close();
 });
});

async function getList(){
 const brower = await pupp.openBrower()
 const page = await pupp.openPage( brower)
 const url = "https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0"
 await page.goto(url);
 while(true){           // 循环点击, 直到获取不到该元素
  try{
   await page.waitFor(1000); 
   await page.waitForSelector('a[class=more]'); // 等待元素加载完成,超时时间30000ms
   await page.click("a[class=more]")
   // break
  }catch(err){
   console.log(err)
   console.log("stop click !!!")
   break
  }
 } 
 await page.waitFor(1000);        // 等待页面一秒
 const links = await page.evaluate(() => {    // 获取电影详情url
  let movies = [...document.querySelectorAll('.list a[class=item]')];
  return movies.map((movie) =>{
   return {
    href: movie.href.trim(),
   }
  });
 });
 console.log(links.length)
 for (var i = 0; i < links.length; i++) {
  const a = links[i];
  await page.waitFor(2000); 
  await getDetail(brower, a.href)
  // break
 }
 await pupp.closePage(page)
 await pupp.closeBrower(brower)
 
}

async function getDetail(brower, url){
 const page = await pupp.openPage(brower)
 await page.goto(url);
 await page.waitFor(1000); 
 try{
  await page.click(".more-actor", {delay: 20})
 }catch(err){
  console.log(err)
 }
 const frame = await page.mainFrame()
 const bodyHandle = await frame.$('html');
 const html = await frame.evaluate(body => body.innerHTML, bodyHandle);
 await bodyHandle.dispose();      // 销毁      
 const $ = cheerio.load(html)
 const title = $("h1 span").text().trim()
 const rating_num = $(".rating_num").text().trim()
 const data = {}
 data["title"] = title
 data["rating_num"] = rating_num
 let info = $("#info").text()
 const keyword = ["director", "screenplay", "lead", "type", "website", "location", "language", "playdate", "playtime", "byname", "imdb"]
 if (info.indexOf("www.") > 0){
  info = info.replace(/https:\/\/|http:\/\//g, "").replace(/\t/g," ").replace(/\r/g, " ").split(":")
  for(var i = 1; i < info.length; i++){
   data[keyword[i-1]] = info[i].split(/\n/g)[0].replace(/ \/ /g, ",").trim()
  }

 }else{
  info = info.replace(/\t/g," ").replace(/\r/g, " ").split(":")
  keyword.splice(4,1)
  for(var i = 1; i < info.length-1; i++){
   data[keyword[i-1]] = info[i].split(/\n/g)[0].replace(/ \/ /g, ",").trim()
  }
  data["website"] = ""
 }
 // console.log(data)
 MongoClient.connect(Urls,function(err,db){       //获取连接
  assert.equal(null,err);           //使用断言模块代替以前的 if判断
  var dbo = db.db("douban");
  dbo.collection("detail").insert(data, function(err,result){  //连接到数据库上面,并使用参数传入集合
   assert.equal(null,err);
   console.log(result);
   db.close();
  });
 });
 await pupp.closePage(page)
}

getList()

以上的代码完成了对豆瓣热门电影的全部抓取,有以下几个步骤:

1, 循环点击加载更多,直到没有此元素可操作而抛出异常

2,加载完全部热门电影列表时解析出每个电影详情页的url并逐一请求

3, 解析详情页的所需数据,

4,对所抓取数据进行入库,这里使用MongoDB

入库后的数据如下所示:

Puppeteer使用示例详解

对以上的浏览器实例化做了优化,写成了单例模式

config.js

module.exports = {
 browserOptions:{
 headless: false,
 // args: ['--no-sandbox', '--proxy-server=http://proxy:abc100@cp.test.com:8995'],
 args: ['--no-sandbox'],
 }
};

brower.js

const puppeteer = require("puppeteer");
const config = require('./config');//
const deasync = require('deasync');
const BROWSER_KEY = Symbol.for('browser');
const BROWSER_STATUS_KEY = Symbol.for('browser_status');

launch(config.browserOptions)
wait4Lunch();

/**
 * 启动并获取浏览器实例
 * @param {*} options
 * param options is puppeteer.launch function's options
 */
function launch(options = {}) {
 if (!global[BROWSER_STATUS_KEY]) {
 global[BROWSER_STATUS_KEY] = 'lunching';
 puppeteer.launch(options)
  .then((browser) => {
  global[BROWSER_KEY] = browser;
  global[BROWSER_STATUS_KEY] = 'lunched';
  })
  .catch((err) => {
  global[BROWSER_STATUS_KEY] = 'error';
  throw err;
  });
 }
}

function wait4Lunch(){
 while (!global[BROWSER_KEY] && global[BROWSER_STATUS_KEY] == 'lunching') {
 // wait for lunch
 deasync.runLoopOnce();
 }
}
module.exports = global[BROWSER_KEY];

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python3基于TCP实现CS架构文件传输
Jul 28 Python
TensorFlow实现iris数据集线性回归
Sep 07 Python
Python3日期与时间戳转换的几种方法详解
Jun 04 Python
Python提取转移文件夹内所有.jpg文件并查看每一帧的方法
Jun 27 Python
简单了解python协程的相关知识
Aug 31 Python
python读取csv文件指定行的2种方法详解
Feb 13 Python
pytorch进行上采样的种类实例
Feb 18 Python
python中列表的含义及用法
May 26 Python
在pycharm中debug 实时查看数据操作(交互式)
Jun 09 Python
python 进制转换 int、bin、oct、hex的原理
Jan 13 Python
如何用python识别滑块验证码中的缺口
Apr 01 Python
如何通过一篇文章了解Python中的生成器
Apr 02 Python
获取django框架orm query执行的sql语句实现方法分析
Jun 20 #Python
Python使用LDAP做用户认证的方法
Jun 20 #Python
Python OpenCV中的resize()函数的使用
Jun 20 #Python
python中的句柄操作的方法示例
Jun 20 #Python
使用python获取(宜宾市地震信息)地震信息
Jun 20 #Python
一篇文章了解Python中常见的序列化操作
Jun 20 #Python
python集合是否可变总结
Jun 20 #Python
You might like
全国FM电台频率大全 - 1 北京市
2020/03/11 无线电
Content-type 的说明
2006/10/09 PHP
php switch语句多个值匹配同一代码块应用示例
2014/07/29 PHP
PHP 中 DOMDocument保存xml时中文出现乱码问题的解决方案
2016/09/19 PHP
PHP实现的只保留字符串首尾字符功能示例【隐藏部分字符串】
2019/03/11 PHP
js indexOf()定义和用法
2012/10/21 Javascript
js精度溢出解决方案
2012/12/02 Javascript
javascript内存管理详细解析
2013/11/11 Javascript
javascript 数组排序函数sort和reverse使用介绍
2013/11/21 Javascript
jquery ajax,ashx,json的用法总结
2014/02/12 Javascript
Nodejs学习笔记之Stream模块
2015/01/13 NodeJs
node.js操作mongodb学习小结
2015/04/25 Javascript
jQuery时间轴插件使用详解
2015/07/16 Javascript
jQuery form插件之ajaxForm()和ajaxSubmit()的可选参数项对象
2016/01/23 Javascript
jQuery实现的placeholder效果完整实例
2016/08/02 Javascript
jquery 中toggle的2种用法详解(推荐)
2016/09/02 Javascript
JS判断字符串是否为整数的方法--简单的正则判断
2018/07/23 Javascript
vue h5移动端禁止缩放代码
2019/10/28 Javascript
Vue filter 过滤当前时间 实现实时更新效果
2019/12/20 Javascript
小程序Scroll-view上拉滚动刷新数据
2020/06/21 Javascript
Python脚本实现代码行数统计代码分享
2015/03/10 Python
Python中datetime常用时间处理方法
2015/06/15 Python
python3使用pyqt5制作一个超简单浏览器的实例
2017/10/19 Python
django反向解析和正向解析的方式
2018/06/05 Python
python多线程调用exit无法退出的解决方法
2019/02/18 Python
Python中断多重循环的几种方式详解
2020/02/10 Python
TensorFLow 变量命名空间实例
2020/02/11 Python
一文读懂Python 枚举
2020/08/25 Python
瑜伽服装品牌:露露柠檬(lululemon athletica)
2017/06/04 全球购物
电气工程及其自动化学生实习自我鉴定
2013/09/19 职场文书
《雾凇》教学反思
2014/02/17 职场文书
黄金搭档广告词
2014/03/21 职场文书
幼儿园标语大全
2014/06/19 职场文书
社区义诊通知
2015/04/24 职场文书
如何用Node.js编写内存效率高的应用程序
2021/04/30 Javascript
springboot 启动如何排除某些bean的注入
2021/08/02 Java/Android