编程 Python

详解pyppeteer(python版puppeteer)基本使用

Posted in Python onJune 12, 2019

一、前言

以前使用selenium的无头浏览器，自从phantomjs2016后慢慢不更新了之后，selenium也开始找下家，这时候谷歌的chrome率先搞出来无头浏览器并开放了各种api，随后firefox也开始做。

现在selenium的测试也都支持这两个浏览器的无头模式了，只需要在引入的时候配置一下就可以了。之所以要采用谷歌chrome官方无头框架puppeteer的python版本pyppeteer，是因为有些网页是可以检测到是否是使用了selenium。并且selenium所谓的保护机制不允许跨域cookies保存以及登录的时候必须先打开网页然后后加载cookies再刷新的方式很不友好。

二、pyppeteer

github地址：https://miyakogi.github.io/pyppeteer/

pyppeteer这个项目是非官方的，是基于谷歌官方puppeteer的python版本。

注意：本来chrome就问题多多，puppeteer也是各种坑，加上pyppeteer是基于前者的改编python版本，也就是产生了只要前两个有一个有bug，那么pyppeteer就会原封不动的继承下来，本来这没什么，但是现在遇到的问题就是pyppeteer这个项目从18年9月份之后就没更新过了，前两者都在不断的更新迭代，而pyppeteer一直不更新，导致很多bug根本没人修复。

遇到的错误:

1）pyppeteer.errors.NetworkError: Protocol error Network.getCookies: Target close
控制访问指定url之后await page.goto(url)，会遇到上面的错误，如果这时候使用了sleep之类的延时也会出现这个错误或者类似的time out。

这个问题是puppeteer的bug，但是对方已经修复了，而pyppeteer迟迟没更新，就只能靠自己了，搜了很多人的文章，例如：https://github.com/miyakogi/pyppeteer/issues/171 ，但是我按照这个并没有成功。
也有人增加一个函数，但调用这个参数依然没解决问题。

async def scroll_page(page):
  cur_dist = 0
  height = await page.evaluate("() => document.body.scrollHeight")
  while True:
    if cur_dist < height:
      await page.evaluate("window.scrollBy(0, 500);")
      await asyncio.sleep(0.1)
      cur_dist += 500
    else:
      break

可以把python第三方库websockets版本7.0改为6.0就可以了，亲测可用。

pip uninstall websockets #卸载websockets
pip install websockets==6.0 #指定安装6.0版本

2）chromium浏览器多开页面卡死问题
解决这个问题的方法就是浏览器初始化的时候添加'dumpio':True。

3）浏览器窗口很大，内容显示很小

上面的问题是需要设置浏览器显示大小，默认就是无法正常显示。可以看到页面左侧右侧都是空白，网站内容并没有完整铺满chrome.

browser = await launch({'headless': False,'dumpio':True, 'autoClose':False,'args': ['--no-sandbox', '--window-size=1366,850']})
await page.setViewport({'width':1366,'height':768})

通过上面设置Windows-size和Viewport大小来实现网页完整显示。

但是对于那种向下无限加载的长网页这种情况如果浏览器是可见状态会显示不全，针对这种情况的解决方法就是复制当前网页新开一个标签页粘贴进去就正常了

详解pyppeteer(python版puppeteer)基本使用

三、实际项目示例

import asyncio
from pyppeteer import launch
import time

async def main():exepath = 'C:/Users/tester02/AppData/Local/Google/Chrome/Application/chrome.exe'
  browser = await launch({'executablePath': exepath, 'headless': False, 'slowMo': 30})
  page = await browser.newPage()
  await page.setViewport({'width': 1366, 'height': 768})
  await page.goto('http://192.168.2.66')
  await page.type("#Login_Name_Input", "test02")
  await page.type("#Login_Password_Input", "12345678", )
  await page.waitFor(1000)
  await page.click("#Login_Login_Btn")
  await page.waitFor(3000)
  await browser.close()

asyncio.get_event_loop().run_until_complete(main())

import asyncio
import time
from pyppeteer import launch


async def gmailLogin(username, password, url):
  #'headless': False如果想要浏览器隐藏更改False为True
  # 127.0.0.1:1080为代理ip和端口，这个根据自己的本地代理进行更改，如果是vps里或者全局模式可以删除掉'--proxy-server=127.0.0.1:1080'
  browser = await launch({'headless': False, 'args': ['--no-sandbox', '--proxy-server=127.0.0.1:1080']})
  page = await browser.newPage()
  await page.setUserAgent(
    'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36')

  await page.goto(url)

  # 输入Gmail
  await page.type('#identifierId', username)
  # 点击下一步
  await page.click('#identifierNext > content')
  page.mouse # 模拟真实点击
  time.sleep(10)
  # 输入password
  await page.type('#password input', password)
  # 点击下一步
  await page.click('#passwordNext > content > span')
  page.mouse # 模拟真实点击
  time.sleep(10)
  # 点击安全检测页面的DONE
  # await page.click('div > content > span')#如果本机之前登录过，并且page.setUserAgent设置为之前登录成功的浏览器user-agent了，
  # 就不会出现安全检测页面，这里如果有需要的自己根据需求进行更改，但是还是推荐先用常用浏览器登录成功后再用python程序进行登录。

  # 登录成功截图
  await page.screenshot({'path': './gmail-login.png', 'quality': 100, 'fullPage': True})
  #打开谷歌全家桶跳转，以Youtube为例
  await page.goto('https://www.youtube.com')
  time.sleep(10)


if __name__ == '__main__':
  username = '你的gmail包含@gmail.com'
  password = r'你的gmail密码'
  url = 'https://gmail.com'
  loop = asyncio.get_event_loop()
  loop.run_until_complete(gmailLogin(username, password, url))
# 代码由三分醉编写，网址www.sanfenzui.com，参考如下文章：
# https://blog.csdn.net/Chen_chong__/article/details/82950968

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

详解pyppeteer(python版puppeteer)基本使用

- Author -

白灰

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python通过floor函数舍弃小数位的方法

Mar 17 Python

Python类的用法实例浅析

May 27 Python

Python第三方库的安装方法总结

Jun 06 Python

浅析Python中的多条件排序实现

Jun 07 Python

Python装饰器实现几类验证功能做法实例

May 18 Python

Python读取sqlite数据库文件的方法分析

Aug 07 Python

Python如何抓取天猫商品详细信息及交易记录

Feb 23 Python

django 捕获异常和日志系统过程详解

Jul 18 Python

python+jinja2实现接口数据批量生成工具

Aug 28 Python

Django实现任意文件上传（最简单的方法）

Jun 03 Python

编写python代码实现简单抽奖器

Oct 20 Python

使用python向MongoDB插入时间字段的操作

May 18 Python

python实战串口助手_解决8串口多个发送的问题

Jun 12 #Python

对Python 简单串口收发GUI界面的实例详解

Jun 12 #Python

Python3 串口接收与发送16进制数据包的实例

Jun 12 #Python

Python3简单实现串口通信的方法

Jun 12 #Python

Python集中化管理平台Ansible介绍与YAML简介

Jun 12 #Python

selenium获取当前页面的url、源码、title的方法

Jun 12 #Python

Django框架使用内置方法实现登录功能详解

Jun 12 #Python

You might like

使用apache模块rewrite_module (转)

2007/02/14 PHP

PHP操作XML作为数据库的类

2010/12/19 PHP

关于session在PHP5的配置文件中的详细设置参数说明

2011/04/20 PHP

php统计文章排行示例

2014/03/04 PHP

php微信公众开发之获取周边酒店信息的方法

2014/12/22 PHP

Laravel validate error处理,ajax,json示例

2019/10/25 PHP

javascript XML数据显示为HTML一例

2008/12/23 Javascript

js实现在文本框光标处添加字符的方法介绍

2012/11/24 Javascript

javascripit实现密码强度检测代码分享

2013/12/12 Javascript

jQuery超酷平面式时钟效果代码分享

2020/03/30 Javascript

jQuery.trim() 函数及trim()用法详解

2015/10/26 Javascript

javascript删除html标签函数cIsHTML

2017/01/09 Javascript

nodejs模块nodemailer基本使用-邮件发送示例(支持附件)

2017/03/28 NodeJs

ES6中class类用法实例浅析

2017/04/06 Javascript

Vue实现点击显示不同图片的效果

2019/08/10 Javascript

超详细的5个Shell脚本实例分享(值得收藏)

2019/08/15 Javascript

Selenium执行Javascript脚本参数及返回值过程详解

2020/04/01 Javascript

[03:23]我的刀塔你不可能这么可爱第一期金萌萌的故事

2014/06/20 DOTA

[45:18]2018DOTA2亚洲邀请赛 4.3 突围赛 Optic vs iG 第一场

2018/04/04 DOTA

Python基于whois模块简单识别网站域名及所有者的方法

2018/04/23 Python

使用python3构建文件传输的方法

2019/02/13 Python

Python中函数的基本定义与调用及内置函数详解

2019/05/13 Python

Python Django基础二之URL路由系统

2019/07/18 Python

python用线性回归预测股票价格的实现代码

2019/09/04 Python

nginx搭建基于python的web环境的实现步骤

2020/01/03 Python

python第三方库学习笔记

2020/02/07 Python

世界上最大的艺术社区：SAA

2020/12/30 全球购物

工作失职检讨书范文

2014/01/16 职场文书

医药营销个人求职信范文

2014/02/07 职场文书

公司门卫工作职责

2014/06/28 职场文书

房屋租房协议书范本

2014/12/04 职场文书

校园广播站开场白

2015/06/01 职场文书

2015年清剿火患专项行动工作总结

2015/07/27 职场文书

扩展多台相同的Web服务器

2021/04/01 Servers

MySQL为id选择合适的数据类型

2021/06/07 MySQL

vue修饰符.capture和.self的区别

2022/04/22 Vue.js