Scrapy框架介绍之Puppeteer渲染的使用


Posted in Python onJune 19, 2020

1、Scrapy框架

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。
框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。
Scrapy 使用了 Twisted'twɪstɪd异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。

Scrapy框架介绍之Puppeteer渲染的使用

  • Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
  • Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
  • Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,
  • Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器),
  • Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.
  • Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。
  • Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)

2、Puppeteer渲染

Puppeteer 是 Chrome 开发团队在 2017 年发布的一个 Node.js 包,用来模拟 Chrome 浏览器的运行。
为了爬取js渲染的html页面,我们需要用浏览器来解析js后生成html。在scrapy中可以利用pyppeteer来实现对应功能。
完整代码 ?scrapy-pyppeteer.zip
我们需要新建项目中middlewares.py文件(./项目名/middlewares.py)

import websockets
from scrapy.http import HtmlResponse
from logging import getLogger
import asyncio
import pyppeteer
import logging
from concurrent.futures._base import TimeoutError
import base64
import sys
import random

pyppeteer_level = logging.WARNING
logging.getLogger('websockets.protocol').setLevel(pyppeteer_level)
logging.getLogger('pyppeteer').setLevel(pyppeteer_level)

PY3 = sys.version_info[0] >= 3


def base64ify(bytes_or_str):
  if PY3 and isinstance(bytes_or_str, str):
    input_bytes = bytes_or_str.encode('utf8')
  else:
    input_bytes = bytes_or_str

  output_bytes = base64.urlsafe_b64encode(input_bytes)
  if PY3:
    return output_bytes.decode('ascii')
  else:
    return output_bytes


class ProxyMiddleware(object):
  USER_AGENT = open('useragents.txt').readlines()

  def process_request(self, request, spider):
    # 代理服务器
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"
    # 代理隧道验证信息
    proxyUser = "username"
    proxyPass = "password"

    request.meta['proxy'] = "http://{0}:{1}".format(proxyHost, proxyPort)

    # 添加验证头
    encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)
    request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

    # 设置IP切换头(根据需求)
    tunnel = random.randint(1, 10000)
    request.headers['Proxy-Tunnel'] = str(tunnel)
    request.headers['User-Agent'] = random.choice(self.USER_AGENT)


class PyppeteerMiddleware(object):
  def __init__(self, **args):
    """
    init logger, loop, browser
    :param args:
    """
    self.logger = getLogger(__name__)
    self.loop = asyncio.get_event_loop()
    self.browser = self.loop.run_until_complete(
      pyppeteer.launch(headless=True))
    self.args = args

  def __del__(self):
    """
    close loop
    :return:
    """
    self.loop.close()

  def render(self, url, retries=1, script=None, wait=0.3, scrolldown=False, sleep=0,
        timeout=8.0, keep_page=False):
    """
    render page with pyppeteer
    :param url: page url
    :param retries: max retry times
    :param script: js script to evaluate
    :param wait: number of seconds to wait before loading the page, preventing timeouts
    :param scrolldown: how many times to page down
    :param sleep: how many long to sleep after initial render
    :param timeout: the longest wait time, otherwise raise timeout error
    :param keep_page: keep page not to be closed, browser object needed
    :param browser: pyppetter browser object
    :param with_result: return with js evaluation result
    :return: content, [result]
    """

    # define async render
    async def async_render(url, script, scrolldown, sleep, wait, timeout, keep_page):
      try:
        # basic render
        page = await self.browser.newPage()
        await asyncio.sleep(wait)
        response = await page.goto(url, options={'timeout': int(timeout * 1000)})
        if response.status != 200:
          return None, None, response.status
        result = None
        # evaluate with script
        if script:
          result = await page.evaluate(script)

        # scroll down for {scrolldown} times
        if scrolldown:
          for _ in range(scrolldown):
            await page._keyboard.down('PageDown')
            await asyncio.sleep(sleep)
        else:
          await asyncio.sleep(sleep)
        if scrolldown:
          await page._keyboard.up('PageDown')

        # get html of page
        content = await page.content()

        return content, result, response.status
      except TimeoutError:
        return None, None, 500
      finally:
        # if keep page, do not close it
        if not keep_page:
          await page.close()

    content, result, status = [None] * 3

    # retry for {retries} times
    for i in range(retries):
      if not content:
        content, result, status = self.loop.run_until_complete(
          async_render(url=url, script=script, sleep=sleep, wait=wait,
                 scrolldown=scrolldown, timeout=timeout, keep_page=keep_page))
      else:
        break

    # if need to return js evaluation result
    return content, result, status

  def process_request(self, request, spider):
    """
    :param request: request object
    :param spider: spider object
    :return: HtmlResponse
    """
    if request.meta.get('render'):
      try:
        self.logger.debug('rendering %s', request.url)
        html, result, status = self.render(request.url)
        return HtmlResponse(url=request.url, body=html, request=request, encoding='utf-8',
                  status=status)
      except websockets.exceptions.ConnectionClosed:
        pass

  @classmethod
  def from_crawler(cls, crawler):
    return cls(**crawler.settings.get('PYPPETEER_ARGS', {}))

然后修改项目配置文件 (./项目名/settings.py)

DOWNLOADER_MIDDLEWARES = {
    'scrapypyppeteer.middlewares.PyppeteerMiddleware': 543,
    'scrapypyppeteer.middlewares.ProxyMiddleware': 100,    
  }

然后我们运行程序

Scrapy框架介绍之Puppeteer渲染的使用

到此这篇关于Scrapy框架介绍之Puppeteer渲染的使用的文章就介绍到这了,更多相关Scrapy Puppeteer渲染内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
举例讲解Python中的算数运算符的用法
May 13 Python
python基础教程项目二之画幅好画
Apr 02 Python
PyQt实现界面翻转切换效果
Apr 20 Python
Selenium chrome配置代理Python版的方法
Nov 29 Python
python利用requests库模拟post请求时json的使用教程
Dec 07 Python
python 发送和接收ActiveMQ消息的实例
Jan 30 Python
Python二叉树的镜像转换实现方法示例
Mar 06 Python
Python3从零开始搭建一个语音对话机器人的实现
Aug 23 Python
Python实现中值滤波去噪方式
Dec 18 Python
如何使用Python破解ZIP或RAR压缩文件密码
Jan 09 Python
使用OpenCV获取图像某点的颜色值,并设置某点的颜色
Jun 02 Python
matplotlib部件之矩形选区(RectangleSelector)的实现
Feb 01 Python
Python内置方法和属性应用:反射和单例(推荐)
Jun 19 #Python
Python应用实现双指数函数及拟合代码实例
Jun 19 #Python
PyQT5 实现快捷键复制表格数据的方法示例
Jun 19 #Python
如何在keras中添加自己的优化器(如adam等)
Jun 19 #Python
详解pyinstaller生成exe的闪退问题解决方案
Jun 19 #Python
Python实现爬取并分析电商评论
Jun 19 #Python
keras 实现轻量级网络ShuffleNet教程
Jun 19 #Python
You might like
PHP实现对xml的增删改查操作案例分析
2017/05/19 PHP
解决laravel 5.1报错:No supported encrypter found的办法
2017/06/07 PHP
yii2中LinkPager增加总页数和总记录数的实例
2017/08/28 PHP
PHP实现Huffman编码/解码的示例代码
2018/04/20 PHP
ThinkPhP+Apache+PHPstorm整合框架流程图解
2020/11/23 PHP
基于jquery的多彩百分比 动态进度条 投票效果显示效果实现代码
2011/08/28 Javascript
关于跨站脚本攻击问题
2011/12/22 Javascript
解析JSON对象与字符串之间的相互转换
2013/12/18 Javascript
window.showModalDialog()返回值的学习心得总结
2014/01/07 Javascript
jQuery弹出框代码封装DialogHelper
2015/01/30 Javascript
JS判断页面是否出现滚动条的方法
2015/07/17 Javascript
基于Vuejs的搜索匹配功能实现方法
2018/03/03 Javascript
jquery 通过ajax请求获取后台数据显示在表格上的方法
2018/08/08 jQuery
Vue表单输入绑定的示例代码
2018/11/01 Javascript
js实现一个页面多个倒计时的3种方法
2019/02/25 Javascript
javascript实现抢购倒计时程序
2019/08/26 Javascript
JS中自定义事件的使用与触发操作实例分析
2019/11/01 Javascript
vue实现element表格里表头信息提示功能(推荐)
2019/11/20 Javascript
js、jquery实现列表模糊搜索功能过程解析
2020/03/27 jQuery
浅析AST抽象语法树及Python代码实现
2016/06/06 Python
python中使用psutil查看内存占用的情况
2018/06/11 Python
Tensorflow使用tfrecord输入数据格式
2018/06/19 Python
Python爬取个人微信朋友信息操作示例
2018/08/03 Python
tensorflow没有output结点,存储成pb文件的例子
2020/01/04 Python
Python实现ATM系统
2020/02/17 Python
Python xpath表达式如何实现数据处理
2020/06/13 Python
荷兰皇家航空公司官方网站:KLM Royal Dutch Airlines
2017/12/07 全球购物
英国领先的在线旅游和休闲零售商:lastminute.com
2019/01/23 全球购物
PHP两种查询函数array/row的区别
2013/06/03 面试题
人事文员岗位职责
2014/02/16 职场文书
小学开学典礼新闻稿
2015/07/17 职场文书
大学班干部竞选稿
2015/11/20 职场文书
Python实现文本文件拆分写入到多个文本文件的方法
2021/04/18 Python
Python如何把不同类型数据的json序列化
2021/04/30 Python
Python绘制地图神器folium的新人入门指南
2021/05/23 Python
Redis数据同步之redis shake的实现方法
2022/04/21 Redis