编程 Python

关于python scrapy中添加cookie踩坑记录

Posted in Python onNovember 17, 2020

问题发现：

前段时间项目中，为了防止被封号(提供的可用账号太少)，对于能不登录就可以抓取的内容采用不带cookie的策略，只有必要的内容才带上cookie去访问。

本来想着很简单：在每个抛出来的Request的meta中带上一个标志位，通过在CookieMiddleware中查看这个标志位，决定是否是给这个Request是否装上Cookie。

实现的代码大致如下：

class CookieMiddleware(object):
  """
  每次请求都随机从账号池中选择一个账号去访问
  """

  def __init__(self):
    client = pymongo.MongoClient(MONGO_URI)
    self.account_collection = client[MONGO_DATABASE][ACCOUNT_COLLECTION]

  def process_request(self, request, spider):
    if 'target' in request.meta: 
      logging.debug('进入到process_request了')
      flag = request.meta['target']
      if flag != 'no':
        all_count = self.account_collection.find({'status': 'success'}).count()
        if all_count == 0:
          raise Exception('当前账号池为空')
        random_index = random.randint(0, all_count - 1)
        random_account = self.account_collection.find({'status': 'success'})[random_index]
        
        request.cookies = json.loads(random_account['cookie'])
      else:
        logging.debug('对XXX的请求不做处理')
    else:
      all_count = self.account_collection.find({'status': 'success'}).count()
      if all_count == 0:
        raise Exception('当前账号池为空')
      random_index = random.randint(0, all_count - 1)
      random_account = self.account_collection.find({'status': 'success'})[random_index]
      
      request.cookies = json.loads(random_account['cookie'])

在settings.py中的配置如下：

DOWNLOADER_MIDDLEWARES = {
  'eyny.middlewares.CookieMiddleware': 550,
}

到这里可能有些大佬已经能够看出端倪了，和我一样认为这么写没啥问题的同志们继续往下看。

在这么编写完之后，我正常开启了项目，还适当调高了并发量，然后第二天发现账号被封了。在debug过程中看到在抓取不需要携带cookie的url的时候，依然携带了cookie，并且cookie是被放在了header中，经过我花费了两个多小时查看框架源码之后，终于发现了原因。

原因&解决方案：

在scrapy的settings目录下的default_settings.py文件中，初始声明了一些DOWNLOADER_MIDDLEWARES_BASE，这些middlewares的声明如下：

DOWNLOADER_MIDDLEWARES_BASE = {
  # Engine side
  'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
  'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
  'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
  'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
  'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
  'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
  'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
  'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
  'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
  'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
  'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
  'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
  'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
  'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
  # Downloader side
}

可以看到在DOWNLOADER_MIDDLEWARES_BASE中也声明了一个CookiesMiddleware，而且是700，也就是说比我们写的CookieMiddleware(500)要靠后执行，而且在debug过程中也看到，在执行完我们编写的CookieMiddleware之后，header中没有携带cookie，但是在执行完scrapy.downloadermiddlewares.cookies.CookiesMiddleware: 700之后，在header中看到了cookie，这说明cookie是scrapy帮我们自动加了。

我们打开scrapy.downloadermiddlewares.cookies.CookiesMiddleware的实现源码，主要关注process_request方法：

class CookiesMiddleware(object):
  """This middleware enables working with sites that need cookies"""

  def __init__(self, debug=False):
    self.jars = defaultdict(CookieJar)
    self.debug = debug

  @classmethod
  def from_crawler(cls, crawler):
    if not crawler.settings.getbool('COOKIES_ENABLED'):
      raise NotConfigured
    return cls(crawler.settings.getbool('COOKIES_DEBUG'))

  def process_request(self, request, spider):
    if request.meta.get('dont_merge_cookies', False):
      return

    cookiejarkey = request.meta.get("cookiejar")
    jar = self.jars[cookiejarkey]
    cookies = self._get_request_cookies(jar, request)
    for cookie in cookies:
      jar.set_cookie_if_ok(cookie, request)

    # set Cookie header
    request.headers.pop('Cookie', None)
    jar.add_cookie_header(request)
    self._debug_cookie(request, spider)

	def process_response(self, request, response, spider):
    if request.meta.get('dont_merge_cookies', False):
      return response

    # extract cookies from Set-Cookie and drop invalid/expired cookies
    cookiejarkey = request.meta.get("cookiejar")
    jar = self.jars[cookiejarkey]
    jar.extract_cookies(response, request)
    self._debug_set_cookie(response, spider)

    return response

在上面的代码中，最中要的是process_request方法中的内容，可以看到首先从request.meta中查看有没有dont_merge_cookies属性，如果没有或者为false，就不运行剩下的方法，卧槽，这就是我们要找的方法呀！是不是好简单…

特别注意：如果要使用dont_merge_cookies=true，那么需要我们自己将cookie加入到header中，通过**request.cookies = json.loads(random_account[‘cookie'])**方式添加的cookie，scrapy也不再会帮我们合并到header 中了。

解决方案：我们的解决方法就是在request的meta中加入dont_merge_cookies属性，并设置为true，在CookieMiddleware中，我们将cookie添加在header中，而不是赋值给request.cookies

问题解决了，但是这么简单是不是很不爽，所以就继续想看看是为什么scrapy可以自动给我们加上cookie，这个接下来就需要读下面的代码了。

总结

到此这篇关于关于python scrapy中添加cookie踩坑记录的文章就介绍到这了,更多相关scrapy cookie问题内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

关于python scrapy中添加cookie踩坑记录

- Author -

potato_big

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

9种python web 程序的部署方式小结

Jun 30 Python

python检测远程服务器tcp端口的方法

Mar 14 Python

用Python抢过年的火车票附源码

Dec 07 Python

Python之pandas读写文件乱码的解决方法

Apr 20 Python

解决python 文本过滤和清理问题

Aug 28 Python

python程序中的线程操作 concurrent模块使用详解

Sep 23 Python

python GUI库图形界面开发之PyQt5单行文本框控件QLineEdit详细使用方法与实例

Feb 27 Python

Keras Convolution1D与Convolution2D区别说明

May 22 Python

Django项目创建及管理实现流程详解

Oct 13 Python

Python实现哲学家就餐问题实例代码

Nov 09 Python

浏览器常用基本操作之python3+selenium4自动化测试(基础篇3)

May 21 Python

在Python中如何使用yield

Jun 07 Python

python中strip(),lstrip(),rstrip()函数的使用讲解

Nov 17 #Python

PyTorch预训练Bert模型的示例

Nov 17 #Python

python 下载文件的多种方法汇总

Nov 17 #Python

python跨文件使用全局变量的实现

Nov 17 #Python

Python中logging日志的四个等级和使用

Nov 17 #Python

Python爬虫破解登陆哔哩哔哩的方法

Nov 17 #Python

appium+python自动化配置(adk、jdk、node.js)

Nov 17 #Python

You might like

PHP base64+gzinflate压缩编码和解码代码

2008/10/03 PHP

使用PHP实现蜘蛛访问日志统计

2013/07/05 PHP

php阳历转农历优化版

2016/08/08 PHP

Yii2-GridView 中让关联字段带搜索和排序功能示例

2017/01/21 PHP

PHP开发的文字水印，缩略图，图片水印实现类与用法示例

2019/04/12 PHP

jquery对象和DOM对象的任意相互转换

2016/02/21 Javascript

利用BootStrap弹出二级对话框的简单实现方法

2016/09/21 Javascript

JS中定位 position 的使用实例代码

2017/08/06 Javascript

JS一个简单的注册页面实例

2017/09/05 Javascript

vue中eventbus被多次触发以及踩过的坑

2017/12/02 Javascript

vue+node实现图片上传及预览的示例方法

2018/11/22 Javascript

Layui tree 下拉菜单树的实例代码

2019/09/21 Javascript

如何在vue-cli中使用css-loader实现css module

2021/01/07 Vue.js

Python中的闭包实例详解

2014/08/29 Python

python使用Berkeley DB数据库实例

2014/09/26 Python

Pycharm在创建py文件时,自动添加文件头注释的实例

2018/05/07 Python

解决安装python库时windows error5 报错的问题

2018/10/21 Python

python 导入数据及作图的实现

2019/12/03 Python

Python 元组拆包示例(Tuple Unpacking)

2019/12/24 Python

Python concurrent.futures模块使用实例

2019/12/24 Python

Python如何使用ConfigParser读取配置文件

2020/11/12 Python

python 模块导入问题汇总

2021/02/01 Python

手对手的教你用canvas画一个简单的海报的方法示例

2018/12/10 HTML / CSS

德国W家官网，可直邮中国的母婴商城：Windeln.de

2021/03/03 全球购物

生产车间主任的个人自我鉴定

2013/10/25 职场文书

七年级数学教学反思

2014/01/22 职场文书

教师申诉制度

2014/01/29 职场文书

管理失职检讨书

2014/02/12 职场文书

大学毕业生求职自荐信

2014/02/20 职场文书

《画风》教学反思

2014/04/16 职场文书

歌颂祖国演讲稿

2014/05/04 职场文书

工作求职自荐信

2014/06/13 职场文书

领导班子四风对照检查材料

2014/09/23 职场文书

商品陈列协议书

2014/09/29 职场文书

死亡证明书样本说明

2014/10/18 职场文书

nginx代理实现静态资源访问的示例代码

2022/07/07 Servers