Python爬虫scrapy框架Cookie池(微博Cookie池)的使用


Posted in Python onJanuary 13, 2021

下载代码Cookie池(这里主要是微博登录,也可以自己配置置其他的站点网址)

下载代码GitHub:https://github.com/Python3WebSpider/CookiesPool

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

下载安装过后注意看网页下面的相关基础配置和操作!!!!!!!!!!!!!

自己的设置主要有下面几步:

1、配置其他设置

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

2、设置使用的浏览器

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

3、设置模拟登陆

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

源码cookies.py的修改(以下两处不修改可能会产生bug)

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

 Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

4、获取cookie

随机获取Cookies: http://localhost:5000/weibo/random(注意:cookie使用时是需要后期处理的!!)

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

简单的处理方式,如下代码(偶尔需要对获取的cookie处理):

def get_cookie(self):
    return requests.get('http://127.0.0.1:5000/weibo/random').text
 
  def stringToDict(self,cookie):
    itemDict = {}
    items = cookie.replace(':', '=').split(',')
    for item in items:
      key = item.split('=')[0].replace(' ', '').strip(' "')
      value = item.split('=')[1].strip(' "')
      itemDict[key] = value
    return itemDict

scrapy爬虫的使用示例(爬取微博):

middlewares.py中自定义请求中间件

def start_requests(self):
    ua = UserAgent()
    headers = {
      'User-Agent': ua.random,
      }
    cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))
 
    yield scrapy.Request(url=self.start_urls[0], headers=headers,
               cookies=cookies, callback=self.parse)
cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))

    yield scrapy.Request(url=self.start_urls[0], headers=headers,
               cookies=cookies, callback=self.parse)

settings.py 中的配置:

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

5、录入账号和密码:

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

格式规定(账号----密码)

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

6、验证:(注意:使用cmd)

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

7、使用时注意保持cmd打开运行!!

使用时一定要打开cmd,并运行如第6步。

得到Cookie是判断是否处理处理Cookie(几乎都需要!!)类比第4步!!!

到此这篇关于Python爬虫scrapy框架Cookie池(微博Cookie池)的使用的文章就介绍到这了,更多相关scrapy Cookie池内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
复习Python中的字符串知识点
Apr 14 Python
python re模块的高级用法详解
Jun 06 Python
python绘制直线的方法
Jun 30 Python
pycham查看程序执行的时间方法
Nov 29 Python
解决Python pandas plot输出图形中显示中文乱码问题
Dec 12 Python
pandas ix &iloc &loc的区别
Jan 10 Python
pycharm 将python文件打包为exe格式的方法
Jan 16 Python
Python微信操控itchat的方法
May 31 Python
50行Python代码获取高考志愿信息的实现方法
Jul 23 Python
基于Python生成个性二维码过程详解
Mar 05 Python
离线状态下在jupyter notebook中使用plotly实例
Apr 24 Python
Python描述数据结构学习之哈夫曼树篇
Sep 07 Python
matplotlib交互式数据光标实现(mplcursors)
Jan 13 #Python
Python 生成短8位唯一id实战教程
Jan 13 #Python
python uuid生成唯一id或str的最简单案例
Jan 13 #Python
全网最全python库selenium自动化使用详细教程
Jan 12 #Python
[原创]赚疯了!转手立赚800+?大佬的python「抢茅台脚本」使用教程
Jan 12 #Python
五分钟学会怎么用python做一个简单的贪吃蛇
Jan 12 #Python
python生成word合同的实例方法
Jan 12 #Python
You might like
Smarty foreach控制循环次数的实现详解
2013/07/03 PHP
php环境无法上传文件的解决方法
2014/04/30 PHP
既简单又安全的PHP验证码 附调用方法
2016/06/02 PHP
详解如何实现Laravel的服务容器的方法示例
2019/04/15 PHP
php设计模式之策略模式实例分析【星际争霸游戏案例】
2020/03/26 PHP
JavaScript asp.net 获取当前超链接中的文本
2009/04/14 Javascript
Javascript isArray 数组类型检测函数
2009/10/08 Javascript
基于jquery 的一个progressbar widge
2010/10/29 Javascript
JQuery动画和停止动画实例代码
2013/03/01 Javascript
js取消单选按钮选中示例代码
2013/11/14 Javascript
javascript四舍五入函数代码分享(保留后几位)
2013/12/10 Javascript
jquery中子元素和后代元素的区别示例介绍
2014/04/02 Javascript
JavaScript获取当前运行脚本文件所在目录的方法
2016/02/03 Javascript
BootStrap与Select2使用小结
2017/02/17 Javascript
BootStrap实现鼠标悬停下拉列表功能
2017/02/17 Javascript
浅谈nodejs中的类定义和继承的套路
2017/07/26 NodeJs
[05:15]DOTA2英雄梦之声_第16期_灰烬之灵
2014/06/21 DOTA
[01:01:14]完美世界DOTA2联赛PWL S2 SZ vs Rebirth 第一场 11.21
2020/11/23 DOTA
Python解析xml中dom元素的方法
2015/03/12 Python
教你用Python脚本快速为iOS10生成图标和截屏
2016/09/22 Python
python 异常处理总结
2016/10/18 Python
详解python基础之while循环及if判断
2017/08/24 Python
python交互式图形编程实例(二)
2017/11/17 Python
Python3实现计算两个数组的交集算法示例
2019/04/03 Python
Python基础教程之if判断,while循环,循环嵌套
2019/04/25 Python
python正则-re的用法详解
2019/07/28 Python
tensorflow入门:tfrecord 和tf.data.TFRecordDataset的使用
2020/01/20 Python
python软件都是免费的吗
2020/06/18 Python
Python 生成短8位唯一id实战教程
2021/01/13 Python
html5 viewport使用方法示例详解
2013/12/02 HTML / CSS
.NET面试题:什么是反射
2016/09/30 面试题
《彼得与狼》教学反思
2016/02/20 职场文书
2016优秀员工先进事迹材料
2016/02/25 职场文书
Python 阶乘详解
2021/10/05 Python
Java服务调用RestTemplate与HttpClient的使用详解
2022/06/21 Java/Android
MySQL 原理与优化之Update 优化
2022/08/14 MySQL