Python爬虫scrapy框架Cookie池(微博Cookie池)的使用


Posted in Python onJanuary 13, 2021

下载代码Cookie池(这里主要是微博登录,也可以自己配置置其他的站点网址)

下载代码GitHub:https://github.com/Python3WebSpider/CookiesPool

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

下载安装过后注意看网页下面的相关基础配置和操作!!!!!!!!!!!!!

自己的设置主要有下面几步:

1、配置其他设置

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

2、设置使用的浏览器

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

3、设置模拟登陆

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

源码cookies.py的修改(以下两处不修改可能会产生bug)

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

 Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

4、获取cookie

随机获取Cookies: http://localhost:5000/weibo/random(注意:cookie使用时是需要后期处理的!!)

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

简单的处理方式,如下代码(偶尔需要对获取的cookie处理):

def get_cookie(self):
    return requests.get('http://127.0.0.1:5000/weibo/random').text
 
  def stringToDict(self,cookie):
    itemDict = {}
    items = cookie.replace(':', '=').split(',')
    for item in items:
      key = item.split('=')[0].replace(' ', '').strip(' "')
      value = item.split('=')[1].strip(' "')
      itemDict[key] = value
    return itemDict

scrapy爬虫的使用示例(爬取微博):

middlewares.py中自定义请求中间件

def start_requests(self):
    ua = UserAgent()
    headers = {
      'User-Agent': ua.random,
      }
    cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))
 
    yield scrapy.Request(url=self.start_urls[0], headers=headers,
               cookies=cookies, callback=self.parse)
cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))

    yield scrapy.Request(url=self.start_urls[0], headers=headers,
               cookies=cookies, callback=self.parse)

settings.py 中的配置:

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

5、录入账号和密码:

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

格式规定(账号----密码)

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

6、验证:(注意:使用cmd)

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

7、使用时注意保持cmd打开运行!!

使用时一定要打开cmd,并运行如第6步。

得到Cookie是判断是否处理处理Cookie(几乎都需要!!)类比第4步!!!

到此这篇关于Python爬虫scrapy框架Cookie池(微博Cookie池)的使用的文章就介绍到这了,更多相关scrapy Cookie池内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python函数学习笔记
Oct 07 Python
用Python制作在地图上模拟瘟疫扩散的Gif图
Mar 31 Python
python脚本内运行linux命令的方法
Jul 02 Python
Python pygorithm模块用法示例【常见算法测试】
Aug 16 Python
Python3 单行多行万能正则匹配方法
Jan 07 Python
eclipse创建python项目步骤详解
May 10 Python
python Django 创建应用过程图示详解
Jul 29 Python
python爬虫之遍历单个域名
Nov 20 Python
pytorch之ImageFolder使用详解
Jan 06 Python
使用Django xadmin 实现修改时间选择器为不可输入状态
Mar 30 Python
详解tensorflow之过拟合问题实战
Nov 01 Python
python 制作本地应用搜索工具
Feb 27 Python
matplotlib交互式数据光标实现(mplcursors)
Jan 13 #Python
Python 生成短8位唯一id实战教程
Jan 13 #Python
python uuid生成唯一id或str的最简单案例
Jan 13 #Python
全网最全python库selenium自动化使用详细教程
Jan 12 #Python
[原创]赚疯了!转手立赚800+?大佬的python「抢茅台脚本」使用教程
Jan 12 #Python
五分钟学会怎么用python做一个简单的贪吃蛇
Jan 12 #Python
python生成word合同的实例方法
Jan 12 #Python
You might like
PHP读取目录下所有文件的代码
2008/01/07 PHP
CI(CodeIgniter)框架配置
2014/06/10 PHP
PHP HTTP 认证实例详解
2016/11/03 PHP
Firefox 无法获取cssRules 的解决办法
2006/10/11 Javascript
javascript sudoku 数独智力游戏生成代码
2010/03/27 Javascript
Extjs中常用表单介绍与应用
2010/06/07 Javascript
js 实现 input type="file" 文件上传示例代码
2013/08/07 Javascript
ExtJS4利根据登录后不同的角色分配不同的树形菜单
2014/05/02 Javascript
javascript学习笔记--数字格式类型
2014/05/22 Javascript
jQuery setTimeout传递字符串参数报错的解决方法
2014/06/09 Javascript
AngularJS实现表单验证
2015/01/28 Javascript
js数组去重的方法汇总
2015/07/29 Javascript
jQuery实现查找最近父节点的方法
2016/06/23 Javascript
JavaScript之underscore_动力节点Java学院整理
2017/07/03 Javascript
详解nodejs的express如何自动生成项目框架
2017/07/12 NodeJs
vue页面使用阿里oss上传功能的实例(二)
2017/08/09 Javascript
JavaScript中使用Async实现异步控制
2017/08/15 Javascript
vue图片上传本地预览组件使用详解
2019/02/20 Javascript
解决vue项目,npm run build后,报路径错的问题
2020/08/13 Javascript
基于Python的身份证号码自动生成程序
2014/08/15 Python
对Python进行数据分析_关于Package的安装问题
2017/05/22 Python
Caffe均值文件mean.binaryproto转mean.npy的方法
2018/07/09 Python
python随机数分布random测试
2018/08/27 Python
Python后台管理员管理前台会员信息的讲解
2019/01/28 Python
Python基础之列表常见操作经典实例详解
2020/02/26 Python
Python CSS选择器爬取京东网商品信息过程解析
2020/06/01 Python
python 制作磁力搜索工具
2021/03/04 Python
html5的websockets全双工通信详解学习示例
2014/02/26 HTML / CSS
美国围栏公司:Walpole Outdoors
2019/11/19 全球购物
施工单位安全责任书
2014/07/24 职场文书
励志演讲稿500字
2014/08/21 职场文书
小学生迎国庆演讲稿
2014/09/05 职场文书
先进个人评语大全
2015/01/04 职场文书
css3 filter属性的使用简介
2021/03/31 HTML / CSS
python迷宫问题深度优先遍历实例
2021/06/20 Python
httpclient调用远程接口的方法
2022/08/14 Java/Android