python爬虫框架scrapy实现模拟登录操作示例


Posted in Python onAugust 02, 2018

本文实例讲述了python爬虫框架scrapy实现模拟登录操作。分享给大家供大家参考,具体如下:

一、背景:

初来乍到的pythoner,刚开始的时候觉得所有的网站无非就是分析HTML、json数据,但是忽略了很多的一个问题,有很多的网站为了反爬虫,除了需要高可用代理IP地址池外,还需要登录。例如知乎,很多信息都是需要登录以后才能爬取,但是频繁登录后就会出现验证码(有些网站直接就让你输入验证码),这就坑了,毕竟运维同学很辛苦,该反的还得反,那我们怎么办呢?这不说验证码的事儿,你可以自己手动输入验证,或者直接用云打码平台,这里我们介绍一个scrapy的登录用法。

 测试登录地址:http://example.webscraping.com/places/default/user/login

 测试主页:http://example.webscraping.com/user/profile

1、这里不在叙述如何创建scrapy项目和spider,可以看前面的相关文章

二、快速登录方法

我们在这里做了一个简单的介绍,我们都知道scrapy的基本请求流程是start_request方法遍历start_urls列表,然后make_requests_from_url方法,里面执行Request方法,请求start_urls里面的地址,但是这里我们用的不再是GET方法,而用的是POST方法,也就常说的登录。

1、首先我们改写start_reqeusts方法,直接GET登录页面的HTML信息(有些人说你不是POST登录么,干嘛还GET,别着急,你得先GET到登录页面的登录信息,才知道登录的账户、密码等怎么提交,往哪里提交)

2、start_request方法GET到数据后,用callback参数,执行拿到response后要接下来执行哪个方法,然后在login方法里面写入登录用户名和密码(还是老样子,一定要用dict),然后只用Request子类scrapy.FormRequest这个方法提交数据,这我一个的是FormRequest.from_response方法。

有些人会问,这个from__response的基本使用是条用是需要传入一个response对象作为第一个参数,这个方法会从页面中form表单中,帮助用户创建FormRequest对象,最最最最重要的是它会帮你把隐藏的input标签中的信息自动跳入表达,使用这个中方法,我们直接写用户名和密码即可,我们在最后面再介绍传统方法。

3、parse_login方法是提交完表单后callback回调函数指定要执行的方法,为了验证是否成功。这里我们直接在response中搜索Welcome Liu这个字眼就证明登录成功。这个好理解,重点是yield  from super().start_resquests(),这个代表着如果一旦登录成功后,就直接带着登录成功后Cookie值,方法start_urls里面的地址。这样的话登录成功后的response可以直接在parse里面写。

# -*- coding: utf-8 -*-
import scrapy
from scrapy import FormRequest,Request
class ExampleLoginSpider(scrapy.Spider):
  name = "login_"
  allowed_domains = ["example.webscraping.com"]
  start_urls = ['http://example.webscraping.com/user/profile']
  login_url = 'http://example.webscraping.com/places/default/user/login'
  def parse(self, response):
    print(response.text)
  def start_requests(self):
    yield scrapy.Request(self.login_url,callback=self.login)
  def login(self,response):
    formdata = {
      'email':'liushuo@webscraping.com','password':'12345678'}
    yield FormRequest.from_response(response,formdata=formdata,
                    callback=self.parse_login)
  def parse_login(self,response):
    # print('>>>>>>>>'+response.text)
    if 'Welcome Liu' in response.text:
      yield from super().start_requests()

有的同学可能问了,login方法里面不是应该写reture 么,其实上面的写法跟下面的这种写法是一样效果,如果再有个CSRF的话,也可以直接在login里面写拿到CSRF信息,写入到formdata里面跟用户名和密码一起提交。

return [FormRequest.from_response(response,formdata=formdata,callback=self.parse_login)]

登录成功

python爬虫框架scrapy实现模拟登录操作示例

三、传统登录方法:

1、首先要明确一件事情,一般情况下需要登录的网站,不只需要登录用户和密码,接下来我们聊聊上面说的传统登录模式。用户在登录的时候并不是只需要登录账户信息,除了常见直观的验证码和CSRF信息外,也有可能需要提交其它信息,我们必须把它们都提取到一起提交给服务器。

python爬虫框架scrapy实现模拟登录操作示例

2、我们在form表单下面找到了一个display:none的div标签,里面的input标签的value值正好是我们要提交的数据,那我们就提取到他。

python爬虫框架scrapy实现模拟登录操作示例

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
完美解决Python2操作中文名文件乱码的问题
Jan 04 Python
Python正则表达式匹配中文用法示例
Jan 17 Python
使用python opencv对目录下图片进行去重的方法
Jan 12 Python
详解python函数的闭包问题(内部函数与外部函数详述)
May 17 Python
Python使用sklearn实现的各种回归算法示例
Jul 04 Python
Python对列表的操作知识点详解
Aug 20 Python
python sqlite的Row对象操作示例
Sep 11 Python
python实现上传文件到linux指定目录的方法
Jan 03 Python
tensorflow获取预训练模型某层参数并赋值到当前网络指定层方式
Jan 24 Python
在脚本中单独使用django的ORM模型详解
Apr 01 Python
解决python运行启动报错问题
Jun 01 Python
对Keras中predict()方法和predict_classes()方法的区别说明
Jun 09 Python
python爬虫之线程池和进程池功能与用法详解
Aug 02 #Python
Python列表推导式与生成器用法分析
Aug 02 #Python
python flask实现分页的示例代码
Aug 02 #Python
Django分页查询并返回jsons数据(中文乱码解决方法)
Aug 02 #Python
Python实现正整数分解质因数操作示例
Aug 01 #Python
Python列表生成式与生成器操作示例
Aug 01 #Python
Python开发最牛逼的IDE——pycharm
Aug 01 #Python
You might like
PHP中isset()和unset()函数的用法小结
2014/03/11 PHP
destoon出现验证码不显示时的紧急处理方法
2014/08/22 PHP
PHP中使用imagick生成PSD文件缩略图教程
2015/01/26 PHP
php官方微信接口大全(微信支付、微信红包、微信摇一摇、微信小店)
2015/12/21 PHP
全面了解PHP中的全局变量
2016/06/17 PHP
thinkphp自定义权限管理之名称判断方法
2017/04/01 PHP
thinkPHP显示不出验证码的原因与解决方法分析
2017/05/20 PHP
PHP守护进程化在C和PHP环境下的实现
2017/11/21 PHP
收集的网上用的ajax之chat.js文件
2007/04/08 Javascript
javascript计时器详解
2015/02/28 Javascript
jquery动感漂浮导航菜单代码分享
2020/04/15 Javascript
jQuery中get方法用法分析
2016/12/07 Javascript
jquery实现放大镜简洁代码(推荐)
2017/06/08 jQuery
jQuery Easyui Treegrid实现显示checkbox功能
2017/08/08 jQuery
纯JS实现的读取excel文件内容功能示例【支持所有浏览器】
2018/06/23 Javascript
详解微信JS-SDK选择图片遇到的坑
2018/08/15 Javascript
解决vue-cli项目打包出现空白页和路径错误的问题
2018/09/04 Javascript
PWA介绍及快速上手搭建一个PWA应用的方法
2019/01/27 Javascript
如何通过setTimeout理解JS运行机制详解
2019/03/23 Javascript
在vue中动态添加class类进行显示隐藏实例
2019/11/09 Javascript
uniapp开发小程序实现滑动页面控制元素的显示和隐藏效果
2020/12/10 Javascript
[42:04]DOTA2上海特级锦标赛主赛事日 - 2 胜者组第一轮#3Secret VS OG第一局
2016/03/03 DOTA
python获取网页状态码示例
2014/03/30 Python
python实现域名系统(DNS)正向查询的方法
2016/04/19 Python
Python3连接SQLServer、Oracle、MySql的方法
2018/06/28 Python
python把一个字符串切开的实例方法
2020/09/27 Python
python安装及变量名介绍详解
2020/12/12 Python
HTML5网页录音和上传到服务器支持PC、Android,支持IOS微信功能
2019/04/26 HTML / CSS
乐高积木玩具美国官网:LEGO Shop US
2016/09/16 全球购物
英国花园、DIY、电器和家居用品商店:Robert Dyas
2019/03/18 全球购物
Java中compareTo和compare的区别
2016/04/12 面试题
护理专业学生的求职信范文
2013/12/11 职场文书
高中生毕业评语
2014/12/30 职场文书
初中教师个人工作总结
2015/02/10 职场文书
综合测评自我评价
2015/03/06 职场文书
2015年青年教师工作总结
2015/05/25 职场文书