编程 Python

python爬虫框架scrapy实现模拟登录操作示例

Posted in Python onAugust 02, 2018

本文实例讲述了python爬虫框架scrapy实现模拟登录操作。分享给大家供大家参考，具体如下：

一、背景：

初来乍到的pythoner，刚开始的时候觉得所有的网站无非就是分析HTML、json数据，但是忽略了很多的一个问题，有很多的网站为了反爬虫，除了需要高可用代理IP地址池外，还需要登录。例如知乎，很多信息都是需要登录以后才能爬取，但是频繁登录后就会出现验证码（有些网站直接就让你输入验证码），这就坑了，毕竟运维同学很辛苦，该反的还得反，那我们怎么办呢？这不说验证码的事儿，你可以自己手动输入验证，或者直接用云打码平台，这里我们介绍一个scrapy的登录用法。

测试登录地址：http://example.webscraping.com/places/default/user/login

测试主页：http://example.webscraping.com/user/profile

1、这里不在叙述如何创建scrapy项目和spider，可以看前面的相关文章

二、快速登录方法

我们在这里做了一个简单的介绍，我们都知道scrapy的基本请求流程是start_request方法遍历start_urls列表，然后make_requests_from_url方法，里面执行Request方法，请求start_urls里面的地址，但是这里我们用的不再是GET方法，而用的是POST方法，也就常说的登录。

1、首先我们改写start_reqeusts方法，直接GET登录页面的HTML信息（有些人说你不是POST登录么，干嘛还GET，别着急，你得先GET到登录页面的登录信息，才知道登录的账户、密码等怎么提交，往哪里提交）

2、start_request方法GET到数据后，用callback参数，执行拿到response后要接下来执行哪个方法，然后在login方法里面写入登录用户名和密码（还是老样子，一定要用dict），然后只用Request子类scrapy.FormRequest这个方法提交数据，这我一个的是FormRequest.from_response方法。

有些人会问，这个from__response的基本使用是条用是需要传入一个response对象作为第一个参数，这个方法会从页面中form表单中，帮助用户创建FormRequest对象，最最最最重要的是它会帮你把隐藏的input标签中的信息自动跳入表达，使用这个中方法，我们直接写用户名和密码即可，我们在最后面再介绍传统方法。

3、parse_login方法是提交完表单后callback回调函数指定要执行的方法，为了验证是否成功。这里我们直接在response中搜索Welcome Liu这个字眼就证明登录成功。这个好理解，重点是yield from super().start_resquests()，这个代表着如果一旦登录成功后，就直接带着登录成功后Cookie值，方法start_urls里面的地址。这样的话登录成功后的response可以直接在parse里面写。

# -*- coding: utf-8 -*-
import scrapy
from scrapy import FormRequest,Request
class ExampleLoginSpider(scrapy.Spider):
  name = "login_"
  allowed_domains = ["example.webscraping.com"]
  start_urls = ['http://example.webscraping.com/user/profile']
  login_url = 'http://example.webscraping.com/places/default/user/login'
  def parse(self, response):
    print(response.text)
  def start_requests(self):
    yield scrapy.Request(self.login_url,callback=self.login)
  def login(self,response):
    formdata = {
      'email':'liushuo@webscraping.com','password':'12345678'}
    yield FormRequest.from_response(response,formdata=formdata,
                    callback=self.parse_login)
  def parse_login(self,response):
    # print('>>>>>>>>'+response.text)
    if 'Welcome Liu' in response.text:
      yield from super().start_requests()

有的同学可能问了，login方法里面不是应该写reture 么，其实上面的写法跟下面的这种写法是一样效果，如果再有个CSRF的话，也可以直接在login里面写拿到CSRF信息，写入到formdata里面跟用户名和密码一起提交。

return [FormRequest.from_response(response,formdata=formdata,callback=self.parse_login)]

登录成功

python爬虫框架scrapy实现模拟登录操作示例

三、传统登录方法：

1、首先要明确一件事情，一般情况下需要登录的网站，不只需要登录用户和密码，接下来我们聊聊上面说的传统登录模式。用户在登录的时候并不是只需要登录账户信息，除了常见直观的验证码和CSRF信息外，也有可能需要提交其它信息，我们必须把它们都提取到一起提交给服务器。

python爬虫框架scrapy实现模拟登录操作示例

2、我们在form表单下面找到了一个display:none的div标签，里面的input标签的value值正好是我们要提交的数据，那我们就提取到他。

python爬虫框架scrapy实现模拟登录操作示例

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

python爬虫框架scrapy实现模拟登录操作示例

- Author -

Charles.L

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python读文件逐行处理的示例代码分享

Dec 27 Python

python使用post提交数据到远程url的方法

Apr 29 Python

python实现简易云音乐播放器

Jan 04 Python

详解python之协程gevent模块

Jun 14 Python

Python正则表达式和re库知识点总结

Feb 11 Python

实例讲解Python中整数的最大值输出

Mar 17 Python

python实现AES加密与解密

Mar 28 Python

对django的User模型和四种扩展/重写方法小结

Aug 17 Python

500行python代码实现飞机大战

Apr 24 Python

python BeautifulSoup库的安装与使用

Dec 17 Python

Python实现科学占卜让视频自动打码

Apr 09 Python

Python Pytorch查询图像的特征从集合或数据库中查找图像

Apr 09 Python

python爬虫之线程池和进程池功能与用法详解

Aug 02 #Python

Python列表推导式与生成器用法分析

Aug 02 #Python

python flask实现分页的示例代码

Aug 02 #Python

Django分页查询并返回jsons数据(中文乱码解决方法)

Aug 02 #Python

Python实现正整数分解质因数操作示例

Aug 01 #Python

Python列表生成式与生成器操作示例

Aug 01 #Python

Python开发最牛逼的IDE——pycharm

Aug 01 #Python

You might like

overlord人气高涨，却被菲利普频繁举报，第四季很难在国内上映

2020/05/06 日漫

PHP写MySQL数据实现代码

2009/06/15 PHP

php 伪静态之IIS篇

2014/06/02 PHP

TP5框架model常见操作示例小结【增删改查、聚合、时间戳、软删除等】

2020/04/05 PHP

javascript options属性集合操作代码

2009/12/28 Javascript

jquery及原生js获取select下拉框选中的值示例

2013/10/25 Javascript

BAT及各大互联网公司2014前端笔试面试题--JavaScript篇

2014/10/29 Javascript

jQuery实现可以控制图片旋转角度效果(附demo源码下载)

2016/01/27 Javascript

vue-router跳转页面的方法

2017/02/09 Javascript

JavaScript中双向数据绑定详解

2017/05/03 Javascript

浅谈NodeJs之数据库异常处理

2017/10/25 NodeJs

Webpack优化配置缩小文件搜索范围

2017/12/25 Javascript

vue.js 获取select中的value实例

2018/03/01 Javascript

Vue实现移动端左右滑动效果的方法

2018/11/27 Javascript

js实现有趣的倒计时效果

2021/01/19 Javascript

vue 中this.$set 动态绑定数据的案例讲解

2021/01/29 Vue.js

[51:06]2018DOTA2亚洲邀请赛3月29日小组赛A组 KG VS Liquid

2018/03/30 DOTA

写了个监控nginx进程的Python脚本

2012/05/10 Python

Python fileinput模块使用介绍

2014/11/30 Python

Python操作Redis之设置key的过期时间实例代码

2018/01/25 Python

对python中执行DOS命令的3种方法总结

2018/05/12 Python

解决python写入mysql中datetime类型遇到的问题

2018/06/21 Python

python3 json数据格式的转换(dumps/loads的使用、dict to str/str to dict、json字符串/字典的相互转换)

2019/04/01 Python

Python单元测试工具doctest和unittest使用解析

2019/09/02 Python

tensorflow实现读取模型中保存的值 tf.train.NewCheckpointReader

2020/02/10 Python

详解Django中异步任务之django-celery

2020/11/05 Python

Python 生成短8位唯一id实战教程

2021/01/13 Python

HTML5 input元素类型：email及url介绍

2013/08/13 HTML / CSS

html5 利用canvas实现超级玛丽简单动画

2013/09/06 HTML / CSS

HTML5图片预览实例分享

2014/06/04 HTML / CSS

荷兰鞋子在线：Nelson Schoenen

2017/12/25 全球购物

德国咖啡批发商：Coffeefair

2019/08/26 全球购物

国际贸易专业个人求职信范文分享

2013/12/14 职场文书

设计大赛策划方案

2014/06/13 职场文书

信用卡工资证明范本

2014/10/17 职场文书

2014个人年终工作总结范文

2014/12/15 职场文书