编程 Python

如何使用Python的Requests包实现模拟登陆

Posted in Python onApril 27, 2018

前段时间喜欢用python去抓一些页面玩，但都基本上都是用get请求一些页面，再通过正则去过滤。

今天试了一下，模拟登陆个人网站。发现也比较简单。读懂本文需要对http协议和http会话有一定的理解。

注明：因为模拟登陆的是我的个人网站，所以以下代码对个人网站和账号密码做了处理。

网站分析

爬虫的必备第一步，分析目标网站。这里使用谷歌浏览器的开发者者工具分析。

通过登陆抓取，看到这样一个请求。

上方部分为请求头，下面部分为请求是传的参数。由图片可以看出，页面通过表单提交了三个参数。分别为_csrf,usermane,password。

其中csrf是为了预防跨域脚本伪造。原理很简单，就是每一次请求，服务器生成一串加密字符串。放在隐藏的input表单中。再一次请求的时候，把这个字符串一起传过去，为了验证是否为同一个用户的请求。

如何使用Python的Requests包实现模拟登陆

因此，我们的代码逻辑就有了。首先请求一次登录页面。然后分析页面，拿到csrf字符串。最后把这个字符串和账号密码一起传给服务器用来登录。

第一份代码

#!/usr/bin/env python2.7
# -*- coding: utf-8 -*-

import requests
import re

# 头部信息
headers = {
 'Host':"localhost",
 'Accept-Language':"zh-CN,zh;q=0.8",
 'Accept-Encoding':"gzip, deflate",
 'Content-Type':"application/x-www-form-urlencoded",
 'Connection':"keep-alive",
 'Referer':"http://localhost/login",
 'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36"
}

# 登陆方法
def login(url,csrf):
 data = {
 "_csrf" : csrf,
 "username": "xiedj",
 "password": "***"
 }

 response = requests.post(url, data=data, headers=headers)
 return response.content


# 第一次访问获取csrf值
def get_login_web(url):
 page = requests.get('http://localhost/login')
 reg = r'<meta name="csrf-token" content="(.+)">'
 csrf = re.findall(reg,page.content)[0]
 login_page = login(url,csrf)
 print login_page


if __name__ == "__main__":
 url = "http://localhost/login/checklogin"
 get_login_web(url)

代码看起来好像没有什么问题。然而执行的时候出错了。核查了一下，错误的原因是，csrf验证失败！

再多次确认获取的csrf和请求登录的csrf字符串没问题了之后，我想到了一个问题。
如果，大家还不知道错误原因的话，这里可以暂停思考一个问题。“服务器如何知道，第一次请求获取csrf和第二次post登录请求是同一个用户？”

到这，应该都清楚了，如果要登录成功，需要解决如何让服务相信两次请求是同一个用户。这里需要用到http会话（不清楚的可以自行百度，这里简单介绍）。

http协议是一个种无状态的协议。为了使这种无状态变得有状态，因此引进了会话。简单的讲，通过session去记录这个状态。当一个用户第一次请求web服务的时候，服务器会生成一个session，用于保存这个用户的信息。同时，在返回给用户端时，把这个sessionID保存在cookies里。当用户再一次请求的时候，浏览器会把这个cookies带上。因此在服务器端就能知道多次请求是否为同一个用户。

因此我们的代码，需要在第一次请求的时候拿到这个sessionID。第二次请求的时候把这个sessionID一起传过去。而requests厉害的地方就是，一句简单requests.Session()，就能使用这个会话对象。

第二份代码

#!/usr/bin/env python2.7
# -*- coding: utf-8 -*-

import requests
import re

# 头部信息
headers = {
 'Host':"localhost",
 'Accept-Language':"zh-CN,zh;q=0.8",
 'Accept-Encoding':"gzip, deflate",
 'Content-Type':"application/x-www-form-urlencoded",
 'Connection':"keep-alive",
 'Referer':"http://localhost/login",
 'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36"
}

# 登陆方法
def login(url,csrf,r_session):
 data = {
 "_csrf" : csrf,
 "username": "xiedj",
 "password": "***"
 }

 response = r_session.post(url, data=data, headers=headers)
 return response.content


# 第一次访问获取csrf值
def get_login_web(url):
 r_session = requests.Session()
 page = r_session.get('http://localhost/login')
 reg = r'<meta name="csrf-token" content="(.+)">'
 csrf = re.findall(reg,page.content)[0]


 login_page = login(url,csrf,r_session)
 print login_page


if __name__ == "__main__":
 url = "http://localhost/login/checklogin"
 get_login_web(url)

成功获取登陆后的页面

如何使用Python的Requests包实现模拟登陆

由代码可以知道，requests.Session()启动会话对象后，第二次请求会自动把上一次的sessionID一起传过去。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

如何使用Python的Requests包实现模拟登陆

- Author -

春风不及你的笑

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python控制台显示时钟的示例

Feb 24 Python

浅析Python 中整型对象存储的位置

May 16 Python

浅谈python中的面向对象和类的基本语法

Jun 13 Python

django之常用命令详解

Jun 30 Python

Python使用asyncio包处理并发详解

Sep 09 Python

Python实现多级目录压缩与解压文件的方法

Sep 01 Python

python scipy求解非线性方程的方法(fsolve/root)

Nov 12 Python

Python3爬虫学习之将爬取的信息保存到本地的方法详解

Dec 12 Python

Pandas之ReIndex重新索引的实现

Jun 25 Python

使用django的ORM框架按月统计近一年内的数据方法

Jul 18 Python

python选取特定列 pandas iloc,loc,icol的使用详解(列切片及行切片)

Aug 06 Python

10个Python面试常问的问题(小结)

Nov 20 Python

Python可变参数*args和**kwargs用法实例小结

Apr 27 #Python

python实现对文件中图片生成带标签的txt文件方法

Apr 27 #Python

python模拟表单提交登录图书馆

Apr 27 #Python

Python 读取指定文件夹下的所有图像方法

Apr 27 #Python

python sys，os，time模块的使用（包括时间格式的各种转换）

Apr 27 #Python

python读取文件名称生成list的方法

Apr 27 #Python

python实现图书馆研习室自动预约功能

Apr 27 #Python

You might like

php正则

2006/07/07 PHP

php5 apache 2.2 webservice 创建与配置(java)

2011/01/27 PHP

PHP正则提取不包含指定网址的图片地址的例子

2014/04/21 PHP

分享微信扫码支付开发遇到问题及解决方案-附Ecshop微信支付插件

2015/08/23 PHP

PHP结合jQuery插件ajaxFileUpload实现异步上传文件实例

2020/08/17 PHP

PHP基于mssql扩展远程连接MSSQL的简单实现方法

2016/10/08 PHP

PHP+mysql实现从数据库获取下拉树功能示例

2017/01/06 PHP

JavaScript 精粹读书笔记(1,2)

2010/02/07 Javascript

JavaScript 类的定义和引用 JavaScript高级培训自定义对象

2010/04/27 Javascript

ASP中Sub和Function的区别说明

2020/08/30 Javascript

ExtJs设置GridPanel表格文本垂直居中示例

2013/07/15 Javascript

JS去除字符串两端空格的简单实例

2013/12/27 Javascript

JavaScript实现仿网易通行证表单验证

2015/05/25 Javascript

javascript连续赋值问题

2015/07/08 Javascript

表单元素值获取方式js及java方式的简单实例

2016/10/15 Javascript

nodejs入门教程五：连接数据库的方法分析

2017/04/24 NodeJs

深入浅析JavaScript中的RegExp对象

2017/09/18 Javascript

jQuery实现页码跳转式动态数据分页

2017/12/31 jQuery

node.js处理前端提交的GET请求

2019/08/30 Javascript

Egg Vue SSR 服务端渲染数据请求与asyncData

2019/11/24 Javascript

原生javascript制作贪吃蛇小游戏的方法分析

2020/02/26 Javascript

vue 路由懒加载中给 Webpack Chunks 命名的方法

2020/04/24 Javascript

Python Django使用forms来实现评论功能

2016/08/17 Python

python模块smtplib实现纯文本邮件发送功能

2018/05/22 Python

Python3使用turtle绘制超立方体图形示例

2018/06/19 Python

Django中日期处理注意事项与自定义时间格式转换详解

2018/08/06 Python

mac使用python识别图形验证码功能

2020/01/10 Python

python实现经纬度采样的示例代码

2020/12/10 Python

美国最大的旗帜经销商：Carrot-Top

2018/02/26 全球购物

创先争优活动方案

2014/02/12 职场文书

广告词串烧

2014/03/19 职场文书

先进班集体申报材料

2014/12/26 职场文书

2015年七一建党节演讲稿

2015/03/19 职场文书

教师节主题班会方案

2015/08/17 职场文书

小学生安全教育心得体会

2016/01/15 职场文书

《雪域豹影》读后感：父爱的伟大

2019/12/23 职场文书