python requests模拟登陆github的实现方法


Posted in Python onDecember 26, 2019

1. Cookie 介绍

HTTP 协议是无状态的。因此,若不借助其他手段,远程的服务器就无法知道以前和客户端做了哪些通信。Cookie 就是「其他手段」之一。 Cookie 一个典型的应用场景,就是用于记录用户在网站上的登录状态。

  • 用户登录成功后,服务器下发一个(通常是加密了的)Cookie 文件。
  • 客户端(通常是网页浏览器)将收到的 Cookie 文件保存起来。
  • 下次客户端与服务器连接时,将 Cookie 文件发送给服务器,由服务器校验其含义,恢复登录状态(从而避免再次登录)。

2.requests使用cookie

当浏览器作为客户端与远端服务器连接时,远端服务器会根据需要,产生一个 SessionID,并附在 Cookie 中发给浏览器。接下来的时间里,只要 Cookie 不过期,浏览器与远端服务器的连接,都会使用这个 SessionID;而浏览器会自动与服务器协作,维护相应的 Cookie。

requests中,也是这样。我们可以创建一个requests.Session,尔后在该 Session 中与远端服务器通信,其中产生的 Cookie,requests会自动为我们维护好。

3. POST 表单

post 方法可以将一组用户数据,以表单的形式发送到远端服务器。远端服务器接受后,依照表单内容做相应的动作。

调用requests的 POST 方法时,可以用data参数接收一个 Python 字典结构。requests会自动将 Python 字典序列化为实际的表单内容。例如:

import requests

cs_url  = 'http://httpbin.org/post'
my_data  = {
  'key1' : 'value1',
  'key2' : 'value2'
}

r = requests.post (cs_url, data = my_data)
print r.content

4. 实际模拟登录 GitHub 试试看

模拟登录的第一步,首先是要搞清楚我们用浏览器登录时都发生了什么。

GitHub 登录页面是https://github.com/login。我们首先清空浏览器 Cookie 记录,然后用 Chrome 打开登录页面。填入 Username 和 Password 之后,我们打开 Tamper Chrome 和 Chrome 的元素审查工具(找到 Network 标签页),之后点登录按钮。

在 Tamper Chrome 中,我们发现:虽然登录页面是https://github.com/login,但实际接收表单的是https://github.com/session。若登录成功,则跳转到https://github.com/首页,返回状态码200

python requests模拟登陆github的实现方法

而在 Chrome 的审查元素窗口中,我们可以看到提交给session接口的表单信息。内里包含

  1. commit
  2. utf8
  3. authenticity_token
  4. login
  5. password

python requests模拟登陆github的实现方法

其中,commitutf8两项是定值;loginpassword分别是用户名和密码,这很好理解。唯独authenticity_token是一长串无规律的字符,我们不清楚它是什么。

POST 动作发生在与session接口交互之前,因此可能的信息来源只有login接口。我们打开 login 页面的源码,试着搜索authenticity_token就不难发现有如下内容:

<input name="authenticity_token" type="hidden" value="......" />

原来,所谓的authenticity_token是明白写在 HTML 页面里的,只不过用hidden模式隐藏起来了。为此,我们只需要使用 Python 的正则库解析一下,就好了。

import requests
import re

login_url = 'https://github.com/login'
user = 'user' //具体账号
password = 'password'  //具体密码
user_headers = {
  'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36',
  'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
  'Accept-Encoding' : 'gzip',
  'Accept-Language' : 'zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4'
}

session = requests.Session()
response = session.get(login_url, headers = user_headers)
pattern = re.compile(r'<input name="authenticity_token" type="hidden" value="(.*)" />')

authenticity_token = pattern.findall(response.content)[0]

login_data = {  
  'commit' : 'Sign in',  
  'utf8' : '%E2%9C%93',  
  'authenticity_token' : authenticity_token,'login' : user,  
  'password' : password
}

session_url = 'https://github.com/session'
response = session.post(session_url, headers = user_headers, data = login_data)

1. 首先,我们准备好了和 Chrome 一致的 HTTP 请求头部信息。具体来说,其中的User-Agent是比较重要的。

2. 仿照浏览器与服务器的通信,我们创建了一个requests.Session

3. 我们用 GET 方法打开登录页面,并用正则库解析到authenticity_token

4. 将所需的数据,整备成一个 Python 字典login_data

5. 最后,用 POST 方法,将表单提交到session接口。

6. 最终的结果经由302跳转,打开了(200)GitHub 首页.

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python模拟enum枚举类型的方法小结
Apr 30 Python
python实现比较两段文本不同之处的方法
May 30 Python
python3批量删除豆瓣分组下的好友的实现代码
Jun 07 Python
python中利用队列asyncio.Queue进行通讯详解
Sep 10 Python
python matplotlib中文显示参数设置解析
Dec 15 Python
解决Django数据库makemigrations有变化但是migrate时未变动问题
May 30 Python
Python 通过调用接口获取公交信息的实例
Dec 17 Python
原生python实现knn分类算法
Oct 24 Python
python和php哪个更适合写爬虫
Jun 22 Python
python对execl 处理操作代码
Jun 22 Python
通过案例解析python鸭子类型相关原理
Oct 10 Python
浅谈tf.train.Saver()与tf.train.import_meta_graph的要点
May 26 Python
python 实现按对象传值
Dec 26 #Python
Python函数的返回值、匿名函数lambda、filter函数、map函数、reduce函数用法实例分析
Dec 26 #Python
Pandas时间序列:重采样及频率转换方式
Dec 26 #Python
Python高阶函数、常用内置函数用法实例分析
Dec 26 #Python
pandas实现DataFrame显示最大行列,不省略显示实例
Dec 26 #Python
Python函数的定义方式与函数参数问题实例分析
Dec 26 #Python
PyCharm使用之配置SSH Interpreter的方法步骤
Dec 26 #Python
You might like
腾讯微博提示missing parameter errorcode 102 错误的解决方法
2014/12/22 PHP
PHP实现生成唯一会员卡号
2015/08/24 PHP
laravel 使用事件系统统计浏览量的实现
2019/10/16 PHP
关于JavaScript的gzip静态压缩方法
2007/01/05 Javascript
JavaScript基础语法让人疑惑的地方小结
2012/05/23 Javascript
XMLHttpRequest处理xml格式的返回数据(示例代码)
2013/11/21 Javascript
一个JavaScript的求爱小特效
2014/05/09 Javascript
JavaScript实现单击下拉框选择直接跳转页面的方法
2015/07/02 Javascript
浅谈jquery设置和获得checkbox选中的问题
2016/08/19 Javascript
nodejs微信公众号支付开发
2016/09/19 NodeJs
新闻上下滚动jquery 超简洁(必看篇)
2017/01/21 Javascript
JS常见创建类的方法小结【工厂方式,构造器方式,原型方式,联合方式等】
2017/04/01 Javascript
vue中post请求以a=a&amp;b=b 的格式写遇到的问题
2018/04/27 Javascript
在微信小程序中渲染HTML内容的方法示例
2018/09/28 Javascript
详解mpvue中小程序自定义导航组件开发指南
2019/02/11 Javascript
vue中实现高德定位功能
2019/12/03 Javascript
功能完善的小程序日历组件的实现
2020/03/31 Javascript
Vue移动端用淘宝弹性布局lib-flexible插件做适配的方法
2020/05/26 Javascript
解决vant的Toast组件时提示not defined的问题
2020/11/11 Javascript
[06:24]DOTA2 2015国际邀请赛中国区预选赛第二日TOP10
2015/05/27 DOTA
在Python中操作文件之seek()方法的使用教程
2015/05/24 Python
python删除过期文件的方法
2015/05/29 Python
http请求 request失败自动重新尝试代码示例
2018/01/25 Python
安装2019Pycharm最新版本的教程详解
2019/10/22 Python
python多进程并发demo实例解析
2019/12/13 Python
Python+OpenCV实现旋转文本校正方式
2020/01/09 Python
浅谈Python描述数据结构之KMP篇
2020/09/06 Python
matplotlib部件之矩形选区(RectangleSelector)的实现
2021/02/01 Python
英国骑行、跑步、游泳、铁人三项运动装备专卖店:Wiggle
2016/08/23 全球购物
白血病捐款倡议书
2014/05/14 职场文书
2019假期福利管理制度!
2019/07/15 职场文书
2019年农民幸福观调查的实践感悟
2019/12/19 职场文书
iPhone13 Pro外观确定,升级4800万镜头,4月20日发新品
2021/04/15 数码科技
使用redis生成唯一编号及原理示例详解
2021/09/15 Redis
Android Canvas绘制文字横纵向对齐
2022/06/05 Java/Android
GoFrame基于性能测试得知grpool使用场景
2022/06/21 Golang