编程 Python

python爬虫使用cookie登录详解

Posted in Python onDecember 27, 2017

前言：

什么是cookie?

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）。

比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie，然后再抓取其他页面,这样就达到了我们的目的。

一、Urllib库简介

Urllib是python内置的HTTP请求库，官方地址：https://docs.python.org/3/library/urllib.html

包括以下模块：

>>>urllib.request请求模块

>>>urllib.error异常处理模块

>>>urllib.parseurl解析模块

>>>urllib.robotparserrobots.txt解析模块

二、urllib.request.urlopen介绍

uurlopen一般常用的有三个参数，它的参数如下：

urllib.requeset.urlopen(url,data,timeout)

简单的例子：

1、url参数的使用（请求的URL）

response=urllib.request.urlopen('http://www.baidu.com')

2、data参数的使用（以post请求方式请求）

data=bytes(urllib.parse.urlencode({'word':'hello'}),encoding='utf8')

response=urllib.request.urlopen('http://www.baidu.com/post',data=data)

3、timeout参数的使用（请求设置一个超时时间，而不是让程序一直在等待结果）

response=urllib.request.urlopen('http://www.baidu.com/get',timeout=4)

三、构造Requset

1、数据传送POST和GET（举例说明：此处列举登录的请求，定义一个字典为values，参数为：email和password，然后利用urllib.parse.urlencode方法将字典编码，命名为data，构建request时传入两个参数：url、data。运行程序，即可实现登陆。）

GET方式：直接以链接形式访问，链接中包含了所有的参数。

LOGIN_URL="http://fr*****.aflt.kiwisns.com/postLogin/"

values={'email':'*******@user.com','password':'123456'}

data=urllib.parse.urlencode(values).encode()

geturl=LOGIN_URL+"?"+data

request=urllib.request.Request(geturl)

POST方式：上面说的data参数就是用在这里的，我们传送的数据就是这个参数data。

LOGIN_URL='http://fr*****.aflt.kiwisns.com/postLogin/'

values={'email':'*******@user.com','password':'123456'}

data=urllib.parse.urlencode(values).encode()

request=urllib.request.Request(URL,data)

2、设置Headers（有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers的属性）

python爬虫使用cookie登录详解

fiddler抓包请求-headers

上图可以看到该请求的headers，这个头中包含了许多信息：Cache、Client、Transport等等。其中，agent就是请求的身份，如果没有写入请求身份，那么服务器不一定会响应，所以可以在headers中设置agent。

举例：（这个例子只是说明了怎样设置headers）

user_agent=r'Mozilla/5.0(WindowsNT6.1;Win64;x64;rv:55.0)Gecko/20100101Firefox/55.0'

headers={'User-Agent':user_agent,'Connection':'keep-alive'}

request=urllib.request.Request(URL,data,headers)

四、使用cookie登录

1、获取登录网址

浏览器输入需要登录的网址：'http://fr*****.aflt.kiwisns.com/login'（注意：这个并非其真实站点登录网址），使用抓包工具fiddler抓包（其他工具也可）找到登录后看到的request。

此处确定需要登录的网址为：'http://fr*****.aflt.kiwisns.com/postLogin/'

python爬虫使用cookie登录详解

查看登录的request网址

2、查看要传送的post数据

找到登录后的request中有webforms的信息，会列出登录要用的post数据，包括Email，password，auth。

python爬虫使用cookie登录详解

webforms信息

3、查看headers信息

找到登录后看到的request的headers信息，找出User-Agent设置、connection设置等

python爬虫使用cookie登录详解

User-Agent设置、connection设置

4、开始编码，使用cookie登录该网站

python爬虫使用cookie登录详解

5、反复使用cookie登录

（上面代码中我们保存cookie到本地了，以下代码我们能够直接从文件导入cookie进行登录，不用再构建request了）

python爬虫使用cookie登录详解

总结

以上就是本文关于python爬虫使用cookie登录详解的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

python爬虫使用cookie登录详解

- Author -

__搁浅

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现巡检系统(solaris)示例

Apr 02 Python

Python遍历zip文件输出名称时出现乱码问题的解决方法

Apr 08 Python

Python中for循环控制语句用法实例

Jun 02 Python

python字符串中的单双引

Feb 16 Python

Python中matplotlib中文乱码解决办法

May 12 Python

python实现俄罗斯方块游戏

Mar 25 Python

Python的条件表达式和lambda表达式实例

Jan 31 Python

详解python中的生成器、迭代器、闭包、装饰器

Aug 22 Python

Django框架 querySet功能解析

Sep 04 Python

Python的形参和实参使用方式

Dec 24 Python

Python virtualenv虚拟环境实现过程解析

Apr 18 Python

Python实战之实现康威生命游戏

Apr 26 Python

Python爬虫番外篇之Cookie和Session详解

Dec 27 #Python

Python并发编程协程(Coroutine)之Gevent详解

Dec 27 #Python

利用 python 对目录下的文件进行过滤删除

Dec 27 #Python

python中使用%与.format格式化文本方法解析

Dec 27 #Python

python类的方法属性与方法属性的动态绑定代码详解

Dec 27 #Python

python中的迭代和可迭代对象代码示例

Dec 27 #Python

python并发编程之线程实例解析

Dec 27 #Python

You might like

jQuery使用手册之一

2007/03/24 Javascript

js的window.showModalDialog及window.open用法实例分析

2015/01/29 Javascript

JS检测页面中哪个HTML标签触发点击事件的方法

2016/06/17 Javascript

简单谈谈JS数组中的indexOf方法

2016/10/13 Javascript

JS中BOM相关知识点总结(必看篇)

2016/11/22 Javascript

利用angular.copy取消变量的双向绑定与解析

2016/11/25 Javascript

react.js 父子组件数据绑定实时通讯的示例代码

2017/09/25 Javascript

JS跳转手机站url的若干注意事项

2017/10/18 Javascript

使用Bootstrap4 + Vue2实现分页查询的示例代码

2017/12/21 Javascript

karma+webpack搭建vue单元测试环境的方法示例

2018/05/24 Javascript

vue弹窗组件的实现示例代码

2018/09/10 Javascript

浅析vue-router原理

2018/10/19 Javascript

countUp.js实现数字滚动效果

2019/10/18 Javascript

p5.js临摹动态图形实现方法详解

2019/10/23 Javascript

jquery实现垂直手风琴菜单

2020/03/04 jQuery

Js和VUE实现跑马灯效果

2020/05/25 Javascript

[01:38]【DOTA2亚洲邀请赛】Sumail——梦开始的地方

2017/03/03 DOTA

二种python发送邮件实例讲解(python发邮件附件可以使用email模块实现)

2013/12/03 Python

Python字典实现简单的三级菜单(实例讲解)

2017/07/31 Python

浅谈Python大神都是这样处理XML文件的

2019/05/31 Python

matplotlib部件之矩形选区(RectangleSelector)的实现

2021/02/01 Python

Europcar比利时：租车

2019/08/26 全球购物

《匆匆》教学反思

2014/02/22 职场文书

中华美德颂演讲稿

2014/05/20 职场文书

学校爱国卫生月活动总结

2014/06/25 职场文书

庆国庆活动总结

2014/08/28 职场文书

个人批评与自我批评

2014/10/15 职场文书

毕业生个人总结

2015/02/28 职场文书

食品安全责任书范本

2015/05/09 职场文书

行政复议答复书

2015/07/01 职场文书

老人节主持词

2015/07/04 职场文书

开业典礼致辞

2015/07/29 职场文书

2016年教师节特级教师获奖感言

2015/12/09 职场文书

PyQt5 QThread倒计时功能的实现代码

2021/04/02 Python

使用vue-element-admin框架从后端动态获取菜单功能的实现

2021/04/29 Vue.js

OpenCV-Python 实现两张图片自动拼接成全景图

2021/06/11 Python