编程 Python

Python爬虫利用cookie实现模拟登陆实例详解

Posted in Python onJanuary 12, 2017

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）。

举个例子，某些网站是需要登录后才能得到你想要的信息的，不登陆只能是游客模式，那么我们可以利用Urllib2库保存我们以前登录过的Cookie，之后载入cookie获取我们想要的页面，然后再进行抓取。理解cookie主要是为我们快捷模拟登录抓取目标网页做出准备。

我之前的帖子中使用过urlopen()这个函数来打开网页进行抓取，这仅仅只是一个简单的Python网页打开器，其参数也仅有urlopen(url,data,timeout),这三个参数对于我们获取目标网页的cookie是远远不够的。这时候我们就要利用到另外一种Opener——CookieJar。

cookielib也是Python进行爬虫的一个重要模块，他能与urllib2相互结合一起爬取想要的内容。该模块的CookieJar类的对象可以捕获cookie并在后续连接请求时重新发送，这样就可以实现我们所需要的模拟登录功能。

这里特别说明一下，cookielib是在py2.7中自带的模块，无需重新安装，想要查看其自带模块可以查看Python目录下的Lib文件夹，里面有所有安装的模块。我一开始没想起来，在pycharm中竟然没有搜到cookielib,使用了快捷安装也报错：Couldn't find index page for 'Cookielib' (maybe misspelled?)

Python爬虫利用cookie实现模拟登陆实例详解

之后才想起来是不是自带的就有，没想到去lib文件夹一看还真有，白白浪费半个小时各种瞎折腾~~

下面我们就来介绍一下这个模块，该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

它们的关系：CookieJar —-派生—->FileCookieJar —-派生—?>MozillaCookieJar和LWPCookieJar 主要用法，我们下面也会讲到。urllib2.urlopen()函数不支持验证、cookie或者其它HTTP高级功能。要支持这些功能，必须使用build_opener()（可以用于让python程序模拟浏览器进行访问，作用你懂得~）函数创建自定义Opener对象。

1、首先我们就来获取一下网站的cookie

例子：

#coding=utf-8 
import cookielib 
import urllib2 
 
mycookie = cookielib.CookieJar() #声明一个CookieJar的类对象保存cookie(注意CookieJar的大小写问题) 
handler = urllib2.HTTPCookieProcessor(mycookie) #利用urllib2库中的HTTPCookieProcessor来声明一个处理cookie的处理器 
opener = urllib2.build_opener(handler) #利用handler来构造opener，opener的用法和urlopen()类似 
response = opener.open("http://www.baidu.com") #opener返回的一个应答对象response 
for item in my.cookie: 
  print"name="+item.name 
  print"value="+item.value

结果：

name=BAIDUID 
value=73BD718962A6EA0DAD4CB9578A08FDD0:FG=1 
name=BIDUPSID 
value=73BD718962A6EA0DAD4CB9578A08FDD0 
name=H_PS_PSSID 
value=1450_19035_21122_17001_21454_21409_21394_21377_21526_21189_21398 
name=PSTM 
value=1478834132 
name=BDSVRTM 
value=0 
name=BD_HOME 
value=0

这样我们就得到了一个最简单的cookie。

2、将cookie保存到文件

上面我们得到了cookie,下面我们学习如何保存cookie。在这里我们使用它的子类MozillaCookieJar来实现Cookie的保存

例子：

#coding=utf-8 
import cookielib 
import urllib2 
 
mycookie = cookielib.MozillaCookieJar() #声明一个MozillaCookieJar的类对象保存cookie(注意MozillaCookieJar的大小写问题) 
handler = urllib2.HTTPCookieProcessor(mycookie) #利用urllib2库中的HTTPCookieProcessor来声明一个处理cookie的处理器 
opener = urllib2.build_opener(handler) #利用handler来构造opener，opener的用法和urlopen()类似 
response = opener.open("http://www.baidu.com") #opener返回的一个应答对象response 
for item in mycookie: 
  print"name="+item.name 
  print"value="+item.value 
filename='mycookie.txt'#设定保存的文件名 
mycookie.save(filename,ignore_discard=True, ignore_expires=True)

将上面的例子简单变形就可以得到本例，使用了CookieJar的子类MozillaCookiJar,为什么呢？我们将MozillaCookiJar换成CookieJar试试，下面一张图你就能明白：

Python爬虫利用cookie实现模拟登陆实例详解

CookieJar是没有保存save属性的~

save()这个方法中：ignore_discard的意思是即使cookies将被丢弃也将它保存下来，ignore_expires的意思是如果在该文件中cookies已经存在，则覆盖原文件写入，在这里，我们将这两个全部设置为True。运行之后，cookies将被保存到cookie.txt文件中，我们查看一下内容：

Python爬虫利用cookie实现模拟登陆实例详解

这样我们就成功保存了我们想要的cookie

3、从文件中获取cookie并访问

<pre style="background-color: rgb(255, 255, 255); font-family: 宋体; font-size: 9pt;"><pre name="code" class="python">#coding=utf-8 
import urllib2 
import cookielib 
import urllib 
 
#第一步先给出账户密码网址准备模拟登录 
postdata = urllib.urlencode({ 
  'stuid': '1605122162', 
  'pwd': 'xxxxxxxxx'#密码这里就不泄漏啦，嘿嘿嘿 
}) 
loginUrl = 'http://ids.xidian.edu.cn/authserver/login?service=http%3A%2F%2Fjwxt.xidian.edu.cn%2Fcaslogin.jsp'# 登录教务系统的URL，成绩查询网址 
 
# 第二步模拟登陆并保存登录的cookie 
filename = 'cookie.txt'  #创建文本保存cookie 
mycookie = cookielib.MozillaCookieJar(filename) # 声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件 
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(mycookie)) #定义这个opener，对象是cookie 
result = opener.open(loginUrl, postdata) 
mycookie.save(ignore_discard=True, ignore_expires=True)# 保存cookie到cookie.txt中 
 
# 第三步利用cookie请求访问另一个网址，教务系统总址 
gradeUrl = 'http://ids.xidian.edu.cn/authserver/login?service'  #只要是帐号密码一样的网址就可以， 请求访问成绩查询网址 
result = opener.open(gradeUrl) 
print result.read()</pre><br> 
<pre></pre> 
<pre></pre> 
<p></p> 
<pre></pre> 
<pre></pre> 
创建一个带有cookie的opener，在访问登录的URL时，将登录后的cookie保存下来，然后利用这个cookie来访问其他网址。 
<p></p> 
<p><br> 
</p> 
<p>核心思想：创建opener,包含了cookie的内容。之后在利用opener时，就会自动使用原先保存的cookie.<br> 
<br> 
</p> 
   
</pre>

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

Python爬虫利用cookie实现模拟登陆实例详解

- Author -

lqh

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python正则分组的应用

Nov 10 Python

Python语言实现机器学习的K-近邻算法

Jun 11 Python

python3.5使用tkinter制作记事本

Jun 20 Python

Django接收自定义http header过程详解

Aug 23 Python

TensorFlow实现保存训练模型为pd文件并恢复

Feb 06 Python

python输出数学符号实例

May 11 Python

PIL.Image.open和cv2.imread的比较与相互转换的方法

Jun 03 Python

keras.layer.input()用法说明

Jun 16 Python

python怎么判断模块安装完成

Jun 19 Python

python将数据插入数据库的代码分享

Aug 16 Python

Jupyter Notebook添加代码自动补全功能的实现

Jan 07 Python

详解python第三方库的安装、PyInstaller库、random库

Mar 03 Python

Python 出现错误TypeError: ‘NoneType’ object is not iterable解决办法

Jan 12 #Python

python获取当前用户的主目录路径方法(推荐)

Jan 12 #Python

Python获取文件所在目录和文件名的方法

Jan 12 #Python

深入理解Python中变量赋值的问题

Jan 12 #Python

Python时间获取及转换知识汇总

Jan 11 #Python

json跨域调用python的方法详解

Jan 11 #Python

Python中遇到的小问题及解决方法汇总

Jan 11 #Python

You might like

php抓取https的内容的代码

2010/04/06 PHP

PHP通过正则表达式下载图片到本地的实现代码

2011/09/19 PHP

基于php使用memcache存储session的详解

2013/06/25 PHP

php中二维数组排序问题方法详解

2015/08/28 PHP

php实现的网页版剪刀石头布游戏示例

2016/11/25 PHP

PHP里面把16进制的图片数据显示在html的img标签上(实现方法)

2017/05/02 PHP

PHP pthreads v3下的Volatile简介与使用方法示例

2020/02/21 PHP

jquerymobile checkbox及时刷新才能获取其准确值

2012/04/14 Javascript

JS获得QQ号码的昵称,头像,生日的简单实例

2013/12/04 Javascript

jquery 按键盘上的enter事件

2014/05/11 Javascript

javascript实现日期格式转换

2014/12/16 Javascript

JavaScript实现俄罗斯方块游戏过程分析及源码分享

2015/03/23 Javascript

再谈JavaScript线程

2015/07/10 Javascript

js获取及判断键盘按键的方法

2015/12/01 Javascript

javascript实现列表切换效果

2016/05/02 Javascript

Vue学习笔记进阶篇之vue-router安装及使用方法

2017/07/19 Javascript

小程序日历控件使用方法详解

2018/12/29 Javascript

原生js实现的金山打字小游戏（实例代码详解）

2020/03/16 Javascript

Vue+elementUI实现多图片上传与回显功能（含回显后继续上传或删除）

2020/03/23 Javascript

Python使用Redis实现作业调度系统(超简单)

2016/03/22 Python

python实现中文转换url编码的方法

2016/06/14 Python

python SSH模块登录，远程机执行shell命令实例解析

2018/01/12 Python

对python修改xml文件的节点值方法详解

2018/12/24 Python

Django如何开发简单的查询接口详解

2019/05/17 Python

python通过txt文件批量安装依赖包的实现步骤

2019/08/13 Python

Python 获取命令行参数内容及参数个数的实例

2019/12/20 Python

使用HTML5技术开发一个属于自己的超酷颜色选择器

2013/09/22 HTML / CSS

美国最大的家庭鞋类零售商之一：Shoe Carnival

2017/10/06 全球购物

法国大使拉杆箱官网：DELSEY Paris

2018/03/20 全球购物

幼教个人求职信范文

2013/12/02 职场文书

上班迟到检讨书

2014/01/10 职场文书

军训自我鉴定200字

2014/02/13 职场文书

民主评议党员自我鉴定

2014/10/21 职场文书

2014年组织部工作总结

2014/11/14 职场文书

幼儿园六一儿童节活动总结

2015/02/10 职场文书

python可视化大屏库big_screen示例详解

2021/11/23 Python