python爬虫之模拟登陆csdn的实例代码


Posted in Python onMay 18, 2018

python模拟登陆网页主要使用到urllib、urllib2、cookielib及BeautifulSoup等基本模块,当然进阶阶段我们还可以使用像requests等更高级一点的模块。其中BeautifulSoup模块在匹配html方面,可以很好的代替re,使用起来更方便,对于不会使用正则的人来说是福音。

本文使用python2.7

原理

模拟登陆前,我们需要先知道csdn是如何登陆的。我们通过google chrome浏览器先来分析下:

1.chrome浏览器用F12或ctrl+shift+I启动开发者工具,并访问csdn登陆页面,在开发者工具中对”Preserver log”选项打勾,表示跳转时不清楚之前的访问记录。

2.输入用户名密码后,网页进行跳转,此时我们查看访问记录中Method为POST的链接的headers,可以看到

Request header:

Cache-Control:no-cache
Cache-Control:no-store
Connection:keep-alive
Content-Encoding:gzip
Content-Type:text/html;charset=UTF-8
Date:Fri, 05 Aug 2016 03:51:56 GMT
Expires:Thu, 01 Jan 1970 00:00:00 GMT
Keep-Alive:timeout=20
Pragma:no-cache
Server:openresty
Set-Cookie:UD=%E4%BB%8A%E5%A4%A9%E4%B8%8D%E8%B5%B0%EF%BC%8C%E6%98%8E%E5%A4%A9%E5%8D%B3%E4%BD%BF%E8%B7%91%E4%B9%9F%E4%B8%8D%E4%B8%80%E5%AE%9A%E8%B7%9F%E5%BE%97%E4%B8%8A%EF%BC%81; Domain=.csdn.net; Path=/
Set-Cookie:UserName=yanggd1987; Domain=.csdn.net; Path=/
Set-Cookie:UserInfo=RjXwn4OfICh68ZVTzEjJxlcez5O%2B8RMsVvAiTV6uo4n4q1orcuBFZz29qx%2BUZ7JPFQQivvFGwFaC97NpT%2FKhtcZ2U%2B%2BzivoNtu5nTyg717xzimpeHcoutwnMg%2F5S8ZlARzA8H48TOftvUJUB0mxylQ%3D%3D; Domain=.csdn.net; Path=/
Set-Cookie:UserNick=man8er; Domain=.csdn.net; Path=/
Set-Cookie:AU=A3E; Domain=.csdn.net; Path=/
Set-Cookie:CASTGC=TGT-63516-e4e600adR5WiJAFintPeHqNCpGRvO9w7nHBYtY5XUCc2BPCCcG-passport.csdn.net; Path=/; Secure
Set-Cookie:UN=yanggd1987; Domain=.csdn.net; Expires=Sat, 05-Aug-2017 03:51:55 GMT; Path=/
Set-Cookie:UE="yanggd1987@163.com"; Version=1; Domain=.csdn.net; Max-Age=31536000; Expires=Sat, 05-Aug-2017 03:51:55 GMT; Path=/
Set-Cookie:BT=1470369115868; Domain=.csdn.net; Expires=Sat, 05-Aug-2017 03:51:55 GMT; Path=/
Set-Cookie:access-token=0bd99cf6-c5bf-4683-89b8-9d8678bebff9; Domain=.csdn.net; Path=/
Transfer-Encoding:chunked
Vary:Accept-Encoding

有以上可以看出登陆过程中有cookie

POST提交的数据:

username:XXXXXXXXX
password:XXXXXXXXX
lt:LT-52961-eMo02Bz4tlj3wQz4QMuO173GCIdsqE
execution:e15s1
_eventId:submit

其中username和password表示我们登陆的账户和密码,那lt、execution表示什么呢?不要急,我们看看登陆页面网站的源代码:

<form id="fm1" action="/account/login?from=http%3A%2F%2Fmy.csdn.net%2Fmy%2Fmycsdn" method="post">
   <input id="password" name="password" tabindex="2" placeholder="输入密码" class="pass-word" type="password" value="" autocomplete="off">
   <div class="row forget-password">
   <span class="col-xs-6 col-sm-6 col-md-6 col-lg-6">
    <input type="checkbox" name="rememberMe" id="rememberMe" value="true" class="auto-login" tabindex="4">
    <label for="rememberMe">下次自动登录</label>
   </span>
   <span class="col-xs-6 col-sm-6 col-md-6 col-lg-6 forget tracking-ad" data-mod="popu_26">
    <a href="/account/fpwd?action=forgotpassword&service=http%3A%2F%2Fmy.csdn.net%2Fmy%2Fmycsdn" rel="external nofollow" tabindex="5" target="_blank">忘记密码</a>
   </span>
   </div>
   <!-- 该参数可以理解成每个需要登录的用户都有一个流水号。只有有了webflow发放的有效的流水号,用户才可以说明是已经进入了webflow流程。否则,没有流水号的情况下,webflow会认为用户还没有进入webflow流程,从而会重新进入一次webflow流程,从而会重新出现登录界面。 -->
   <input type="hidden" name="lt" value="LT-53452-VLvC2gjfxdj4jheoUJQRkIXgoDZfc3">
   <input type="hidden" name="execution" value="e16s1"> 
   <input id="username" name="username" tabindex="1" placeholder="输入用户名/邮箱/手机号" value="用户名" class="user-name" type="text"><input type="hidden" name="_eventId" value="submit"> 
   <input class="logging" accesskey="l" value="登 录" tabindex="6" type="button">   
</form>

上面注释的内容就是说明参数lt和execution的,就是在登陆过程中webflow会动态分配一个流水号LT-53452-VLvC2gjfxdj4jheoUJQRkIXgoDZfc3,我们只用获取到这个流水号才能够进行登陆。

从上面通过chrome分析得到,登陆csdn必须有cookie并且获取到webflow分配的流水号;;并且访问时必须有user-agent,否则客户端会被屏蔽。

实现

1.由于我们的系统是centos6.5,默认使用python2.6,因此我们需要先安装python2.7并安装相关第三方模块

(1)yum安装

rpm -Uvh https://centos6.iuscommunity.org/ius-release.rpm
yum -y install python27 python27-devel python27-pip python27-setuptools

#安装相关第三方模块

pip2.7 install beautifulsoup4
pip2.7 install lxml

(2)编译安装

安装python.2.7

wget https://www.python.org/ftp/python/2.7.12/Python-2.7.12.tgz
tar -zxvf Python-2.7.12.tgz
cd Python-2.7.12
./configure --prefix=/usr/local/python2.7
make && make install
#环境变量
vim /etc/profile
export PATH=/usr/local/python2.7/bin:$PATH
source /etc/profile
#安装setuptools
wget https://pypi.python.org/packages/46/db/baa571da945ff731f3739a119574e89b12add9b05c03842103bd641d0990/setuptools-25.1.3.tar.gz#md5=0dcb9990901cb6e9631db195d4e775a7
tar -zxvf setuptools-25.1.3.tar.gz
cd setuptools-25.1.3
python2.7 setup.py install
#安装pip
wget https://pypi.python.org/packages/e7/a8/7556133689add8d1a54c0b14aeff0acb03c64707ce100ecd53934da1aa13/pip-8.1.2.tar.gz#md5=87083c0b9867963b29f7aba3613e8f4a
tar -zxvf pip-8.1.2.tar.gz
cd pip-8.1.2
python2.7 setup.py install
#安装相关第三方模块
pip2.7 install beautifulsoup4
pip2.7 install lxml

注意: 通过编译安装的pip2.7 安装lxml会报错,因此还是建议使用yum安装的pip2.7

2.代码实现

vim csdn_login.py
#!/usr/bin/env python2.7
#-*- coding: utf-8 -*-

import urllib
import urllib2
import cookielib
from bs4 import BeautifulSoup

filename = 'cookie_csdn.txt'
#声明一个MozillaCookieJar对象实例来保存cookie,之后写入文件
cookie = cookielib.MozillaCookieJar(filename)
#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
handler = urllib2.HTTPCookieProcessor(cookie)
#通过handler来构建opener
opener = urllib2.build_opener(handler)

loginurl = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"

#登陆前准备:获取lt和exection
response = opener.open(loginurl)
soup = BeautifulSoup(response.read(), "lxml")
for input in soup.form.find_all("input"):
 if input.get("name") == "lt":
 lt = input.get("value")
 if input.get("name") == "execution":
 execution = input.get("value")
#post信息
values = {
 "username":"用户名",
 "password":"密码",
 "lt":lt,
 "execution":execution,
 "_eventId":"submit"
 }
postdata = urllib.urlencode(values)

opener.addheaders = [("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36")]

#模拟登录,保存cookie到cookie.txt中
result = opener.open(loginurl, postdata)

cookie.save(ignore_discard=True, ignore_expires=True)
#登陆后我们随意跳转到博客
url = "http://blog.csdn.net/XXXXXXXXX"
result = opener.open(url)

3.运行

python2.7 csdn_login.py

至此,当我们登陆后,可以随意指定一个页面进行登陆了。

总结

1.urllib和urllib2配合使用,因为urllib可以将post数据进行encode,而urllib2不可以

2.由于使用cookie、header等,用到了urllib2的基础库opener实现访问等操作,当然也可以使用urllib2.Request(url,data,header)等其他访问方式。

3.每个网站登录方式可能不一样,我们需要根据实际情况分析。

4.模拟登陆是我们通过实战学习python的一种方法,而不是用它来恶意攻击。

以上这篇python爬虫之模拟登陆csdn的实例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python开发编码规范
Sep 08 Python
python基础教程之lambda表达式使用方法
Feb 12 Python
Python压缩解压缩zip文件及破解zip文件密码的方法
Nov 04 Python
vscode 远程调试python的方法
Dec 01 Python
使用Scrapy爬取动态数据
Oct 21 Python
对Python中创建进程的两种方式以及进程池详解
Jan 14 Python
pthon贪吃蛇游戏详细代码
Jan 27 Python
python实践项目之监控当前联网状态详情
May 23 Python
python3中numpy函数tile的用法详解
Dec 04 Python
解决Pycharm的项目目录突然消失的问题
Jan 20 Python
解决Python安装cryptography报错问题
Sep 03 Python
python实现人工蜂群算法
Sep 18 Python
解决phantomjs截图失败,phantom.exit位置的问题
May 17 #Python
python自动截取需要区域,进行图像识别的方法
May 17 #Python
Python使用Phantomjs截屏网页的方法
May 17 #Python
Python 实现网页自动截图的示例讲解
May 17 #Python
Python操作Sql Server 2008数据库的方法详解
May 17 #Python
Python读写及备份oracle数据库操作示例
May 17 #Python
Python selenium抓取微博内容的示例代码
May 17 #Python
You might like
php读取csv文件并输出的方法
2015/03/14 PHP
PHP单态模式简单用法示例
2016/11/16 PHP
PHP unset函数原理及使用方法解析
2020/08/14 PHP
Function.prototype.call.apply结合用法分析示例
2013/07/03 Javascript
javascript获取checkbox复选框获取选中的选项
2014/08/12 Javascript
Javascript中的五种数据类型详解
2014/12/26 Javascript
jQuery中parents()方法用法实例
2015/01/07 Javascript
分享12个非常实用的JavaScript小技巧
2016/05/11 Javascript
浅谈JavaScript 浏览器对象
2016/06/03 Javascript
JS基础随笔(菜鸟必看篇)
2016/07/13 Javascript
JS简单实现点击复制链接的方法
2016/08/03 Javascript
JavaScript中访问id对象 属性的方式访问属性(实例代码)
2016/10/28 Javascript
jQuery.parseHTML() 函数详解
2017/01/09 Javascript
javascript判断回文数详解及实现代码
2017/02/03 Javascript
Vuex模块化实现待办事项的状态管理
2017/03/15 Javascript
通过命令行生成vue项目框架的方法
2017/07/12 Javascript
jQuery中将json数据显示到页面表格的方法
2018/05/27 jQuery
JS伪继承prototype实现方法示例
2018/06/20 Javascript
小程序实现页面顶部选项卡效果
2018/11/06 Javascript
Vue之封装公用变量以及实现方式
2020/07/31 Javascript
python实现搜索指定目录下文件及文件内搜索指定关键词的方法
2015/06/28 Python
python实现在控制台输入密码不显示的方法
2015/07/02 Python
Python函数式编程
2017/07/20 Python
Python对多属性的重复数据去重实例
2018/04/18 Python
python3实现163邮箱SMTP发送邮件
2018/05/22 Python
python networkx 包绘制复杂网络关系图的实现
2019/07/10 Python
Python 点击指定位置验证码破解的实现代码
2019/09/11 Python
浅谈pycharm导入pandas包遇到的问题及解决
2020/06/01 Python
HTML5 新事件 小结
2009/07/16 HTML / CSS
美国家居装饰网上商店:Lulu & Georgia
2019/09/14 全球购物
元旦晚会感言
2014/03/12 职场文书
经营理念口号
2014/06/21 职场文书
党员教师学习党的群众路线教育实践活动心得体会
2014/10/31 职场文书
2015年秋学期师德师风建设工作总结
2015/10/23 职场文书
Django实现翻页的示例代码
2021/05/24 Python
使用Python的开发框架Brownie部署以太坊智能合约
2021/05/28 Python