编程 Python

如何使用python爬虫爬取要登陆的网站

Posted in Python onJuly 12, 2019

你好

由于你是游客

无法查看本文

请你登录再进

谢谢合作。。。。。

如何使用python爬虫爬取要登陆的网站

当你在爬某些网站的时候

需要你登录才可以获取数据

咋整？

莫慌

把这几招传授给你

让你以后从容应对

如何使用python爬虫爬取要登陆的网站

登录的常见方法无非是这两种

1、让你输入帐号和密码登录

如何使用python爬虫爬取要登陆的网站

2、让你输入帐号密码+验证码登录

如何使用python爬虫爬取要登陆的网站

今天

先跟你说说第一种

需要验证码的咱们下一篇再讲

第一招

如何使用python爬虫爬取要登陆的网站

Cookie大法

你平常在上某个不为人知的网站的时候

是不是发现你只要登录一次

就可以一直看到你想要的内容

过了一阵子才需要再次登录

这就是因为 Cookie 在做怪

简单来说

就是每一个使用这个网站的人

服务器都会给他一个 Cookie

那么下次你再请求数据的时候

你顺带把这个 Cookie 传过去

服务器一看

诶，小伙子是老客户啊

如何使用python爬虫爬取要登陆的网站

有登录过

直接返回数据给他吧

在服务中还可以设置 Cookie 的有效时间

也就是说

当你下次携带一个过期了的 Cookie 给服务器的时候

服务器虽然知道你是老客户

但是还是需要你重新再登录一次

然后再给你一个有效的 Cookie

Cookie 的时长周期是服务器那边定的

了解了这一点之后

我们就来玩一下吧

我们以「逼乎」为例

https://biihu.cc/account/login/

输入地址之后

按一下 F12

点击 network 标签

然后登录你的帐号

然后点击其中一个

你就可以看到在 Request Headers 有你的 Cookie

如何使用python爬虫爬取要登陆的网站

有了 Cookie 之后

我们在代码中直接获取我的个人信息

import requests
headers = {
 # 假装自己是浏览器
 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/73.0.3683.75 Chrome/73.0.3683.75 Safari/537.36',
 # 把你刚刚拿到的Cookie塞进来
 'Cookie': 'eda38d470a662ef3606390ac3b84b86f9; Hm_lvt_f1d3b035c559e31c390733e79e080736=1553503899; biihu__user_login=omvZVatKKSlcXbJGmXXew9BmqediJ4lzNoYGzLQjTR%2Fjw1wOz3o4lIacanmcNncX1PsRne5tXpE9r1sqrkdhAYQrugGVfaBICYp8BAQ7yBKnMpAwicq7pZgQ2pg38ZzFyEZVUvOvFHYj3cChZFEWqQ%3D%3D; Hm_lpvt_f1d3b035c559e31c390733e79e080736=1553505597',
}
session = requests.Session()
response = session.get('https://biihu.cc/people/wistbean%E7%9C%9F%E7%89%B9%E4%B9%88%E5%B8%85', headers=headers)
print(response.text)

运行后可以发现不用登录就可以直接拿到自己的个人信息了

<!DOCTYPE html>
<html>
<head>
<meta content="text/html;charset=utf-8" http-equiv="Content-Type" />
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no" name="viewport" />
<meta http-equiv="X-UA-Compatible" content="IE=edge,Chrome=1" />
<meta name="renderer" content="webkit" />
<title>小帅b真特么帅 的个人主页 - 逼乎</title>
<meta name="keywords" content="逼乎,问答,装逼,逼乎网站" />
<meta name="description" content="逼乎 ，与世界分享你的装逼技巧与见解" />
<base href="https://biihu.cc/" rel="external nofollow" /><!--[if IE]></base><![endif]-->
<link rel="stylesheet" type="text/css" href="https://biihu.cc/static/css/bootstrap.css" rel="external nofollow" />
<link rel="stylesheet" type="text/css" href="https://biihu.cc/static/css/icon.css" rel="external nofollow" />
<link href="https://biihu.cc/static/css/default/common.css?v=20180831" rel="external nofollow" rel="stylesheet" type="text/css" />
<link href="https://biihu.cc/static/css/default/link.css?v=20180831" rel="external nofollow" rel="stylesheet" type="text/css" />
<link href="https://biihu.cc/static/js/plug_module/style.css?v=20180831" rel="external nofollow" rel="stylesheet" type="text/css" />
<link href="https://biihu.cc/static/css/default/user.css?v=20180831" rel="external nofollow" rel="stylesheet" type="text/css" />
<link href="https://biihu.cc/static/css/mood/mood.css" rel="external nofollow" rel="stylesheet" type="text/css" />
<script type="text/javascript">
 var _02AEC94D5CA08B39FC0E1F7CC220F9B4="a5359326797de302bfc9aa6302c001b8";
 var G_POST_HASH=_02AEC94D5CA08B39FC0E1F7CC220F9B4;
 var G_INDEX_SCRIPT = "";
 var G_SITE_NAME = "逼乎";
 var G_BASE_URL = "https://biihu.cc";
 var G_STATIC_URL = "https://biihu.cc/static";
 var G_UPLOAD_URL = "/uploads";
 var G_USER_ID = "188";
 var G_USER_NAME = "666";
 var G_UPLOAD_ENABLE = "Y";
 var G_UNREAD_NOTIFICATION = 0;
 var G_NOTIFICATION_INTERVAL = 100000;
 var G_CAN_CREATE_TOPIC = "1";
 var G_ADVANCED_EDITOR_ENABLE = "Y";
 var FILE_TYPES = "jpg,jpeg,png,gif,zip,doc,docx,rar,pdf,psd";
</script>
<script src="https://biihu.cc/static/js/jquery.2.js?v=20180831" type="text/javascript"></script>

第二招

如何使用python爬虫爬取要登陆的网站

表单请求大法

很简单

就是通过抓包

获取请求登录的时候需要用到的用户名密码参数

然后以表单的形式请求服务器

如果你细心一点的话应该会知道之前说过拉

具体在这

去看下

我就不多说了

第三招

如何使用python爬虫爬取要登陆的网站

Selenium 自动登录法

获取到两个输入框的元素

再获取到登录按钮

往输入框写你的帐号密码

然后自动点击一下登录

username = WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR, "帐号的selector")))
password = WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR, "密码的selector")))
submit = WAIT.until(EC.element_to_be_clickable((By.XPATH, '按钮的xpath')))
username.send_keys('你的帐号')
password.send_keys('你的密码')
submit.click()

登录完之后拿到 Cookie

cookies = webdriver.get_cookies()

有了 Cookie 你就可以拿到你想要的数据了，希望对你有帮助

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

如何使用python爬虫爬取要登陆的网站

- Author -

千锋Python唐唐君

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python查找函数f（x）=0根的解决方法

May 07 Python

python 性能优化方法小结

Mar 31 Python

Flask核心机制之上下文源码剖析

Dec 25 Python

Python修改文件往指定行插入内容的实例

Jan 30 Python

django的聚合函数和aggregate、annotate方法使用详解

Jul 23 Python

python3 实现口罩抽签的功能

Mar 11 Python

python实现超级玛丽游戏

Mar 18 Python

使用python批量转换文件编码为UTF-8的实现

Apr 03 Python

基于python 将列表作为参数传入函数时的测试与理解

Jun 05 Python

如何用python实现一个HTTP连接池

Jan 14 Python

python 用递归实现通用爬虫解析器

Apr 16 Python

python实战之90行代码写个猜数字游戏

Apr 22 Python

Pycharm使用之设置代码字体大小和颜色主题的教程

Jul 12 #Python

python增加图像对比度的方法

Jul 12 #Python

Python 控制终端输出文字的实例

Jul 12 #Python

在Django的View中使用asyncio的方法

Jul 12 #Python

检测python爬虫时是否代理ip伪装成功的方法

Jul 12 #Python

在PyCharm中控制台输出日志分层级分颜色显示的方法

Jul 11 #Python

基于sklearn实现Bagging算法（python）

Jul 11 #Python

You might like

Zend 输出产生XML解析错误

2009/03/03 PHP

php正则提取html图片(img)src地址与任意属性的方法

2017/02/08 PHP

php实现姓名根据首字母排序的类与方法(实例代码)

2018/05/16 PHP

JavaScript中继承的一些示例方法与属性参考

2010/08/07 Javascript

js控制表单操作的常用代码小结

2013/08/15 Javascript

jQuery的:parent选择器定义和用法

2014/07/01 Javascript

JavaScript实现俄罗斯方块游戏过程分析及源码分享

2015/03/23 Javascript

jQuery自定义滚动条完整实例

2016/01/08 Javascript

javascript事件的传播基础实例讲解(35)

2017/02/14 Javascript

JS 实现随机验证码功能

2017/02/15 Javascript

Vue中保存数据到磁盘文件的方法

2018/09/06 Javascript

如何在wxml中直接写js代码(wxs)

2019/11/14 Javascript

[03:59]DOTA2英雄梦之声_第07期_水晶室女

2014/06/23 DOTA

[04:52]DOTA2亚洲邀请赛附加赛 TOP10精彩集锦

2015/01/29 DOTA

python在linux中输出带颜色的文字的方法

2014/06/19 Python

python实现下载指定网址所有图片的方法

2015/08/08 Python

各种Python库安装包下载地址与安装过程详细介绍(Windows版)

2016/11/02 Python

Python实现PS滤镜中马赛克效果示例

2018/01/20 Python

python实现播放音频和录音功能示例代码

2018/12/30 Python

Python基于opencv实现的简单画板功能示例

2019/03/04 Python

Python常用GUI框架原理解析汇总

2020/12/07 Python

Python 将代码转换为可执行文件脱离python环境运行(步骤详解)

2021/01/25 Python

浅析HTML5中的 History 模式

2017/06/22 HTML / CSS

Puma印度官网：德国运动品牌

2019/10/06 全球购物

市场营销管理制度

2014/01/29 职场文书

公司门卫管理制度

2014/02/01 职场文书

建筑公司员工自我鉴定

2014/04/08 职场文书

公司承诺书怎么写

2014/05/24 职场文书

孩子教育的心得体会

2014/09/01 职场文书

工资收入证明样本（5篇）

2014/09/16 职场文书

2014领导班子四风问题对照检查材料思想汇报

2014/09/21 职场文书

领导班子个人对照检查材料（群众路线）

2014/09/26 职场文书

领导班子奢靡之风查摆问题及整改措施

2014/09/27 职场文书

人事局接收函

2015/01/31 职场文书

幼儿园园长新年寄语

2015/08/17 职场文书

Python3中最常用的5种线程锁实例总结

2021/07/07 Python