编程 Python

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

Posted in Python onAugust 17, 2020

1. 实例描述

通过爬虫获取网页的信息时，有时需要登录网页后才可以获取网页中的可用数据，例如获取 GitHub 网页中的注册号码时，就需要先登录账号才能在登录后的页面中看到该信息，如下图所示。那么该如何实现模拟登录的功能呢？本文实现将通过爬虫实现 GitHub 网页的模拟登录。

2. 代码实现

在实现 GitHub 网页的模拟登录时，首先需要查看提交登录请求时都要哪些请求参数，然后获取登录请求的所有参数，再发送登录请求。如果登录成功的情况下获取页面中的注册号码信息即可。具体步骤如下：

(1) 点击此处打开 GitHub 的登录页面，然后输入账号与密码，如下图所示。

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

(2) 用 F12 或者鼠标右键单击网页选择 检查 打开浏览器的开发者工具，选择获取网络请求过程，然后单击登录页面中的 Sign in 按钮，此时开发者工具中将显示 GitHub 网页的登录请求过程，重点查找名称为 session 的网络请求。如下图所示。

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

(3) 单击名称为 session 的网络请求，然后在 Headers 请求信息中主要查看 Request Headers与 Form Data 中的各种信息，其中红框内为重要参数与数据。如下图所示。

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

说明：Host 为主页面地址，Referer 为当前请求的来源地址。User-Agent 为浏览器的头部信息。Form Data 中的所有信息都是登录请求的所用参数，其中动态参数为重要参数，authenticity_token 为加密字符串，login 为登录的账号，password 为密码，其它参数为静态参数。由于动态参数只有 authenticity_token、login 以及password ，而用户名与密码只需要将动态字符串填写对应的位置即可，所以接下来需要获取 authenticity_token 参数所对应的加密字符串。

(4) 在浏览器中退出所登录的 GitHub 账号，返回 GitHub 的登录页面，打开浏览器开发者工具，查看网页的 html 代码，然后在代码中搜索 authenticity_token 关键词，标签内 value 所对应的值为 authenticity_token 参数的加密字符串。如下图所示。

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

(5) 实现爬虫代码，首先导入所需模块，然后创建头部信息，再通过 Session 会话对象发送网络请求获取 authenticity_token 信息，最后通过所有的登陆请求参数实现 GitHub 网页的登陆请求并提取注册号码。具体代码如下：

# -*- coding: utf-8 -*-
# @Time  : 2020/5/10 23:25
# @Author : 我就是任性-Amo
# @FileName: 77.通过爬虫实现GitHub网页的模拟登录.py
# @Software: PyCharm
# @Blog  ：https://blog.csdn.net/xw1680

import requests # 导入网络请求模块
from lxml import etree # 导入数据解析模块 都是第三方模块需要安装 
# pip install requests/lxml如果太慢 可以加上镜像服务器 或者在Pycharm中使用图形化界面进行安装


class GitHubLogin(object):
  def __init__(self, username, password):
    # 构造头部信息
    self.headers = {
      "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) "
             "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36",
      "Host": "github.com",
      "Referer": "https://github.com/login"
    }
    self.login_url = "https://github.com/login" # 登录页面地址
    self.post_url = "https://github.com/session" # 实现登录的请求地址
    self.session = requests.Session() # 创建Session会话对象
    self.user_name = username # 用户名
    self.password = password # 密码

  # 获取authenticity_token信息
  def get_token(self):
    # 发送登录页面的网络请求
    response = self.session.get(self.login_url, headers=self.headers)
    if response.status_code == 200: # 判断请求是否成功
      html = etree.HTML(response.text) # 解析html
      # 提取authenticity_token信息
      token = html.xpath("//div[@id='login']/form/input[1]/@value")[0]
      # print(token) 测试是否能够获取到token
    return token # 返回信息

  # 实现登录
  def login(self):
    # 请求参数
    post_data = {
      "commit": "Sign in",
      "authenticity_token": self.get_token(),
      "login": self.user_name,
      "password": self.password,
      "webauthn - support": "supported"
    }
    # 发送登录请求
    response = self.session.post(self.post_url, headers=self.headers, data=post_data)
    if response.status_code == 200: # 判断请求是否成功
      html = etree.HTML(response.text) # 解析html
      # 获取注册号码
      register_number = html.xpath("//div[contains(@class,'Header-item')][last()]//strong")[0]
      print(f"注册号码为: {register_number.text}")
    else:
      print("登录失败")


if __name__ == '__main__':
  user_name = input("请输入您的用户名:") # 获取输入的用户名
  password = input("请输入您的密码:") # 获取输入的密码
  login = GitHubLogin(user_name, password) # 创建登录类对象并传递输入的用户名与密码
  login.login()

执行以上代码，输入用户名与密码，即可显示获取的注册号码。如下图所示：

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

到此这篇关于Python 通过爬虫实现GitHub网页的模拟登录的示例代码的文章就介绍到这了,更多相关Python GitHub模拟登录内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

- Author -

Amo Xiang

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python 处理数据的实例详解

Aug 10 Python

python实现神经网络感知器算法

Dec 20 Python

Java实现的执行python脚本工具类示例【使用jython.jar】

Mar 29 Python

Python实现使用卷积提取图片轮廓功能示例

May 12 Python

Python最小二乘法矩阵

Jan 02 Python

pyqt5实现登录界面的模板

May 30 Python

python小程序实现刷票功能详解

Jul 17 Python

python框架django项目部署相关知识详解

Nov 04 Python

在Pycharm中安装Pandas库方法(简单易懂)

Feb 20 Python

pytorch 使用半精度模型部署的操作

May 24 Python

浅谈Python中的正则表达式

Jun 28 Python

python中取整数的几种方法

Nov 07 Python

无需压缩软件，用python帮你操作压缩包

Aug 17 #Python

用Python制作mini翻译器的实现示例

Aug 17 #Python

PyCharm vs VSCode，作为python开发者，你更倾向哪种IDE呢？

Aug 17 #Python

pandas apply多线程实现代码

Aug 17 #Python

简述python Scrapy框架

Aug 17 #Python

python使用多线程查询数据库的实现示例

Aug 17 #Python

python使用建议与技巧分享（一）

Aug 17 #Python

You might like

php中3种方法统计字符串中每种字符的个数并排序

2012/08/27 PHP

PHP数据库操作之基于Mysqli的数据库操作类库

2014/04/19 PHP

PHP中的排序函数sort、asort、rsort、krsort、ksort区别分析

2014/08/18 PHP

php异步多线程swoole用法实例

2014/11/14 PHP

实例讲解php数据访问

2016/05/09 PHP

Yii2 如何在modules中添加验证码的方法

2017/06/19 PHP

Laravel使用RabbitMQ的方法示例

2019/06/18 PHP

使用jQuery简化Ajax开发 Ajax开发入门

2009/10/14 Javascript

jQuery html()方法使用不了无法显示内容的问题

2014/08/06 Javascript

微信小程序简单实例（阅读器）的实例开发

2016/09/29 Javascript

AngularJS集合数据遍历显示的实例

2017/12/27 Javascript

使用nodejs+express实现简单的文件上传功能

2017/12/27 NodeJs

JS实现的简单tab切换功能完整示例

2019/06/20 Javascript

纯js+css实现仿移动端淘宝网站的弹出详情框功能

2019/12/29 Javascript

Python字典及字典基本操作方法详解

2018/01/30 Python

python正则表达式匹配[]中间为任意字符的实例

2018/12/25 Python

Python面向对象程序设计构造函数和析构函数用法分析

2019/04/12 Python

在Python中预先初始化列表内容和长度的实现

2019/11/28 Python

selenium中get_cookies()和add_cookie（）的用法详解

2020/01/06 Python

torchxrayvision包安装过程（附pytorch1.6cpu版安装）

2020/08/26 Python

用python制作个音乐下载器

2021/01/30 Python

iphoneX 适配客户端H5页面的方法教程

2017/12/08 HTML / CSS

洲际酒店集团大中华区：IHG中国

2016/08/17 全球购物

美国最顶级的精品店之一：Hampden Clothing

2016/12/22 全球购物

Hotels.com台湾：饭店订房网

2017/09/06 全球购物

俄罗斯电动工具和设备购物网站：Vseinstrumenti.ru

2020/11/12 全球购物

售后专员岗位职责

2013/12/08 职场文书

学校办公室主任职责

2013/12/27 职场文书

物流专业求职信

2014/06/30 职场文书

党员教师自我剖析材料

2014/09/29 职场文书

统计员岗位职责范本

2015/04/14 职场文书

人事行政部各岗位职责说明书！

2019/07/15 职场文书

nginx 反向代理之 proxy_pass的实现

2021/03/31 Servers

Django实现聊天机器人

2021/05/31 Python

python 中yaml文件用法大全

2021/07/04 Python

Python实现打乒乓小游戏

2021/09/25 Python