Python 通过爬虫实现GitHub网页的模拟登录的示例代码


Posted in Python onAugust 17, 2020

1. 实例描述

通过爬虫获取网页的信息时,有时需要登录网页后才可以获取网页中的可用数据,例如获取 GitHub 网页中的注册号码时,就需要先登录账号才能在登录后的页面中看到该信息,如下图所示。那么该如何实现模拟登录的功能呢?本文实现将通过爬虫实现 GitHub 网页的模拟登录。

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

2. 代码实现

在实现 GitHub 网页的模拟登录时,首先需要查看提交登录请求时都要哪些请求参数,然后获取登录请求的所有参数,再发送登录请求。如果登录成功的情况下获取页面中的注册号码信息即可。具体步骤如下:

(1) 点击 此处 打开 GitHub 的登录页面,然后输入账号与密码,如下图所示。

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

(2) 用 F12 或者 鼠标右键单击网页选择 检查 打开浏览器的开发者工具,选择获取网络请求过程,然后单击登录页面中的 Sign in 按钮,此时开发者工具中将显示 GitHub 网页的登录请求过程,重点查找名称为 session 的网络请求。如下图所示。

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

(3) 单击名称为 session 的网络请求,然后在 Headers 请求信息中主要查看 Request HeadersForm Data 中的各种信息,其中红框内为重要参数与数据。如下图所示。

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

说明:Host 为主页面地址,Referer 为当前请求的来源地址。User-Agent 为浏览器的头部信息。Form Data 中的所有信息都是登录请求的所用参数,其中动态参数为重要参数,authenticity_token 为加密字符串,login 为登录的账号,password 为密码,其它参数为静态参数。由于动态参数只有 authenticity_tokenlogin 以及password ,而用户名与密码只需要将动态字符串填写对应的位置即可,所以接下来需要获取 authenticity_token 参数所对应的加密字符串。

(4) 在浏览器中退出所登录的 GitHub 账号,返回 GitHub 的登录页面,打开浏览器开发者工具,查看网页的 html 代码,然后在代码中搜索 authenticity_token 关键词,标签内 value 所对应的值为 authenticity_token 参数的加密字符串。如下图所示。

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

(5) 实现爬虫代码,首先导入所需模块,然后创建头部信息,再通过 Session 会话对象发送网络请求获取 authenticity_token 信息,最后通过所有的登陆请求参数实现 GitHub 网页的登陆请求并提取注册号码。具体代码如下:

# -*- coding: utf-8 -*-
# @Time  : 2020/5/10 23:25
# @Author : 我就是任性-Amo
# @FileName: 77.通过爬虫实现GitHub网页的模拟登录.py
# @Software: PyCharm
# @Blog  :https://blog.csdn.net/xw1680

import requests # 导入网络请求模块
from lxml import etree # 导入数据解析模块 都是第三方模块需要安装 
# pip install requests/lxml如果太慢 可以加上镜像服务器 或者在Pycharm中使用图形化界面进行安装


class GitHubLogin(object):
  def __init__(self, username, password):
    # 构造头部信息
    self.headers = {
      "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) "
             "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36",
      "Host": "github.com",
      "Referer": "https://github.com/login"
    }
    self.login_url = "https://github.com/login" # 登录页面地址
    self.post_url = "https://github.com/session" # 实现登录的请求地址
    self.session = requests.Session() # 创建Session会话对象
    self.user_name = username # 用户名
    self.password = password # 密码

  # 获取authenticity_token信息
  def get_token(self):
    # 发送登录页面的网络请求
    response = self.session.get(self.login_url, headers=self.headers)
    if response.status_code == 200: # 判断请求是否成功
      html = etree.HTML(response.text) # 解析html
      # 提取authenticity_token信息
      token = html.xpath("//div[@id='login']/form/input[1]/@value")[0]
      # print(token) 测试是否能够获取到token
    return token # 返回信息

  # 实现登录
  def login(self):
    # 请求参数
    post_data = {
      "commit": "Sign in",
      "authenticity_token": self.get_token(),
      "login": self.user_name,
      "password": self.password,
      "webauthn - support": "supported"
    }
    # 发送登录请求
    response = self.session.post(self.post_url, headers=self.headers, data=post_data)
    if response.status_code == 200: # 判断请求是否成功
      html = etree.HTML(response.text) # 解析html
      # 获取注册号码
      register_number = html.xpath("//div[contains(@class,'Header-item')][last()]//strong")[0]
      print(f"注册号码为: {register_number.text}")
    else:
      print("登录失败")


if __name__ == '__main__':
  user_name = input("请输入您的用户名:") # 获取输入的用户名
  password = input("请输入您的密码:") # 获取输入的密码
  login = GitHubLogin(user_name, password) # 创建登录类对象并传递输入的用户名与密码
  login.login()

执行以上代码,输入用户名与密码,即可显示获取的注册号码。如下图所示:

Python 通过爬虫实现GitHub网页的模拟登录的示例代码

到此这篇关于Python 通过爬虫实现GitHub网页的模拟登录的示例代码的文章就介绍到这了,更多相关Python GitHub模拟登录内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
机器学习经典算法-logistic回归代码详解
Dec 22 Python
解决安装tensorflow遇到无法卸载numpy 1.8.0rc1的问题
Jun 13 Python
pandas.dataframe按行索引表达式选取方法
Oct 30 Python
python 运用Django 开发后台接口的实例
Dec 11 Python
Python正则匹配判断手机号是否合法的方法
Dec 09 Python
python SQLAlchemy 中的Engine详解
Jul 04 Python
DJANGO-URL反向解析REVERSE实例讲解
Oct 25 Python
Python Des加密解密如何实现软件注册码机器码
Jan 08 Python
matlab中imadjust函数的作用及应用举例
Feb 27 Python
python selenium自动化测试框架搭建的方法步骤
Jun 14 Python
python爬取音频下载的示例代码
Oct 19 Python
python 爬取天气网卫星图片
Jun 07 Python
无需压缩软件,用python帮你操作压缩包
Aug 17 #Python
用Python制作mini翻译器的实现示例
Aug 17 #Python
PyCharm vs VSCode,作为python开发者,你更倾向哪种IDE呢?
Aug 17 #Python
pandas apply多线程实现代码
Aug 17 #Python
简述python Scrapy框架
Aug 17 #Python
python使用多线程查询数据库的实现示例
Aug 17 #Python
python使用建议与技巧分享(一)
Aug 17 #Python
You might like
PHP生成图片验证码、点击切换实例
2014/06/25 PHP
PHP用函数嵌入网站访问量计数器
2017/10/27 PHP
IE6与IE7中,innerHTML获取param的区别
2009/03/15 Javascript
Firefox和IE兼容性问题及解决方法总结
2013/10/08 Javascript
火狐下input焦点无法重复获取问题的解决方法
2014/06/16 Javascript
JS通过ajax动态读取xml文件内容的方法
2015/03/24 Javascript
学习JavaScript设计模式之单例模式
2016/01/19 Javascript
基于javascript实现泡泡大冒险网页版小游戏
2016/03/23 Javascript
Javascript点击其他任意地方隐藏关闭DIV实例
2016/06/21 Javascript
jQuery通过ajax方法获取json数据不执行success的原因及解决方法
2016/10/15 Javascript
axios基本入门用法教程
2017/03/25 Javascript
angularJS的radio实现单项二选一的使用方法
2018/02/28 Javascript
原生js检测页面加载完毕的实例
2018/09/11 Javascript
详解关于vue2.0工程发布上线操作步骤
2018/09/27 Javascript
nodejs读取本地中文json文件出现乱码解决方法
2018/10/10 NodeJs
js中怎么判断两个字符串相等的实例
2019/01/17 Javascript
js纯前端实现腾讯cos文件上传功能的示例代码
2019/05/14 Javascript
layui 对table中的数据进行转义的实例
2019/09/12 Javascript
JS实现压缩上传图片base64长度功能
2019/12/03 Javascript
使用eslint和githooks统一前端风格的技巧
2020/07/29 Javascript
Python字符串特性及常用字符串方法的简单笔记
2016/01/04 Python
django+js+ajax实现刷新页面的方法
2017/05/22 Python
对python中大文件的导入与导出方法详解
2018/12/28 Python
sqlalchemy实现时间列自动更新教程
2020/09/02 Python
远程Wi-Fi宠物监控相机:Petcube
2017/04/26 全球购物
Woolworth官网:澳洲第一大超市
2017/06/25 全球购物
荷兰在线钓鱼商店:Raven
2019/06/26 全球购物
What is EJB
2016/07/22 面试题
家长会学生家长演讲稿
2013/12/29 职场文书
公司应聘求职信
2014/06/21 职场文书
青春励志演讲稿范文
2014/08/25 职场文书
政风行风建设整改方案
2014/10/27 职场文书
幼儿园迎新生欢迎词
2015/09/30 职场文书
2016关于学习党章的心得体会
2016/01/15 职场文书
2017新年晚会开幕词
2016/03/03 职场文书
2016年区委书记抓基层党建工作公开承诺书
2016/03/25 职场文书