python 爬取学信网登录页面的例子


Posted in Python onAugust 13, 2019

我们以学信网为例爬取个人信息

**如果看不清楚

按照以下步骤:**

1.火狐为例 打开需要登录的网页?> F12 开发者模式 (鼠标右击,点击检查元素)?点击网络 ?>需要登录的页面登录下?> 点击网络找到 一个POST提交的链接点击?>找到post(注意该post中信息就是我们提交时需要构造的表单信息)

python 爬取学信网登录页面的例子

import requests
from bs4 import BeautifulSoup
from http import cookies
import urllib
import http.cookiejar

headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0',
  'Referer':'https://account.chsi.com.cn/passport/login?service=https://my.chsi.com.cn/archive/j_spring_cas_security_check',
}

session = requests.Session()
session.headers.update(headers)
username = 'xxx'
password = 'xxx'
url = 'https://account.chsi.com.cn/passport/login?service=https://my.chsi.com.cn/archive/j_spring_cas_security_check'
def login(username,password,lt,_eventId='submit'):   #模拟登入函数
  #构造表单数据
  data = { #需要传去的数据
      '_eventId':_eventId,
      'lt':lt,
      'password':password, 
      'submit':u'登录',
      'username':username, 
  }
  html = session.post(url,data=data,headers=headers)

def get_lt(url):    #解析登入界面_eventId
  html = session.get(url)
  #获取 lt
  soup = BeautifulSoup(html.text,'lxml',from_encoding="utf-8")
  lt=soup.find('input',type="hidden")['value']
  return lt

lt = get_lt(url)#获取登录form表单信息 以学信网为例
login(username,password,lt)
login_url = 'https://my.chsi.com.cn/archive/gdjy/xj/show.action'
per_html = session.get(login_url)
soup = BeautifulSoup(per_html.text,'lxml',from_encoding="utf-8")
print(soup)
for tag in soup.find_all('table',class_='mb-table'):
  print(tag)
  for tag1 in tag.find_all('td'):
    title= tag1.get_text(); 
    print(title)

以上这篇python 爬取学信网登录页面的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现将内容分行输出
Nov 05 Python
python用pickle模块实现“增删改查”的简易功能
Jun 07 Python
python的exec、eval使用分析
Dec 11 Python
Python数据结构之双向链表的定义与使用方法示例
Jan 16 Python
django使用xlwt导出excel文件实例代码
Feb 06 Python
解决python3读取Python2存储的pickle文件问题
Oct 25 Python
使用Template格式化Python字符串的方法
Jan 22 Python
python实现给微信指定好友定时发送消息
Apr 29 Python
python3.6编写的单元测试示例
Aug 17 Python
python pptx复制指定页的ppt教程
Feb 14 Python
Python enumerate内置库用法解析
Feb 24 Python
刚学完怎么用Python实现定时任务,转头就跑去撩妹!
Jun 05 Python
利用anaconda作为python的依赖库管理方法
Aug 13 #Python
基于Python的图像数据增强Data Augmentation解析
Aug 13 #Python
python通过txt文件批量安装依赖包的实现步骤
Aug 13 #Python
Python Multiprocessing多进程 使用tqdm显示进度条的实现
Aug 13 #Python
python如何将多个PDF进行合并
Aug 13 #Python
python批量读取文件名并写入txt文件中
Sep 05 #Python
Flask框架实现的前端RSA加密与后端Python解密功能详解
Aug 13 #Python
You might like
用PHP实现验证码功能
2006/10/09 PHP
一个可以找出源代码中所有中文的工具
2006/10/25 PHP
php各种编码集详解和以及在什么情况下进行使用
2011/09/11 PHP
php对数组排序代码分享
2014/02/24 PHP
PHPMailer发送HTML内容、带附件的邮件实例
2014/07/01 PHP
PDO实现学生管理系统
2020/03/21 PHP
Javascript 匿名函数及其代码模式原理
2010/03/19 Javascript
JS动态修改表格cellPadding和cellSpacing的方法
2015/03/31 Javascript
JS 作用域与作用域链详解
2015/04/07 Javascript
详解AngularJS的通信机制
2015/06/18 Javascript
js简单实现表单中点击按钮动态增加输入框数量的方法
2015/08/18 Javascript
基于replaceChild制作简单的吞噬特效
2015/09/21 Javascript
JavaScript html5 canvas绘制时钟效果
2016/03/01 Javascript
node.js Sequelize实现单实例字段或批量自增、自减
2016/12/08 Javascript
使用BootStrap实现悬浮窗口的效果
2016/12/13 Javascript
Node.js利用断言模块assert进行单元测试的方法
2017/09/28 Javascript
Element MessageBox弹框的具体使用
2020/07/27 Javascript
[13:16]INFAMOUS vs VGJ T BO3
2018/06/07 DOTA
Python实现从订阅源下载图片的方法
2015/03/11 Python
python读取word文档的方法
2015/05/09 Python
利用Python爬取可用的代理IP
2016/08/18 Python
Python 字符串大小写转换的简单实例
2017/01/21 Python
详解python实现读取邮件数据并下载附件的实例
2017/08/03 Python
Python使用Django实现博客系统完整版
2020/09/29 Python
Python中利用xpath解析HTML的方法
2018/05/14 Python
python破解zip加密文件的方法
2018/05/31 Python
详解python Todo清单实战
2018/11/01 Python
Python爬取商家联系电话以及各种数据的方法
2018/11/10 Python
用Python编写一个高效的端口扫描器的方法
2018/12/20 Python
python requests更换代理适用于IP频率限制的方法
2019/08/21 Python
python默认参数调用方法解析
2020/02/09 Python
给水排水工程专业毕业生推荐信
2013/10/28 职场文书
小班上学期评语
2014/05/05 职场文书
经典禁毒标语
2014/06/16 职场文书
使用Pytorch实现two-head(多输出)模型的操作
2021/05/28 Python
向Spring IOC 容器动态注册bean实现方式
2022/07/15 Java/Android