python 爬取学信网登录页面的例子


Posted in Python onAugust 13, 2019

我们以学信网为例爬取个人信息

**如果看不清楚

按照以下步骤:**

1.火狐为例 打开需要登录的网页?> F12 开发者模式 (鼠标右击,点击检查元素)?点击网络 ?>需要登录的页面登录下?> 点击网络找到 一个POST提交的链接点击?>找到post(注意该post中信息就是我们提交时需要构造的表单信息)

python 爬取学信网登录页面的例子

import requests
from bs4 import BeautifulSoup
from http import cookies
import urllib
import http.cookiejar

headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0',
  'Referer':'https://account.chsi.com.cn/passport/login?service=https://my.chsi.com.cn/archive/j_spring_cas_security_check',
}

session = requests.Session()
session.headers.update(headers)
username = 'xxx'
password = 'xxx'
url = 'https://account.chsi.com.cn/passport/login?service=https://my.chsi.com.cn/archive/j_spring_cas_security_check'
def login(username,password,lt,_eventId='submit'):   #模拟登入函数
  #构造表单数据
  data = { #需要传去的数据
      '_eventId':_eventId,
      'lt':lt,
      'password':password, 
      'submit':u'登录',
      'username':username, 
  }
  html = session.post(url,data=data,headers=headers)

def get_lt(url):    #解析登入界面_eventId
  html = session.get(url)
  #获取 lt
  soup = BeautifulSoup(html.text,'lxml',from_encoding="utf-8")
  lt=soup.find('input',type="hidden")['value']
  return lt

lt = get_lt(url)#获取登录form表单信息 以学信网为例
login(username,password,lt)
login_url = 'https://my.chsi.com.cn/archive/gdjy/xj/show.action'
per_html = session.get(login_url)
soup = BeautifulSoup(per_html.text,'lxml',from_encoding="utf-8")
print(soup)
for tag in soup.find_all('table',class_='mb-table'):
  print(tag)
  for tag1 in tag.find_all('td'):
    title= tag1.get_text(); 
    print(title)

以上这篇python 爬取学信网登录页面的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现的简单RPG游戏流程实例
Jun 28 Python
python3.5基于TCP实现文件传输
Mar 20 Python
python中的tcp示例详解
Dec 09 Python
python交易记录链的实现过程详解
Jul 03 Python
python django下载大的csv文件实现方法分析
Jul 19 Python
Django连接数据库并实现读写分离过程解析
Nov 13 Python
Pycharm中Python环境配置常见问题解析
Jan 16 Python
PyQt5中向单元格添加控件的方法示例
Mar 24 Python
详解python中groupby函数通俗易懂
May 14 Python
python 读取串口数据的示例
Nov 09 Python
关于python中remove的一些坑小结
Jan 04 Python
Python+Matplotlib图像上指定坐标的位置添加文本标签与注释
Apr 11 Python
利用anaconda作为python的依赖库管理方法
Aug 13 #Python
基于Python的图像数据增强Data Augmentation解析
Aug 13 #Python
python通过txt文件批量安装依赖包的实现步骤
Aug 13 #Python
Python Multiprocessing多进程 使用tqdm显示进度条的实现
Aug 13 #Python
python如何将多个PDF进行合并
Aug 13 #Python
python批量读取文件名并写入txt文件中
Sep 05 #Python
Flask框架实现的前端RSA加密与后端Python解密功能详解
Aug 13 #Python
You might like
PHP图片库imagemagick安装方法
2014/09/23 PHP
在Laravel5.6中使用Swoole的协程数据库查询
2018/06/15 PHP
php5.3/5.4/5.5/5.6/7常见新增特性汇总整理
2020/02/27 PHP
php使用自带dom扩展进行元素匹配的原理解析
2020/05/29 PHP
广告代码静态化js通用函数
2007/05/09 Javascript
Ext JS添加子组件的误区探讨
2013/06/28 Javascript
javascript学习笔记(四)function函数部分
2014/09/30 Javascript
微信小程序 wxapp内容组件 text详细介绍
2016/10/31 Javascript
Bootstrap模态窗口源码解析
2017/02/08 Javascript
Three.js利用顶点绘制立方体的方法详解
2017/09/27 Javascript
详解vue+css3做交互特效的方法
2017/11/20 Javascript
Vue 自定义动态组件实例详解
2018/03/28 Javascript
详解在vue-cli项目下简单使用mockjs模拟数据
2018/10/19 Javascript
详解从vue-loader源码分析CSS Scoped的实现
2019/09/23 Javascript
使用 Jest 和 Supertest 进行接口端点测试实例详解
2020/04/25 Javascript
javascript实现前端成语点击验证优化
2020/06/24 Javascript
Python 正则表达式(转义问题)
2014/12/15 Python
黑科技 Python脚本帮你找出微信上删除你好友的人
2016/01/07 Python
在centos7中分布式部署pyspider
2017/05/03 Python
多版本Python共存的配置方法
2017/05/22 Python
利用Python循环(包括while&for)各种打印九九乘法表的实例
2017/11/06 Python
windows10下python3.5 pip3安装图文教程
2018/04/02 Python
基于Python实现拆分和合并GIF动态图
2019/10/22 Python
python自动化unittest yaml使用过程解析
2020/02/03 Python
在 Pycharm 安装使用black的方法详解
2020/04/02 Python
python Canny边缘检测算法的实现
2020/04/24 Python
查看keras各种网络结构各层的名字方式
2020/06/11 Python
马来西亚奢侈品牌购物商城:Valiram 247
2020/09/29 全球购物
记者岗位职责
2014/01/06 职场文书
护士个人自我鉴定
2014/03/24 职场文书
安全生产演讲稿
2014/05/09 职场文书
2015年初一班主任工作总结
2015/05/13 职场文书
读书笔记怎么写
2015/07/01 职场文书
2016高考感言
2015/08/01 职场文书
离婚协议书范文2016
2016/03/18 职场文书
python超详细实现完整学生成绩管理系统
2022/03/17 Python