Selenium+BeautifulSoup+json获取Script标签内的json数据


Posted in Python onDecember 07, 2020

Selenium爬虫遇到 数据是以 JSON 字符串的形式包裹在 Script 标签中,

假设Script标签下代码如下:

<script id="DATA_INFO" type="application/json" >
{
  "user": {
    "isLogin": true,
    "userInfo": {
      "id": 123456,
      "nickname": "LiMing",
      "intro": "人生苦短,我用python"
    }
  }
}
</script>

此时drive.find_elements_by_xpath('//*[@id="DATA_INFO"] 只能定位到元素,但是无法通过.text方法,获取Script标签下的json数据

from bs4 import BeautifulSoup as bs
import json as js
#selenium获取当前页面源码
html = drive.page_source
#BeautifulSoup转换页面源码
bs=BeautifulSoup(html,'lxml')
#获取Script标签下的完整json数据,并通过json加载成字典格式
js_test=js.loads(bs.find("script",{"id":"DATA_INFO"}).get_text())
#获取Script标签下的nickname 值
js_tes

到此这篇关于Selenium+BeautifulSoup+json获取Script标签内的json数据的文章就介绍到这了,更多相关Selenium+BeautifulSoup获取json内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
使用Python编写简单的端口扫描器的实例分享
Dec 18 Python
Python迭代器和生成器定义与用法示例
Feb 10 Python
对python 各种删除文件失败的处理方式分享
Apr 24 Python
numpy中以文本的方式存储以及读取数据方法
Jun 04 Python
python基于递归解决背包问题详解
Jul 03 Python
正则给header的冒号两边参数添加单引号(Python请求用)
Aug 09 Python
Django实现文件上传下载功能
Oct 06 Python
Python 下载及安装详细步骤
Nov 04 Python
基于python的docx模块处理word和WPS的docx格式文件方式
Feb 13 Python
Python3的socket使用方法详解
Feb 18 Python
Idea安装python显示无SDK问题解决方案
Aug 12 Python
Python requests HTTP验证登录实现流程
Nov 05 Python
Python爬虫实战案例之爬取喜马拉雅音频数据详解
Dec 07 #Python
用python对excel查重
Dec 07 #Python
python3 通过 pybind11 使用Eigen加速代码的步骤详解
Dec 07 #Python
python 通过 pybind11 使用Eigen加速代码的步骤
Dec 07 #Python
Python中BeautifulSoup通过查找Id获取元素信息
Dec 07 #Python
BeautifulSoup中find和find_all的使用详解
Dec 07 #Python
python爬虫beautifulsoup解析html方法
Dec 07 #Python
You might like
PHP里的中文变量说明
2011/07/23 PHP
使用openssl实现rsa非对称加密算法示例
2014/01/24 PHP
PHP strip_tags保留多个HTML标签的方法
2016/05/22 PHP
Yii2组件之多图上传插件FileInput的详细使用教程
2016/06/20 PHP
初试jQuery EasyUI 使用介绍
2010/04/01 Javascript
jQuery 技巧小结
2010/04/02 Javascript
封装html的select标签的js操作实例
2013/07/02 Javascript
node.js中的fs.futimes方法使用说明
2014/12/17 Javascript
jQuery中prev()方法用法实例
2015/01/08 Javascript
jQuery EasyUI 页面加载等待及页面等待层
2017/02/06 Javascript
重新理解JavaScript的六种继承方式
2017/03/24 Javascript
详谈JS中数组的迭代方法和归并方法
2017/08/11 Javascript
Three.js利用dat.GUI如何简化试验流程详解
2017/09/26 Javascript
Vue + Vue-router 同名路由切换数据不更新的方法
2017/11/20 Javascript
js canvas实现写字动画效果
2018/11/30 Javascript
JQuery样式操作、click事件以及索引值-选项卡应用示例
2019/05/14 jQuery
基于Electron实现桌面应用开发代码实例
2020/07/07 Javascript
vue 解决addRoutes多次添加路由重复的操作
2020/08/04 Javascript
在Python的Flask框架下收发电子邮件的教程
2015/04/21 Python
python读取TXT每行,并存到LIST中的方法
2018/10/26 Python
python logging模块书写日志以及日志分割详解
2019/07/22 Python
利用python实现PSO算法优化二元函数
2019/11/13 Python
python 遍历pd.Series的index和value
2019/11/26 Python
Spring Cloud Feign高级应用实例详解
2019/12/10 Python
Html5无刷新修改browser Url的方法
2014/01/15 HTML / CSS
法律专业应届生自荐信范文
2014/01/06 职场文书
七年级地理教学反思
2014/01/26 职场文书
环境工程专业自荐信范文
2014/03/18 职场文书
小学生读书活动总结
2014/06/30 职场文书
大专学生求职信
2014/07/04 职场文书
退休党员个人对照检查材料思想汇报
2014/09/29 职场文书
新员工入职感想
2015/08/07 职场文书
2015年小学师德师风建设工作总结
2015/10/23 职场文书
2016年小学感恩节活动总结
2016/04/01 职场文书
MySQL七大JOIN的具体使用
2022/02/28 MySQL
python通过新建环境安装tfx的问题
2022/05/20 Python