Selenium+BeautifulSoup+json获取Script标签内的json数据


Posted in Python onDecember 07, 2020

Selenium爬虫遇到 数据是以 JSON 字符串的形式包裹在 Script 标签中,

假设Script标签下代码如下:

<script id="DATA_INFO" type="application/json" >
{
  "user": {
    "isLogin": true,
    "userInfo": {
      "id": 123456,
      "nickname": "LiMing",
      "intro": "人生苦短,我用python"
    }
  }
}
</script>

此时drive.find_elements_by_xpath('//*[@id="DATA_INFO"] 只能定位到元素,但是无法通过.text方法,获取Script标签下的json数据

from bs4 import BeautifulSoup as bs
import json as js
#selenium获取当前页面源码
html = drive.page_source
#BeautifulSoup转换页面源码
bs=BeautifulSoup(html,'lxml')
#获取Script标签下的完整json数据,并通过json加载成字典格式
js_test=js.loads(bs.find("script",{"id":"DATA_INFO"}).get_text())
#获取Script标签下的nickname 值
js_tes

到此这篇关于Selenium+BeautifulSoup+json获取Script标签内的json数据的文章就介绍到这了,更多相关Selenium+BeautifulSoup获取json内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python HTMLParser模块解析html获取url实例
Apr 08 Python
Python简明入门教程
Aug 04 Python
使用Python将数组的元素导出到变量中(unpacking)
Oct 27 Python
python文件特定行插入和替换实例详解
Jul 12 Python
Python 由字符串函数名得到对应的函数(实例讲解)
Aug 10 Python
Python实现简单的HttpServer服务器示例
Sep 25 Python
Python 3.3实现计算两个日期间隔秒数/天数的方法示例
Jan 07 Python
详解python做UI界面的方法
Feb 27 Python
python3.6 tkinter实现屏保小程序
Jul 30 Python
python导入不同目录下的自定义模块过程解析
Nov 18 Python
python读取当前目录下的CSV文件数据
Mar 11 Python
Python Json数据文件操作原理解析
May 09 Python
Python爬虫实战案例之爬取喜马拉雅音频数据详解
Dec 07 #Python
用python对excel查重
Dec 07 #Python
python3 通过 pybind11 使用Eigen加速代码的步骤详解
Dec 07 #Python
python 通过 pybind11 使用Eigen加速代码的步骤
Dec 07 #Python
Python中BeautifulSoup通过查找Id获取元素信息
Dec 07 #Python
BeautifulSoup中find和find_all的使用详解
Dec 07 #Python
python爬虫beautifulsoup解析html方法
Dec 07 #Python
You might like
第十五节--Zend引擎的发展
2006/11/16 PHP
PHP 数字左侧自动补0
2008/03/31 PHP
PHP+jQuery实现自动补全功能源码
2013/05/15 PHP
基于php的CMS中展示文章类实例分析
2015/06/18 PHP
3种方法轻松处理php开发中emoji表情的问题
2016/07/18 PHP
解决Yii2邮件发送结果返回成功,但接收不到邮件的问题
2017/05/23 PHP
Laravel统一错误处理为JSON的方法介绍
2020/10/18 PHP
js类后台管理菜单类-MenuSwitch
2007/09/12 Javascript
javascript dom 操作详解 js加强
2009/07/13 Javascript
php与js的区别是什么
2013/08/05 Javascript
JQuery中阻止事件冒泡几种方式及其区别介绍
2014/01/15 Javascript
js取模(求余数)隔行变色
2014/05/15 Javascript
chrome下jq width()方法取值为0的解决方法
2014/05/26 Javascript
详解AngularJS中的表达式使用
2015/06/16 Javascript
jQuery实现鼠标选文字发新浪微博的方法
2016/04/02 Javascript
详解JS中定时器setInterval和setTImeout的this指向问题
2017/01/06 Javascript
ES6 Promise对象概念与用法分析
2017/04/01 Javascript
angularjs 获取默认选中的单选按钮的value方法
2018/02/28 Javascript
微信小程序利用swiper+css实现购物车商品删除功能
2019/03/06 Javascript
利用Python的Django框架中的ORM建立查询API
2015/04/20 Python
python基于socket实现网络广播的方法
2015/04/29 Python
Python实现判断字符串中包含某个字符的判断函数示例
2018/01/08 Python
Python基于socket实现简单的即时通讯功能示例
2018/01/16 Python
Python线程同步的实现代码
2018/10/03 Python
Python 中导入csv数据的三种方法
2018/11/01 Python
python-tkinter之按钮的使用,开关方法
2019/06/11 Python
python用类实现文章敏感词的过滤方法示例
2019/10/27 Python
Python zip函数打包元素实例解析
2019/12/11 Python
Timberland德国官网:靴子、鞋子、衣服、夹克及配件
2019/12/10 全球购物
数控技术专业推荐信
2013/11/01 职场文书
自我介绍演讲稿
2014/01/15 职场文书
戒毒悔改检讨书
2014/09/21 职场文书
党委干部批评与自我批评发言稿
2014/09/28 职场文书
2015年外联部工作总结
2015/04/03 职场文书
邹越演讲观后感
2015/06/15 职场文书
什么是动态刷新率DRR? Windows11动态刷新率功能介绍
2021/11/21 数码科技