python3爬虫获取html内容及各属性值的方法


Posted in Python onDecember 17, 2018

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request

然后调用urlopen,读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帅
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找 
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值 通过href获取
html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python基于DES算法加密解密实例
Jun 03 Python
tensorflow实现简单的卷积网络
May 24 Python
Python交互环境下实现输入代码
Jun 22 Python
python3.x 生成3维随机数组实例
Nov 28 Python
Python使用gluon/mxnet模块实现的mnist手写数字识别功能完整示例
Dec 18 Python
python清空命令行方式
Jan 13 Python
解决python Jupyter不能导入外部包问题
Apr 15 Python
通过实例了解Python异常处理机制底层实现
Jul 23 Python
python的launcher用法知识点总结
Aug 07 Python
Python学习之time模块的基本使用
Jan 17 Python
Python中的min及返回最小值索引的操作
May 10 Python
Python 使用 Frame tkraise() 方法在 Tkinter 应用程序中的Frame之间切换
Apr 24 Python
解决Python中list里的中文输出到html模板里的问题
Dec 17 #Python
python实现三次样条插值
Dec 17 #Python
Python命名空间的本质和加载顺序
Dec 17 #Python
对python的unittest架构公共参数token提取方法详解
Dec 17 #Python
Python单元测试unittest的具体使用示例
Dec 17 #Python
Python使用Selenium爬取淘宝异步加载的数据方法
Dec 17 #Python
在scrapy中使用phantomJS实现异步爬取的方法
Dec 17 #Python
You might like
phpfans留言版用到的数据操作类和分页类
2007/01/04 PHP
PHP 5.5 创建和验证哈希最简单的方法详解
2013/11/07 PHP
php中base_convert()进制数字转换函数实例
2014/11/20 PHP
利用PHP如何写APP接口详解
2016/08/23 PHP
PHPMailer ThinkPHP实现自动发送邮件功能
2018/06/10 PHP
JS 添加网页桌面快捷方式的代码详细整理
2012/12/27 Javascript
firefox浏览器不支持innerText的解决方法
2013/08/07 Javascript
js页面跳转的问题(跳转到父页面、最外层页面、本页面)
2013/08/14 Javascript
JQuery中两个ul标签的li互相移动实现方法
2015/05/18 Javascript
javascript+HTML5的canvas实现七夕情人节3D玫瑰花效果代码
2015/08/04 Javascript
jquery拖拽效果完整实例(附demo源码下载)
2016/01/14 Javascript
详解Node.js模块间共享数据库连接的方法
2016/05/24 Javascript
JS DOMReady事件的六种实现方法总结
2016/11/23 Javascript
nodejs 搭建简易服务器的图文教程(推荐)
2017/07/18 NodeJs
Postman模拟发送带token的请求方法
2018/03/31 Javascript
Vue项目webpack打包部署到Tomcat刷新报404错误问题的解决方案
2018/05/15 Javascript
vue 下列表侧滑操作实例代码详解
2018/07/24 Javascript
微信小程序实现底部导航
2018/11/05 Javascript
React降级配置及Ant Design配置详解
2018/12/27 Javascript
JavaScript实现的弹出遮罩层特效经典示例【基于jQuery】
2019/07/10 jQuery
jQuery实现二级导航菜单的示例
2020/09/30 jQuery
python 循环while和for in简单实例
2016/08/16 Python
获取python的list中含有重复值的index方法
2018/06/27 Python
在django admin中添加自定义视图的例子
2019/07/26 Python
python实现网站用户名密码自动登录功能
2019/08/09 Python
基于Tensorflow高阶读写教程
2020/02/10 Python
简单了解Python变量作用域正确使用方法
2020/06/12 Python
pytorch 移动端部署之helloworld的使用
2020/10/30 Python
详解CSS3实现响应式手风琴效果
2020/06/10 HTML / CSS
迪士尼法国在线商店:shopDisney FR
2020/12/03 全球购物
小学生家长寄语
2014/04/02 职场文书
2014客服代表实习自我鉴定
2014/09/18 职场文书
八达岭长城导游词
2015/01/30 职场文书
社团个人总结范文
2015/03/05 职场文书
2015年党员创先争优公开承诺书
2015/04/27 职场文书
springboot+rabbitmq实现智能家居实例详解
2022/07/23 Java/Android