python3爬虫获取html内容及各属性值的方法


Posted in Python onDecember 17, 2018

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request

然后调用urlopen,读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帅
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找 
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值 通过href获取
html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中防止sql注入的方法详解
Feb 25 Python
Python探索之修改Python搜索路径
Oct 25 Python
Python及Django框架生成二维码的方法分析
Jan 31 Python
对pandas进行数据预处理的实例讲解
Apr 20 Python
通过cmd进入python的实例操作
Jun 26 Python
Python dict和defaultdict使用实例解析
Mar 12 Python
mac 上配置Pycharm连接远程服务器并实现使用远程服务器Python解释器的方法
Mar 19 Python
浅谈在JupyterNotebook下导入自己的模块的问题
Apr 16 Python
python中元组的用法整理
Jun 15 Python
Python求区间正整数内所有素数之和的方法实例
Oct 13 Python
Python实现小黑屋游戏的完整实例
Jan 06 Python
Python之qq自动发消息的示例代码
Feb 18 Python
解决Python中list里的中文输出到html模板里的问题
Dec 17 #Python
python实现三次样条插值
Dec 17 #Python
Python命名空间的本质和加载顺序
Dec 17 #Python
对python的unittest架构公共参数token提取方法详解
Dec 17 #Python
Python单元测试unittest的具体使用示例
Dec 17 #Python
Python使用Selenium爬取淘宝异步加载的数据方法
Dec 17 #Python
在scrapy中使用phantomJS实现异步爬取的方法
Dec 17 #Python
You might like
关于手调机和数调机的选择
2021/03/02 无线电
咖啡常见的种类
2021/03/03 新手入门
10个可以简化php开发过程的MySQL工具
2010/04/11 PHP
解析在PHP中使用全局变量的几种方法
2013/06/24 PHP
PHP多文件上传实例
2015/07/09 PHP
PHP7.3.10编译安装教程
2019/10/08 PHP
js获取TreeView控件选中节点的Text和Value值的方法
2012/11/24 Javascript
解决js正则匹配换行问题实现代码
2012/12/10 Javascript
利用js的Node遍历找到repeater的一个字段实例介绍
2013/04/25 Javascript
jquery操作复选框(checkbox)的12个小技巧总结
2014/02/04 Javascript
Jquery Ajax解析XML数据(同步及异步调用)简单实例
2014/02/12 Javascript
js实现密码强度检验
2017/01/15 Javascript
js封装成插件_Canvas统计图插件编写实例
2017/09/12 Javascript
解决vue build打包之后首页白屏的问题
2018/03/06 Javascript
vue-router3.0版本中 router.push 不能刷新页面的问题
2018/05/10 Javascript
利用chrome浏览器进行js调试并找出元素绑定的点击事件详解
2021/01/30 Javascript
通过JS深度判断两个对象字段相同
2019/06/14 Javascript
layui 上传图片 返回图片地址的方法
2019/09/26 Javascript
vue 自定义右键样式的实例代码
2019/11/06 Javascript
jquery绑定事件 bind和on的用法与区别分析
2020/05/22 jQuery
为Python程序添加图形化界面的教程
2015/04/29 Python
Python continue继续循环用法总结
2018/06/10 Python
在python中利用KNN实现对iris进行分类的方法
2018/12/11 Python
python 函数中的内置函数及用法详解
2019/07/02 Python
Python OrderedDict字典排序方法详解
2020/05/21 Python
Pytorch框架实现mnist手写库识别(与tensorflow对比)
2020/07/20 Python
使用HTML5 Canvas API绘制弧线的教程
2016/03/22 HTML / CSS
加拿大消费电子和手机购物网站:The Source
2017/01/28 全球购物
巴西购物网站:Onofre Agora
2020/06/08 全球购物
运动会广播稿150字(9篇)
2014/09/20 职场文书
财务工作检讨书
2014/10/29 职场文书
幼儿教师小班个人总结
2015/02/05 职场文书
婚宴新郎致辞
2015/07/28 职场文书
利用js实现简单开关灯代码
2021/11/23 Javascript
微信小程序中使用vant框架的具体步骤
2022/02/18 Javascript
新的CSS 伪类函数 :is() 和 :where()示例详解
2022/08/05 HTML / CSS