python3爬虫获取html内容及各属性值的方法


Posted in Python onDecember 17, 2018

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request

然后调用urlopen,读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帅
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找 
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值 通过href获取
html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用PyInstaller将Python程序文件转换为可执行程序文件
Jul 08 Python
django model去掉unique_together报错的解决方案
Oct 18 Python
python用户管理系统的实例讲解
Dec 23 Python
python 接口测试response返回数据对比的方法
Feb 11 Python
Python程序包的构建和发布过程示例详解
Jun 09 Python
Pandas库之DataFrame使用的学习笔记
Jun 21 Python
opencv python图像梯度实例详解
Feb 04 Python
Python2与Python3的区别详解
Feb 09 Python
Jupyter notebook无法导入第三方模块的解决方式
Apr 15 Python
使用Python对Dicom文件进行读取与写入的实现
Apr 20 Python
python中pickle模块浅析
Dec 29 Python
Python中对象的比较操作==和is区别详析
Feb 12 Python
解决Python中list里的中文输出到html模板里的问题
Dec 17 #Python
python实现三次样条插值
Dec 17 #Python
Python命名空间的本质和加载顺序
Dec 17 #Python
对python的unittest架构公共参数token提取方法详解
Dec 17 #Python
Python单元测试unittest的具体使用示例
Dec 17 #Python
Python使用Selenium爬取淘宝异步加载的数据方法
Dec 17 #Python
在scrapy中使用phantomJS实现异步爬取的方法
Dec 17 #Python
You might like
php数组函数序列之array_search()- 按元素值返回键名
2011/11/04 PHP
PHP遍历某个目录下的所有文件和子文件夹的实现代码
2013/06/28 PHP
CentOS6.5 编译安装lnmp环境
2014/12/21 PHP
Cygwin中安装PHP方法步骤
2015/07/04 PHP
CodeIgniter控制器之业务逻辑实例分析
2016/01/20 PHP
PHP实现的简单路由和类自动加载功能
2018/03/13 PHP
Laravel5.1 框架数据库操作DB运行原生SQL的方法分析
2020/01/07 PHP
来自国外的14个图片放大编辑的jQuery插件整理
2010/10/20 Javascript
c#和Javascript操作同一json对象的实现代码
2012/01/17 Javascript
JS保留两位小数 四舍五入函数的小例子
2013/11/20 Javascript
捕获和分析JavaScript Error的方法
2014/03/25 Javascript
JS中作用域和变量提升(hoisting)的深入理解
2016/10/31 Javascript
JavaScript中boolean类型之三种情景实例代码
2016/11/21 Javascript
基于JavaScript实现图片剪切效果
2017/03/07 Javascript
微信小程序实现滑动删除效果
2017/05/19 Javascript
JavaScript实现的级联算法示例【省市二级联动功能】
2018/12/25 Javascript
js中!和!!的区别与用法
2020/05/09 Javascript
简单介绍Python的轻便web框架Bottle
2015/04/08 Python
python+selenium实现登录账户后自动点击的示例
2017/12/22 Python
Python 爬取携程所有机票的实例代码
2018/06/11 Python
python中字符串内置函数的用法总结
2018/09/13 Python
python requests post多层字典的方法
2018/12/27 Python
详解Django-restframework 之频率源码分析
2019/02/27 Python
django 控制页面跳转的例子
2019/08/06 Python
Django中template for如何使用方法
2021/01/31 Python
CSS3.0实现霓虹灯按钮动画特效的示例代码
2021/01/12 HTML / CSS
高清屏下canvas重置尺寸引发的问题的解决
2019/10/14 HTML / CSS
AE美国鹰日本官方网站: American Eagle Outfitters
2016/12/10 全球购物
优秀的自荐信要注意哪些
2014/01/03 职场文书
冬季安全检查方案
2014/05/23 职场文书
寻衅滋事罪辩护词
2015/05/21 职场文书
三国演义读书笔记
2015/06/25 职场文书
2015年支教教师工作总结
2015/07/22 职场文书
小学课改工作总结
2015/08/13 职场文书
小学数学教学反思范文
2016/02/16 职场文书
Spring Cache和EhCache实现缓存管理方式
2021/06/15 Java/Android