python3爬虫获取html内容及各属性值的方法


Posted in Python onDecember 17, 2018

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request

然后调用urlopen,读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帅
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找 
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值 通过href获取
html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
讲解Python中fileno()方法的使用
May 24 Python
Python实现SVN的目录周期性备份实例
Jul 17 Python
python查看微信好友是否删除自己
Dec 19 Python
教你学会使用Python正则表达式
Sep 07 Python
使用Python+Splinter自动刷新抢12306火车票
Jan 03 Python
解决Python获取字典dict中不存在的值时出错问题
Oct 17 Python
解决python测试opencv时imread导致的错误问题
Jan 26 Python
Python中Numpy ndarray的使用详解
May 24 Python
Python 异步协程函数原理及实例详解
Nov 13 Python
Python实现栈和队列的简单操作方法示例
Nov 29 Python
Python3实现建造者模式的示例代码
Jun 28 Python
vscode配置anaconda3的方法步骤
Aug 08 Python
解决Python中list里的中文输出到html模板里的问题
Dec 17 #Python
python实现三次样条插值
Dec 17 #Python
Python命名空间的本质和加载顺序
Dec 17 #Python
对python的unittest架构公共参数token提取方法详解
Dec 17 #Python
Python单元测试unittest的具体使用示例
Dec 17 #Python
Python使用Selenium爬取淘宝异步加载的数据方法
Dec 17 #Python
在scrapy中使用phantomJS实现异步爬取的方法
Dec 17 #Python
You might like
mysq GBKl乱码
2006/11/28 PHP
PHP 类相关函数的使用详解
2013/05/10 PHP
PHP错误Warning: Cannot modify header information - headers already sent by解决方法
2014/09/27 PHP
Laravel框架FormRequest中重写错误处理的方法
2019/02/18 PHP
PHP+redis实现微博的拉模型案例详解
2019/07/10 PHP
Windows平台PHP+IECapt实现网页批量截图并创建缩略图功能详解
2019/08/02 PHP
PHP 构造函数和析构函数原理与用法分析
2020/04/21 PHP
jQuery+CSS 实现的超Sexy下拉菜单
2010/01/17 Javascript
jQuery 通过事件委派一次绑定多种事件,以减少事件冗余
2010/06/30 Javascript
关于js中window.location.href,location.href,parent.location.href,top.location.href的用法与区别
2010/10/18 Javascript
javascript 学习笔记(onchange等)
2010/11/14 Javascript
jQuery获取浏览器中的分辨率实现代码
2013/04/23 Javascript
JS获取各种浏览器窗口大小的方法
2014/01/14 Javascript
jquery实现上传文件大小类型的验证例子(推荐)
2016/06/25 Javascript
微信小程序实战之仿android fragment可滑动底部导航栏(4)
2020/04/16 Javascript
vue 使用ref 让父组件调用子组件的方法
2018/02/08 Javascript
Vue递归实现树形菜单方法实例
2018/11/06 Javascript
axios如何取消重复无用的请求详解
2019/12/15 Javascript
video.js添加自定义组件的方法
2020/12/09 Javascript
[09:40]DAC2018 4.5 SOLO赛 MidOne vs Miracle
2018/04/06 DOTA
[51:53]完美世界DOTA2联赛循环赛 LBZS vs DM BO2第二场 11.01
2020/11/02 DOTA
python用来获得图片exif信息的库实例分析
2015/03/16 Python
在Python下使用Txt2Html实现网页过滤代理的教程
2015/04/11 Python
Python base64编码解码实例
2015/06/21 Python
Python实现调度算法代码详解
2017/12/01 Python
设置python3为默认python的方法
2018/10/31 Python
Python动态导入模块:__import__、importlib、动态导入的使用场景实例分析
2020/03/30 Python
python3 googletrans超时报错问题及翻译工具优化方案 附源码
2020/12/23 Python
巴西葡萄酒销售网站:Wine.com.br
2017/11/07 全球购物
家长会演讲稿范文
2014/01/10 职场文书
《独坐敬亭山》教学反思
2014/04/08 职场文书
机械设备与数控技术专业求职信
2014/08/10 职场文书
2019大学生预备党员转正思想汇报
2019/06/21 职场文书
JS中一些高效的魔法运算符总结
2021/05/06 Javascript
Vue vee-validate插件的简单使用
2021/06/22 Vue.js
Vue组件更新数据v-model不生效的解决
2022/04/02 Vue.js