python3爬虫获取html内容及各属性值的方法


Posted in Python onDecember 17, 2018

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request

然后调用urlopen,读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帅
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找 
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值 通过href获取
html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python脚本在Appium库上对移动应用实现自动化测试
Apr 17 Python
Python学习小技巧之列表项的拼接
May 20 Python
使用XML库的方式,实现RPC通信的方法(推荐)
Jun 14 Python
在python中实现对list求和及求积
Nov 14 Python
Python 移动光标位置的方法
Jan 20 Python
python中pip的使用和修改下载源的方法
Jul 08 Python
pytorch获取vgg16-feature层输出的例子
Aug 20 Python
python爬虫之爬取百度音乐的实现方法
Aug 24 Python
淘宝秒杀python脚本 扫码登录版
Sep 19 Python
500行代码使用python写个微信小游戏飞机大战游戏
Oct 16 Python
python调用摄像头的示例代码
Sep 28 Python
python - asyncio异步编程
Apr 06 Python
解决Python中list里的中文输出到html模板里的问题
Dec 17 #Python
python实现三次样条插值
Dec 17 #Python
Python命名空间的本质和加载顺序
Dec 17 #Python
对python的unittest架构公共参数token提取方法详解
Dec 17 #Python
Python单元测试unittest的具体使用示例
Dec 17 #Python
Python使用Selenium爬取淘宝异步加载的数据方法
Dec 17 #Python
在scrapy中使用phantomJS实现异步爬取的方法
Dec 17 #Python
You might like
基于mysql的bbs设计(三)
2006/10/09 PHP
php通过COM类调用组件的实现代码
2012/01/11 PHP
php利用单例模式实现日志处理类库
2014/02/10 PHP
PHP调试的强悍利器之PHPDBG
2016/02/22 PHP
PHP实现加密文本文件并限制特定页面的存取的效果
2016/10/21 PHP
CakePHP框架Model关联对象用法分析
2017/08/04 PHP
解决使用attachEvent函数时,this指向被绑定的元素的问题的方法
2007/08/13 Javascript
JS学习之一个简易的日历控件
2010/03/24 Javascript
让ie运行js时提示允许阻止内容运行的解决方法
2010/10/24 Javascript
js对列表中第一个值处理与jsp页面对列表中第一个值处理的区别详解
2013/11/05 Javascript
JavaScript 开发工具webstrom使用指南
2014/12/09 Javascript
javascript操作表格排序实例分析
2015/05/06 Javascript
JavaScript中用于生成随机数的Math.random()方法
2015/06/15 Javascript
详细解读Jquery各Ajax函数($.get(),$.post(),$.ajax(),$.getJSON())
2016/08/15 Javascript
基于jquery实现的银行卡号每隔4位自动插入空格的实现代码
2016/11/22 Javascript
使用vue与jquery实时监听用户输入状态的操作代码
2017/09/19 jQuery
ES6解构赋值的功能与用途实例分析
2017/10/31 Javascript
详解vue+css3做交互特效的方法
2017/11/20 Javascript
vue中使用vue-router切换页面时滚动条自动滚动到顶部的方法
2017/11/28 Javascript
javaScript中&quot;==&quot;和&quot;===&quot;的区别详解
2018/03/16 Javascript
vue-cli 3.x 配置Axios(proxyTable)跨域代理方法
2018/09/19 Javascript
JavaScript常用工具函数大全
2020/05/06 Javascript
在Python中操作列表之list.extend()方法的使用
2015/05/20 Python
python opencv3实现人脸识别(windows)
2018/05/25 Python
python实现在图片上画特定大小角度矩形框
2018/10/24 Python
python3.6数独问题的解决
2019/01/21 Python
详解Python绘图Turtle库
2019/10/12 Python
Html5如何唤起百度地图App的方法
2019/01/27 HTML / CSS
天巡全球:Skyscanner Global
2017/06/20 全球购物
写一个函数返回1+2+3+…+n的值(假定结果不会超过长整型变量的范围)
2014/09/05 面试题
法律系毕业生自荐信范文
2014/03/27 职场文书
交通安全寄语大全
2014/04/08 职场文书
党校学习个人总结
2015/02/15 职场文书
2015年物业管理工作总结
2015/04/23 职场文书
2015年环卫工作总结
2015/04/28 职场文书
go语言中json数据的读取和写出操作
2021/04/28 Golang