python3爬虫获取html内容及各属性值的方法


Posted in Python onDecember 17, 2018

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request

然后调用urlopen,读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帅
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找 
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值 通过href获取
html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中使用Beautiful Soup库的超详细教程
Apr 30 Python
PHP网页抓取之抓取百度贴吧邮箱数据代码分享
Apr 13 Python
Django的信号机制详解
May 05 Python
python 环境变量和import模块导入方法(详解)
Jul 11 Python
Python爬虫常用小技巧之设置代理IP
Sep 13 Python
python 实现数字字符串左侧补零的方法
Dec 04 Python
对dataframe数据之间求补集的实例详解
Jan 30 Python
关于django 1.10 CSRF验证失败的解决方法
Aug 31 Python
Python yield生成器和return对比代码实例
Apr 20 Python
python爬虫把url链接编码成gbk2312格式过程解析
Jun 08 Python
Python如何解决secure_filename对中文不支持问题
Jul 16 Python
Python 数据可视化神器Pyecharts绘制图像练习
Feb 28 Python
解决Python中list里的中文输出到html模板里的问题
Dec 17 #Python
python实现三次样条插值
Dec 17 #Python
Python命名空间的本质和加载顺序
Dec 17 #Python
对python的unittest架构公共参数token提取方法详解
Dec 17 #Python
Python单元测试unittest的具体使用示例
Dec 17 #Python
Python使用Selenium爬取淘宝异步加载的数据方法
Dec 17 #Python
在scrapy中使用phantomJS实现异步爬取的方法
Dec 17 #Python
You might like
用PHP实现图象锐化代码
2007/06/14 PHP
如何在PHP程序中防止盗链
2008/04/09 PHP
php中使用Curl、socket、file_get_contents三种方法POST提交数据
2011/08/12 PHP
PHP去掉从word直接粘贴过来的没有用格式的函数
2012/10/29 PHP
基于Zend的Captcha机制的应用
2013/05/02 PHP
php序列化函数serialize() 和 unserialize() 与原生函数对比
2015/05/08 PHP
PHP + plupload.js实现多图上传并显示进度条加删除实例代码
2017/03/06 PHP
javascript ajax 仿百度分页函数
2013/10/29 Javascript
正则表达式中特殊符号及正则表达式的几种方法总结(replace,test,search)
2013/11/26 Javascript
jQuery获得内容和属性方法及示例
2013/12/02 Javascript
window.location 对象所包含的属性
2014/10/10 Javascript
javascript二维数组转置实例
2015/01/22 Javascript
JS+CSS实现可以凹陷显示选中单元格的方法
2015/03/02 Javascript
JavaScript判断DIV内容是否为空的方法
2016/01/29 Javascript
jquery获取复选框checkbox的值的简单实现方法
2016/05/26 Javascript
angular源码学习第一篇 setupModuleLoader方法
2016/10/20 Javascript
AngularJS动态加载模块和依赖的方法分析
2016/11/08 Javascript
jQuery实现自动调用和触发某个事件的方法
2016/11/18 Javascript
微信小程序使用swiper组件实现类3D轮播图
2018/08/29 Javascript
解决ng-repeat产生的ng-model中取不到值的问题
2018/10/02 Javascript
微信小程序时间戳转日期的详解
2019/04/30 Javascript
恢复百度云盘本地误删的文件脚本(简单方法)
2017/10/21 Python
Django 自定义权限管理系统详解(通过中间件认证)
2020/03/11 Python
Python如何执行精确的浮点数运算
2020/07/31 Python
localStorage 设置过期时间的方法实现
2018/12/21 HTML / CSS
美国顶级户外凉鞋品牌:Chacos
2017/03/27 全球购物
解释一下钝化(Swap out)
2016/12/26 面试题
小学清明节活动方案
2014/03/08 职场文书
关爱留守儿童倡议书
2014/04/15 职场文书
争先创优活动总结
2014/08/27 职场文书
整顿机关作风心得体会
2014/09/10 职场文书
工作时间擅自离岗检讨书
2014/10/24 职场文书
企业财务总监岗位职责
2015/04/03 职场文书
Mysql数据库命令大全
2021/05/26 MySQL
Mysql忘记密码解决方法
2022/02/12 MySQL
Go Grpc Gateway兼容HTTP协议文档自动生成网关
2022/06/16 Golang