python3爬虫获取html内容及各属性值的方法


Posted in Python onDecember 17, 2018

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request

然后调用urlopen,读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帅
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找 
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值 通过href获取
html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Django中实现点击图片链接强制直接下载的方法
May 14 Python
浅谈Python浅拷贝、深拷贝及引用机制
Dec 15 Python
python实现随机调用一个浏览器打开网页
Apr 21 Python
python中的decorator的作用详解
Jul 26 Python
python+splinter自动刷新抢票功能
Sep 25 Python
python查找指定文件夹下所有文件并按修改时间倒序排列的方法
Oct 21 Python
python实现简易动态时钟
Nov 19 Python
使用Python实现微信提醒备忘录功能
Dec 04 Python
对python中的os.getpid()和os.fork()函数详解
Aug 08 Python
python中字典按键或键值排序的实现代码
Aug 27 Python
Python3打包exe代码2种方法实例解析
Feb 17 Python
python_tkinter弹出对话框创建
Mar 20 Python
解决Python中list里的中文输出到html模板里的问题
Dec 17 #Python
python实现三次样条插值
Dec 17 #Python
Python命名空间的本质和加载顺序
Dec 17 #Python
对python的unittest架构公共参数token提取方法详解
Dec 17 #Python
Python单元测试unittest的具体使用示例
Dec 17 #Python
Python使用Selenium爬取淘宝异步加载的数据方法
Dec 17 #Python
在scrapy中使用phantomJS实现异步爬取的方法
Dec 17 #Python
You might like
php中选择什么接口(mysql、mysqli)访问mysql
2013/02/06 PHP
深入探讨<br />和 \r\n两者有什么区别??
2013/06/05 PHP
基于linnux+phantomjs实现生成图片格式的网页快照
2015/04/15 PHP
smarty高级特性之对象的使用方法
2015/12/25 PHP
YII2框架中excel表格导出的方法详解
2017/07/21 PHP
基于thinkphp6.0的success、error实现方法
2019/11/05 PHP
JQuery 表格操作(交替显示、拖动表格行、选择行等)
2009/07/29 Javascript
jQuery截取指定长度字符串代码
2014/08/21 Javascript
javascript刷新父页面的各种方法汇总
2014/09/03 Javascript
javascript实现省市区三级联动下拉框菜单
2015/11/17 Javascript
jQuery绑定事件的几种实现方式
2016/05/09 Javascript
js获取对象、数组的实际长度,元素实际个数的实现代码
2016/06/08 Javascript
js HTML5上传示例代码完整版
2016/10/10 Javascript
js for循环倒序输出数组元素的实例
2017/03/01 Javascript
通过fastclick源码分析彻底解决tap“点透”
2017/12/24 Javascript
Vue Element使用icon图标教程详解(第三方)
2018/02/07 Javascript
JavaScript实现多叉树的递归遍历和非递归遍历算法操作示例
2018/02/08 Javascript
详解webpack loader和plugin编写
2018/10/12 Javascript
如何在JavaScript中谨慎使用代码注释
2019/06/21 Javascript
细说webpack6 Babel的使用详解
2019/09/26 Javascript
关于layui 实现点击按钮添加一行(方法渲染创建的table)
2019/09/29 Javascript
[46:44]VG vs TNC Supermajor小组赛B组败者组决赛 BO3 第一场 6.2
2018/06/03 DOTA
Python linecache.getline()读取文件中特定一行的脚本
2008/09/06 Python
Python读取一个目录下所有目录和文件的方法
2016/07/15 Python
基于python历史天气采集的分析
2019/02/14 Python
python中树与树的表示知识点总结
2019/09/14 Python
jupyter实现重新加载模块
2020/04/16 Python
使用Python防止SQL注入攻击的实现示例
2020/05/21 Python
Python利用imshow制作自定义渐变填充柱状图(colorbar)
2020/12/10 Python
物业管理公司实习生自我鉴定
2013/09/19 职场文书
感恩节红领巾广播稿
2014/02/11 职场文书
组工干部对照检查材料
2014/08/25 职场文书
工伤事故赔偿协议书
2014/10/27 职场文书
破坏寝室公物检讨书
2014/11/17 职场文书
Pytorch数据读取之Dataset和DataLoader知识总结
2021/05/23 Python
Win10系统下配置Java环境变量
2021/06/13 Java/Android