python3爬虫获取html内容及各属性值的方法


Posted in Python onDecember 17, 2018

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request

然后调用urlopen,读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帅
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找 
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值 通过href获取
html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
centos系统升级python 2.7.3
Jul 03 Python
Python selenium 三种等待方式解读
Sep 15 Python
Python 登录网站详解及实例
Apr 11 Python
Python自定义线程类简单示例
Mar 23 Python
神经网络相关之基础概念的讲解
Dec 29 Python
python print出共轭复数的方法详解
Jun 25 Python
基于python3 pyQt5 QtDesignner实现窗口化猜数字游戏功能
Jul 15 Python
Python将视频或者动态图gif逐帧保存为图片的方法
Sep 10 Python
Python如何实现小程序 无限求和平均
Feb 18 Python
Python读写锁实现实现代码解析
Nov 28 Python
一篇文章带你搞懂Python类的相关知识
May 20 Python
python 使用tkinter与messagebox写界面和弹窗
Mar 20 Python
解决Python中list里的中文输出到html模板里的问题
Dec 17 #Python
python实现三次样条插值
Dec 17 #Python
Python命名空间的本质和加载顺序
Dec 17 #Python
对python的unittest架构公共参数token提取方法详解
Dec 17 #Python
Python单元测试unittest的具体使用示例
Dec 17 #Python
Python使用Selenium爬取淘宝异步加载的数据方法
Dec 17 #Python
在scrapy中使用phantomJS实现异步爬取的方法
Dec 17 #Python
You might like
叫你如何修改Nginx与PHP的文件上传大小限制
2014/09/10 PHP
PHP制作3D扇形统计图以及对图片进行缩放操作实例
2014/10/23 PHP
php编程中echo用逗号和用点号连接的区别
2016/03/26 PHP
thinkPHP+PHPExcel实现读取文件日期的方法(含时分秒)
2016/07/07 PHP
PHP面向对象程序设计之对象生成方法详解
2016/12/02 PHP
PHP程序员学习使用Swoole的理由
2018/06/24 PHP
Js控制弹窗实现在任意分辨率下居中显示
2013/08/01 Javascript
Bootstrap每天必学之下拉菜单
2015/11/25 Javascript
javascript和jquery实现用户登录验证
2016/05/04 Javascript
JavaScript判断页面加载完之后再执行预定函数的技巧
2016/05/17 Javascript
JS+CSS3实现超炫的散列画廊特效
2016/07/16 Javascript
深入理解Angularjs中$http.post与$.post
2017/05/19 Javascript
解决select2在bootstrap modal中不能正常使用的问题
2018/08/09 Javascript
对Vue- 动态元素属性及v-bind和v-model的区别详解
2018/08/27 Javascript
对Vue table 动态表格td可编辑的方法详解
2018/08/28 Javascript
Vue源码解析之数据响应系统的使用
2019/04/24 Javascript
js实现随机抽奖
2020/03/19 Javascript
python3模拟百度登录并实现百度贴吧签到示例分享(百度贴吧自动签到)
2014/02/24 Python
用C++封装MySQL的API的教程
2015/05/06 Python
python实现爬虫统计学校BBS男女比例之多线程爬虫(二)
2015/12/31 Python
Python 安装setuptools和pip工具操作方法(必看)
2017/05/22 Python
python3+selenium实现126邮箱登陆并发送邮件功能
2019/01/23 Python
python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比
2019/04/15 Python
Flask框架钩子函数功能与用法分析
2019/08/02 Python
Python表达式的优先级详解
2020/02/18 Python
小学生自我评价范例
2013/09/24 职场文书
大一学生的职业生涯规划书范文
2014/01/19 职场文书
社区庆八一活动方案
2014/02/02 职场文书
市场营销策划方案
2014/06/11 职场文书
学校节能宣传周活动总结
2014/07/09 职场文书
喝酒驾驶检讨书
2014/10/01 职场文书
教师党的群众路线学习心得体会
2014/11/04 职场文书
2016年春季趣味运动会开幕词
2016/03/04 职场文书
公司年会晚会开幕词
2019/04/02 职场文书
利用Python实现Picgo图床工具
2021/11/23 Python
vue如何使用模拟的json数据查看效果
2022/03/31 Vue.js