python3爬虫获取html内容及各属性值的方法


Posted in Python onDecember 17, 2018

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request

然后调用urlopen,读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帅
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找 
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值 通过href获取
html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中尾递归用法实例详解
Apr 28 Python
python更新列表的方法
Jul 28 Python
Python中列表list以及list与数组array的相互转换实现方法
Sep 22 Python
Python实现将MySQL数据库表中的数据导出生成csv格式文件的方法
Jan 11 Python
flask中的wtforms使用方法
Jul 21 Python
PyQt5图形界面播放音乐的实例
Jun 17 Python
如何通过50行Python代码获取公众号全部文章
Jul 12 Python
python批量读取文件名并写入txt文件中
Sep 05 Python
python字符串的拼接方法总结
Nov 18 Python
在django中使用post方法时,需要增加csrftoken的例子
Mar 13 Python
Python 没有main函数的原因
Jul 10 Python
如何使用python socket模块实现简单的文件下载
Sep 04 Python
解决Python中list里的中文输出到html模板里的问题
Dec 17 #Python
python实现三次样条插值
Dec 17 #Python
Python命名空间的本质和加载顺序
Dec 17 #Python
对python的unittest架构公共参数token提取方法详解
Dec 17 #Python
Python单元测试unittest的具体使用示例
Dec 17 #Python
Python使用Selenium爬取淘宝异步加载的数据方法
Dec 17 #Python
在scrapy中使用phantomJS实现异步爬取的方法
Dec 17 #Python
You might like
php 无法载入mysql扩展
2010/03/12 PHP
基于PHP+Ajax实现表单验证的详解
2013/06/25 PHP
PHP制作图形验证码代码分享
2014/10/23 PHP
php+mysql结合Ajax实现点赞功能完整实例
2015/01/30 PHP
php保存任意网络图片到服务器的方法
2015/04/14 PHP
PHP判断密码强度的方法详解
2017/05/26 PHP
调用js时ie6和ie7,ff的区别
2009/08/19 Javascript
javascript动态添加表格数据行(ASP后台数据库保存例子)
2010/05/08 Javascript
JavaScript利用正则表达式去除日期中的-
2014/06/09 Javascript
jquery地址栏链接与a标签链接匹配之特效代码总结
2015/08/24 Javascript
input点击后placeholder中的提示消息消失
2016/01/15 Javascript
BootStrap与validator 使用笔记(JAVA SpringMVC实现)
2016/09/21 Javascript
D3.js实现饼状图的方法详解
2016/09/21 Javascript
利用Js+Css实现折纸动态导航效果实例源码
2017/01/25 Javascript
node.js中debug模块的简单介绍与使用
2017/04/25 Javascript
Angular 2 ngForm中的ngModel、[ngModel]和[(ngModel)]的写法
2017/06/29 Javascript
JavaScript 值类型和引用类型的初次研究(推荐)
2017/07/19 Javascript
Vue+Element使用富文本编辑器的示例代码
2017/08/14 Javascript
AngularJS表单验证功能
2017/10/19 Javascript
vue axios请求频繁时取消上一次请求的方法
2018/11/10 Javascript
详解javascript 变量提升(Hoisting)
2019/03/12 Javascript
vue实现表格过滤功能
2019/09/27 Javascript
js最全的数组的降维5种办法(小结)
2020/04/28 Javascript
vue-simple-uploader上传成功之后的response获取代码
2020/09/07 Javascript
python中的sort方法使用详解
2014/07/25 Python
Python实现自动为照片添加日期并分类的方法
2017/09/30 Python
Python实现批量读取图片并存入mongodb数据库的方法示例
2018/04/02 Python
Python学习笔记之图片人脸检测识别实例教程
2019/03/06 Python
Python将视频或者动态图gif逐帧保存为图片的方法
2019/09/10 Python
python爬虫泛滥的解决方法详解
2020/11/25 Python
有abstract方法的类一定要用abstract修饰吗
2016/03/14 面试题
电气工程及自动化专业自荐书范文
2013/12/18 职场文书
《月迹》教学反思
2014/02/19 职场文书
夫妻分居协议书范文
2014/11/26 职场文书
2016应届毕业生自荐信范文
2016/01/28 职场文书
SQL Server中的逻辑函数介绍
2022/05/25 SQL Server