python3爬虫获取html内容及各属性值的方法


Posted in Python onDecember 17, 2018

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request

然后调用urlopen,读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帅
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找 
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值 通过href获取
html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python socket 超时设置 errno 10054
Jul 01 Python
python实现自动重启本程序的方法
Jul 09 Python
在Python的Flask框架中验证注册用户的Email的方法
Sep 02 Python
解析Python中的eval()、exec()及其相关函数
Dec 20 Python
python爬取内容存入Excel实例
Feb 20 Python
matplotlib实现区域颜色填充
Mar 18 Python
Python 图像处理: 生成二维高斯分布蒙版的实例
Jul 04 Python
python导包的几种方法(自定义包的生成以及导入详解)
Jul 15 Python
Python 抓取数据存储到Redis中的操作
Jul 16 Python
Python 按比例获取样本数据或执行任务的实现代码
Dec 03 Python
Django基础CBV装饰器和中间件
Mar 22 Python
Python绘制散点图之可视化神器pyecharts
Jul 07 Python
解决Python中list里的中文输出到html模板里的问题
Dec 17 #Python
python实现三次样条插值
Dec 17 #Python
Python命名空间的本质和加载顺序
Dec 17 #Python
对python的unittest架构公共参数token提取方法详解
Dec 17 #Python
Python单元测试unittest的具体使用示例
Dec 17 #Python
Python使用Selenium爬取淘宝异步加载的数据方法
Dec 17 #Python
在scrapy中使用phantomJS实现异步爬取的方法
Dec 17 #Python
You might like
浅析PHP原理之变量(Variables inside PHP)
2013/08/09 PHP
PHP IE中下载附件问题解决方法
2014/01/07 PHP
跟我学Laravel之请求与输入
2014/10/15 PHP
如何利用预加载优化Laravel Model查询详解
2017/08/11 PHP
PHP实现数组的笛卡尔积运算示例
2017/12/15 PHP
分享一个用Mootools写的鼠标滑过进度条改变进度值的实现代码
2011/12/12 Javascript
JavaScript检测鼠标移动方向的方法
2015/05/22 Javascript
jQuery获取当前点击的对象元素(实现代码)
2016/05/19 Javascript
javascript学习之json入门
2016/12/22 Javascript
codeMirror插件使用讲解
2017/01/16 Javascript
AngularJS的ng-repeat指令与scope继承关系实例详解
2017/01/21 Javascript
bootstrap table表格插件使用详解
2017/05/08 Javascript
基于百度地图api清除指定覆盖物(Overlay)的方法
2018/01/26 Javascript
vue-router实现编程式导航的代码实例
2019/01/19 Javascript
使用webpack搭建vue项目实现脚手架功能
2019/03/15 Javascript
vue-cli3添加模式配置多环境变量的方法
2019/06/05 Javascript
vue render函数动态加载img的src路径操作
2020/10/26 Javascript
vue使用过滤器格式化日期
2021/01/20 Vue.js
快速了解Python开发中的cookie及简单代码示例
2018/01/17 Python
Python使用numpy实现BP神经网络
2018/03/10 Python
Django外键(ForeignKey)操作以及related_name的作用详解
2019/07/29 Python
django将网络中的图片,保存成model中的ImageField的实例
2019/08/07 Python
Python selenium页面加载慢超时的解决方案
2020/03/18 Python
Keras预训练的ImageNet模型实现分类操作
2020/07/07 Python
python批量生成条形码的示例
2020/10/10 Python
如何将anaconda安装配置的mmdetection环境离线拷贝到另一台电脑
2020/10/15 Python
英国剑桥包官网:The Cambridge Satchel Company
2016/08/01 全球购物
服务生自我鉴定
2014/01/22 职场文书
2014年党务公开方案
2014/05/08 职场文书
财务管理专业求职信
2014/06/11 职场文书
一般党员对照检查材料
2014/09/24 职场文书
西柏坡导游词
2015/02/05 职场文书
三孔导游词
2015/02/05 职场文书
汶川大地震感悟
2015/08/10 职场文书
golang 实用库gotable的具体使用
2021/07/01 Golang
Node.js实现爬取网站图片的示例代码
2022/04/04 NodeJs