编程 Python

python3爬虫获取html内容及各属性值的方法

Posted in Python onDecember 17, 2018

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request

然后调用urlopen，读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

这里我们就不请求数据了，直接用本地的html代码，如下

注意：”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帅
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象，接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找 
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值 通过href获取
html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python3爬虫获取html内容及各属性值的方法

- Author -

android-李志强

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Django中实现点击图片链接强制直接下载的方法

May 14 Python

浅谈Python浅拷贝、深拷贝及引用机制

Dec 15 Python

python实现随机调用一个浏览器打开网页

Apr 21 Python

python中的decorator的作用详解

Jul 26 Python

python+splinter自动刷新抢票功能

Sep 25 Python

python查找指定文件夹下所有文件并按修改时间倒序排列的方法

Oct 21 Python

python实现简易动态时钟

Nov 19 Python

使用Python实现微信提醒备忘录功能

Dec 04 Python

对python中的os.getpid()和os.fork()函数详解

Aug 08 Python

python中字典按键或键值排序的实现代码

Aug 27 Python

Python3打包exe代码2种方法实例解析

Feb 17 Python

python_tkinter弹出对话框创建

Mar 20 Python

解决Python中list里的中文输出到html模板里的问题

Dec 17 #Python

python实现三次样条插值

Dec 17 #Python

Python命名空间的本质和加载顺序

Dec 17 #Python

对python的unittest架构公共参数token提取方法详解

Dec 17 #Python

Python单元测试unittest的具体使用示例

Dec 17 #Python

Python使用Selenium爬取淘宝异步加载的数据方法

Dec 17 #Python

在scrapy中使用phantomJS实现异步爬取的方法

Dec 17 #Python

You might like

php中选择什么接口(mysql、mysqli)访问mysql

2013/02/06 PHP

深入探讨<br />和 \r\n两者有什么区别??

2013/06/05 PHP

基于linnux+phantomjs实现生成图片格式的网页快照

2015/04/15 PHP

smarty高级特性之对象的使用方法

2015/12/25 PHP

YII2框架中excel表格导出的方法详解

2017/07/21 PHP

基于thinkphp6.0的success、error实现方法

2019/11/05 PHP

JQuery 表格操作(交替显示、拖动表格行、选择行等)

2009/07/29 Javascript

jQuery截取指定长度字符串代码

2014/08/21 Javascript

javascript刷新父页面的各种方法汇总

2014/09/03 Javascript

javascript实现省市区三级联动下拉框菜单

2015/11/17 Javascript

jQuery绑定事件的几种实现方式

2016/05/09 Javascript

js获取对象、数组的实际长度,元素实际个数的实现代码

2016/06/08 Javascript

js HTML5上传示例代码完整版

2016/10/10 Javascript

js for循环倒序输出数组元素的实例

2017/03/01 Javascript

通过fastclick源码分析彻底解决tap“点透”

2017/12/24 Javascript

Vue Element使用icon图标教程详解(第三方)

2018/02/07 Javascript

JavaScript实现多叉树的递归遍历和非递归遍历算法操作示例

2018/02/08 Javascript

详解webpack loader和plugin编写

2018/10/12 Javascript

如何在JavaScript中谨慎使用代码注释

2019/06/21 Javascript

细说webpack6 Babel的使用详解

2019/09/26 Javascript

关于layui 实现点击按钮添加一行(方法渲染创建的table)

2019/09/29 Javascript

[46:44]VG vs TNC Supermajor小组赛B组败者组决赛 BO3 第一场 6.2

2018/06/03 DOTA

Python linecache.getline()读取文件中特定一行的脚本

2008/09/06 Python

Python读取一个目录下所有目录和文件的方法

2016/07/15 Python

基于python历史天气采集的分析

2019/02/14 Python

python中树与树的表示知识点总结

2019/09/14 Python

jupyter实现重新加载模块

2020/04/16 Python

使用Python防止SQL注入攻击的实现示例

2020/05/21 Python

Python利用imshow制作自定义渐变填充柱状图(colorbar)

2020/12/10 Python

物业管理公司实习生自我鉴定

2013/09/19 职场文书

感恩节红领巾广播稿

2014/02/11 职场文书

组工干部对照检查材料

2014/08/25 职场文书

工伤事故赔偿协议书

2014/10/27 职场文书

破坏寝室公物检讨书

2014/11/17 职场文书

Pytorch数据读取之Dataset和DataLoader知识总结

2021/05/23 Python

Win10系统下配置Java环境变量

2021/06/13 Java/Android