Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析


Posted in Python onAugust 15, 2019

前言

要想学好爬虫,必须把基础打扎实,之前发布了两篇文章,分别是使用XPATH和requests爬取网页,今天的文章是学习Beautiful Soup并通过一个例子来实现如何使用Beautiful Soup爬取网页。

什么是Beautiful Soup

  • Beautiful Soup是一款高效的Python网页解析分析工具,可以用于解析HTL和XML文件并从中提取数据。
  • Beautiful Soup输入文件的默认编码是Unicode,输出文件的编码是UTF-8。
  • Beautiful Soup具有将输入文件自动补全的功能,如果输入的HTML文件的title标签没有闭合,则在输出的文件中会自动补全</title>,并且还可以将格式混乱的输入文件按照标准的缩进格式输出。

Beautiful Soup要和其他的解析器搭配使用,例如Python标准库中的HTML解析器和其他第三方的lxml解析器,由于lxml解析器速度快、容错能力强,因此一般和Beautiful Soup搭配使用。

初始化Beautiful Soup对象的代码:

html = 
'''
<html><title>Hello Beautiful Soup</title><p>Hello</p></html>
'''
soup = BeautifulSoup(html,'lxml')

只需把第二个参数写成”lxml”即可使用lxml解析器初始化Beautiful Soup对象。

Beautiful Soup提供了三种选择器用去爬取节点中的数据,分别是节点选择器、方法选择器和CSS选择器。下面分别介绍着三个选择器的用法。

节点选择器:

HTML网页有title、p、a、head、tr、td等节点。通过Beautiful Soup对象+”.”+节点即可直接访问到节点。 Beautiful Soup对象+”.”+节点+”.”+string即可提取到节点的文本信息。

用法 描述
soup.title 选择第一个title节点
soup.title.string 提取第一个title节点的文本信息
soup.title.attrs 获取第一个title节点的所有属性,返回的结果的词典。 如果有class属性,则class属性返回的是list,class属性之间以空格当做分隔符
soup.p.contents 获取第一个p节点的所有直接子节点。 该方法返回的是第一个p节点中包含的所有直接子字节点和文本, 不包含孙节点,两个节点之间的文本也当做是一个节点返回。 返回的结果是列表
soup.p.children 返回第一个p节点的所有直接子节点,返回的结果是list_iterator对象
soup.p.descendants 获取第一个p节点的所有子孙节点
soup.a.parent 获取第一个a节点的父节点
soup.a.parents 获取第一个a节点的所有祖先节点
soup.p.next_siblings 获取第一个p节点的下一个兄弟节点
soup.p.previous_siblings 获取第一个p节点的上一个兄弟节点

方法选择器:

根据传入的参数查找符合条件的节点。 下面是方法选择器提供的方法:

方法 描述
find_all(name,attrs,recursive,text,**kwargs) 根据传入参数查找所有符合条件的节点, name是节点名,attrs属性值,text文本内容等。 text参数可以是字符串,也可以是正则表达式: soup.find_all(text=re.compile(‘test'))
find(name,attrs,recursive,text,**kwargs) 返回第一个符合条件的节点
find_parents() 返回所有祖先节点
find_parent() 返回父节点
find_next_siblings() 往后查找,所有兄弟节点
find_next_sibling() 往后查找,返回第一个兄弟节点
find_previous_siblings() 往前查找,返回所有兄弟节点
find_previous_sibling() 往前查找,返回第一个兄弟节点

在使用上面的方法时,如果参数中有Python的关键字,则需要在参数下面加一个下划线,例如下面的代码,class是Python的关键字,必须在class后加下划线class_=”title_class”:

from bs4 import BeautifulSoup
html = '''
<html>
  <body>
    <title id="title_id" class="title_class" name="title name">Test BeautifulSoup</title>
    <p>
      <a href = "./test_beautifulsoup.html">test beautifulsoup link<a>
      
    </p>
    <ul>
      <li class="animal">cat</li>
      <li class="animal">dog</li>
    </ul>
  </body>
</html>
'''
soup = BeautifulSoup(html,'lxml')
print(soup.find_all(name='title',class_='title_class'))

CSS选择器:

BeautifulSoup还支持获取css元素,例如ul、div、li等元素。CSS选择器主要提供select()方法获取符合条件的节点(Tag对象),然后通过节点的get_text()方法和text属性可以获取该节点的文本值。

select方法还可以根据css的样式规则选择相应的节点:

from bs4 import BeautifulSoup

html = '''
<html>
  <body>
    <title id="title_id" class="title_class" name="title name">Test BeautifulSoup</title>
    <p>
      <a href = "./test_beautifulsoup.html">test beautifulsoup link<a>
      
    </p>
    <ul class="animal" id="aninal_id">
      <li class="cat">cat</li>
      <li class="animal dog">dog</li>
    </ul>
    <ul class="fruit" id = "fruit_id">
      <li class="apple">apple</li>
      <li class="banana">banana</li>
    </ul>
  </body>
</html>
'''
soup = BeautifulSoup(html,'lxml')
print('获取id为title_的所有节点')
print(soup.select('#title_id'))
print('获取class为title_的所有节点')
print(soup.select('.title_class'))
print('获取所有ul节点下面的所有li节点')
print(soup.select('ul li'))
print('获取所有class为fruit节点下的所有li节点')
print(soup.select('.fruit li'))
print('获取所有class为fruit节点下的第一个li节点的文本值')
print(soup.select('.fruit li')[0].string)
print('获取所有class为fruit节点下的第一个li节点的文本值')
print(soup.select('.fruit li')[0].get_text())
print('获取所有class为fruit节点下的第一个li节点的class属性值,注意class属性返回的是list列表,属性之间用空格分隔')
print(soup.select('.fruit li')[0].attrs['class'])
print(soup.select('.animal li')[1].attrs['class'])
print('循环迭代所有ul下面的所有li节点的文本值')
for li in soup.select('ul li'):
  print(li.text)

下面使用Beautiful Soup爬取豆瓣音乐排行榜。 在浏览器中打开豆瓣音乐排行榜,打开浏览器,输入网址:https://music.douban.com/chart,我们要抓取的是每首歌曲的排名、歌曲名、演唱者、播放次数、上榜天数等数据。

Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析

下面分析怎么通过beautiful soup抓取到我们的数据。 通过开发者工具,我们可以看到所有歌曲是在class为article的div中,然后每首个在class为clearfix的li中。

Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析

因此首先使用css选择器获取到class为article下面的所有li节点:

soup.select(".article li")

然后查看每首歌曲的html代码:

Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析

红色框部分是一首歌的html代码。 歌曲排名在class为“gree-num-box”的span节点中,因为span节点是<li class="clearfix">节点的子节点,获取排名的代码为:li.span.text

绿色框中A节点中是歌曲的链接和图片链接,获取歌曲链接的代码为:li.a['href']

蓝色框中是歌曲的名字、演唱者和播放次数,歌曲名是在class=”icon-play”的H3节点中,因此可以使用方法选择器中的find()方法获取到H3节点,然后获取H3节点下面a节点中的文本信息就是歌曲的名字,代码为:li.find(class_="icon-play").a.text

获取演唱者和播放次数的代码为: li.find(class_="intro").p.text.strip()

获取上榜天数的代码为:

li.find(class_="days").text.strip()

在豆瓣音乐排行榜的页面一个现实20首歌曲,前面10首歌曲会有图片,后面10首歌曲是没有图片的,因此后面10首歌曲将不获取图片的地址。

另外还有一点需要注意的是,后面10首歌曲的演唱者和播放次数是在class=”icon-play”的p节点中:

Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析

而该节点中有a节点,要想获取a节点外的信息,必须使用节点选择器的contents方法: li.find(class_="intro").p.contents[2].strip() contents返回的是p节点的直接子节点,以列表的形式返回,这里返回列表中有3个元素,分别是<p>后的字符串,a节点、演唱者/播次数。contents会将直接子节点之间的换行符也当做一个元素。 代码整理后如下:

# coding:utf-8

from bs4 import BeautifulSoup
import requests
def parseHtml(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"}

  response = requests.get(url,headers=headers)
  soup = BeautifulSoup(response.text,'lxml')
  #使用css选择器获取class="article"的节点下面的所有li节点
  for index,li in enumerate(soup.select(".article li")):
    if(index <10):
      print('歌曲排名:' + li.span.text)
      print('歌曲链接:' + li.a['href'])
      print('歌曲名:' + li.find(class_="icon-play").a.text)#使用方法选择器
      print('演唱者/播放次数:' + li.find(class_="intro").p.text.strip())
      print('上榜时间:'+li.find(class_="days").text.strip())
    else:
      print('歌曲排名:' + li.span.text)
      print('歌曲名:' + li.find(class_="icon-play").a.text)
      print('演唱者/播放次数:' + li.find(class_="intro").p.contents[2].strip())#方法选择器和节点选择器搭配使用
      print('上榜时间:' + li.find(class_="days").text.strip())
    print('—————————————————强力分隔符———————————————————')

def main():
  url = "https://music.douban.com/chart"
  parseHtml(url)

if __name__ == '__main__':
  main()

本文通过爬取豆瓣音乐排行榜的小项目学习了如何使用Beautiful Soup的节点选择器、方法选择器、CSS选择器来爬取一个网页。这三个选择器可以混合搭配使用。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python自动化测试之从命令行运行测试用例with verbosity
Sep 28 Python
python非递归全排列实现方法
Apr 10 Python
解决win64 Python下安装PIL出错问题(图解)
Sep 03 Python
python 自定义对象的打印方法
Jan 12 Python
图文详解Django使用Pycharm连接MySQL数据库
Aug 09 Python
python 动态调用函数实例解析
Oct 21 Python
基于python监控程序是否关闭
Jan 14 Python
tensorflow 实现从checkpoint中获取graph信息
Feb 10 Python
keras处理欠拟合和过拟合的实例讲解
May 25 Python
使用opencv中匹配点对的坐标提取方式
Jun 04 Python
python中requests模拟登录的三种方式(携带cookie/session进行请求网站)
Nov 17 Python
python引入其他文件夹下的py文件具体方法
May 23 Python
解析python的局部变量和全局变量
Aug 15 #Python
python实现的自动发送消息功能详解
Aug 15 #Python
python调用支付宝支付接口流程
Aug 15 #Python
Python使用字典实现的简单记事本功能示例
Aug 15 #Python
Flask框架学习笔记之模板操作实例详解
Aug 15 #Python
Flask框架学习笔记之消息提示与异常处理操作详解
Aug 15 #Python
python打造爬虫代理池过程解析
Aug 15 #Python
You might like
PHP中strlen()和mb_strlen()的区别浅析
2014/06/19 PHP
PHP生成不重复随机数的方法汇总
2014/11/19 PHP
Thinkphp整合微信支付功能
2016/12/14 PHP
Yii2第三方类库插件Imagine的安装和使用
2017/07/06 PHP
js类的静态属性和实例属性的理解
2009/10/01 Javascript
JavaScript 事件系统
2010/07/22 Javascript
ECMAScript 创建自己的js类库
2012/11/22 Javascript
jquery中插件实现自动添加用户的具体代码
2013/11/15 Javascript
javascript监听鼠标滚轮事件浅析
2014/06/05 Javascript
jQuery插件实现带圆点的焦点图片轮播切换
2016/01/18 Javascript
Javascript实现图片轮播效果(一)让图片跳动起来
2016/02/17 Javascript
扩展Bootstrap Tooltip插件使其可交互的方法
2016/11/07 Javascript
详解支持Angular 2的表格控件
2017/01/19 Javascript
JavaScript函数表达式详解及实例
2017/05/05 Javascript
Node.js 使用递归实现遍历文件夹中所有文件
2017/09/18 Javascript
Node使用Selenium进行前端自动化操作的代码实现
2019/10/10 Javascript
[05:45]Ti4观战指南(下)
2014/07/07 DOTA
探索Python3.4中新引入的asyncio模块
2015/04/08 Python
python实现人人自动回复、抢沙发功能
2018/06/08 Python
Python生成器generator用法示例
2018/08/10 Python
Python中*args和**kwargs的区别详解
2019/09/17 Python
Python读取excel文件中带公式的值的实现
2020/04/17 Python
查看jupyter notebook每个单元格运行时间实例
2020/04/22 Python
解决Keras中循环使用K.ctc_decode内存不释放的问题
2020/06/29 Python
Python2.x与3​​.x版本有哪些区别
2020/07/09 Python
Django ModelForm组件原理及用法详解
2020/10/12 Python
python爬虫如何解决图片验证码
2021/02/14 Python
CSS3 background-image颜色渐变的实现代码
2018/09/13 HTML / CSS
娇韵诗法国官网:Clarins法国
2019/01/29 全球购物
Python文件操作的面试题
2013/06/22 面试题
计算机软件个人的自荐信范文
2013/12/01 职场文书
银行营业厅大堂经理岗位职责
2014/01/06 职场文书
小学家长学校培训材料
2014/08/24 职场文书
学校党员干部承诺书
2015/05/04 职场文书
python基础之类属性和实例属性
2021/10/24 Python
PYTHON 使用 Pandas 删除某列指定值所在的行
2022/04/28 Python