编程 Python

python爬虫之爬取百度音乐的实现方法

Posted in Python onAugust 24, 2019

在上次的爬虫中，抓取的数据主要用到的是第三方的Beautifulsoup库，然后对每一个具体的数据在网页中的selecter来找到它，每一个类别便有一个select方法。对网页有过接触的都知道很多有用的数据都放在一个共同的父节点上，只是其子节点不同。在上次爬虫中，每一类数据都要从其父类（包括其父节点的父节点）上往下寻找ROI数据所在的子节点，这样就会使爬虫很臃肿，因为很多数据有相同的父节点，每次都要重复的找到这个父节点。这样的爬虫效率很低。

因此，笔者在上次的基础上，改进了一下爬取的策略，笔者以实例来描述。

如图，笔者此次爬取的是百度音乐的页面，所爬取的类容是上面榜单下的所有内容（歌曲名，歌手，排名）。如果按照上次的爬虫的方法便要写上三个select方法，分别抓取歌曲名，歌手，排名，但笔者观察得知这三项数据皆放在一个li标签内，如图：

python爬虫之爬取百度音乐的实现方法

这样我们是不是直接抓取ul标签，再分析其中的数据便可得到全部数据了？答案是，当然可以。

但Beaufulsoup不能直接提供这样的方法，但Python无所不能，python里面自带的re模块是我见过最迷人的模块之一。它能在字符串中找到我们让我们roi的区域，上述的li标签中包含了我们需要的歌曲名，歌手，排名数据，我们只需要在li标签中通过re.findall()方法，便可找到我们需要的数据。这样就能够大大提升我们爬虫的效率。

我们先来直接分析代码：

def parse_one_page(html): 
 soup = BeautifulSoup(html, 'lxml') 
 data = soup.select('div.ranklist-wrapper.clearfix div.bd ul.song-list li') 
 pattern1 = re.compile(r'<li.*?<div class="index">(.*?)</div>.*?title="(.*?)".*?title="(.*?)".*?</li>', re.S) 
 pattern2 = re.compile(r'<li.*?<div class="index">(.*?)</div>.*?title="(.*?)".*?target="_blank">(.*?)</a>', re.S) 
 
 wants = [] 
 for item in data: 
  # print(item) 
  final = re.findall(pattern1, str(item)) 
  if len(final) == 1: 
   # print(final[0]) 
   wants.append(final[0]) 
  else: 
   other = re.findall(pattern2, str(item)) 
   # print(other[0]) 
   wants.append(other[0]) 
 return wants

上面的代码是我分析网页数据的全部代码，这里不得不说python语言的魅力，数十行代码便能完成java100行的任务，C/C++1000行的任务。上述函数中，笔者首先通过Beautifulsoup得到该网页的源代码，再通过select()方法得到所有li标签中的数据。

到这里，这个爬虫便要进入到最重要的环节了，相信很多不懂re模块的童靴们有点慌张，在这里笔者真的是强烈推荐对python有兴趣的童靴们一定要学习这个非常重要的一环。首先，我们知道re的方法大多只针对string型数据，因此我们调用str()方法将每个list中的数据（即item）转换为string型。然后便是定义re的pattern了，这是个稍显复杂的东西，其中主要用到re.compile()函数得到要在string中配对的pattern，这里笔者便不累述了，感兴趣的童靴可以去网上查阅一下资料。

上述代码中，笔者写了两个pattern，因为百度音乐的网页里，li标签有两个结构，当用一个pattern在li中找不到数据时，便使用另一个pattern。关于re.findadd()方法，它会返回一个list，里面装着tuple，但其实我们知道我们找到的数据就是list[0]，再将每个数据添加到另一个List中，让函数返回。

相信很多看到这里的小伙伴已经云里雾里，无奈笔者对re板块也知道的不多，对python感兴趣的同学可以查阅相关资料再来看一下代码，相信能够如鱼得水。

完整的代码如下：

import requests 
from bs4 import BeautifulSoup 
import re 
 
 
def get_one_page(url): 
 wb_data = requests.get(url) 
 wb_data.encoding = wb_data.apparent_encoding 
 if wb_data.status_code == 200: 
  return wb_data.text 
 else: 
  return None 
 
 
def parse_one_page(html): 
 soup = BeautifulSoup(html, 'lxml') 
 data = soup.select('div.ranklist-wrapper.clearfix div.bd ul.song-list li') 
 pattern1 = re.compile(r'<li.*?<div class="index">(.*?)</div>.*?title="(.*?)".*?title="(.*?)".*?</li>', re.S) 
 pattern2 = re.compile(r'<li.*?<div class="index">(.*?)</div>.*?title="(.*?)".*?target="_blank">(.*?)</a>', re.S) 
 
 wants = [] 
 for item in data: 
  # print(item) 
  final = re.findall(pattern1, str(item)) 
  if len(final) == 1: 
   # print(final[0]) 
   wants.append(final[0]) 
  else: 
   other = re.findall(pattern2, str(item)) 
   # print(other[0]) 
   wants.append(other[0]) 
 return wants 
 
 
if __name__ == '__main__': 
 url = 'http://music.baidu.com/' 
 html = get_one_page(url) 
 data = parse_one_page(html) 
 for item in data: 
  dict = { 
   '序列': item[0], 
   '歌名': item[1], 
   '歌手': item[2] 
  } 
  print(dict)

最后我们看到的输出结果如下：

python爬虫之爬取百度音乐的实现方法

好了，笔者今天就到这里了。希望喜欢python的萌新能够快速实现自己的spider，也希望一些大神们能够看到这篇文章时不吝赐教。

以上这篇python爬虫之爬取百度音乐的实现方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python爬虫之爬取百度音乐的实现方法

- Author -

xiaopihaierletian

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

跨平台python异步回调机制实现和使用方法

Nov 26 Python

Python删除windows垃圾文件的方法

Jul 14 Python

使用XML库的方式,实现RPC通信的方法(推荐)

Jun 14 Python

python实现顺序表的简单代码

Sep 28 Python

Python基于百度云文字识别API

Dec 13 Python

Python3几个常见问题的处理方法

Feb 26 Python

Python解析json时提示“string indices must be integers”问题解决方法

Jul 31 Python

Python实现PyPDF2处理PDF文件的方法示例

Sep 25 Python

python base64库给用户名或密码加密的流程

Jan 02 Python

pytorch下使用LSTM神经网络写诗实例

Jan 14 Python

Django ORM实现按天获取数据去重求和例子

May 18 Python

keras实现VGG16方式(预测一张图片)

Jul 07 Python

python3 实现爬取TOP500的音乐信息并存储到mongoDB数据库中

Aug 24 #Python

python处理自动化任务之同时批量修改word里面的内容的方法

Aug 23 #Python

解决在pycharm运行代码,调用CMD窗口的命令运行显示乱码问题

Aug 23 #Python

简单分析python的类变量、实例变量

Aug 23 #Python

python3 selenium自动化 frame表单嵌套的切换方法

Aug 23 #Python

python-Web-flask-视图内容和模板知识点西宁街

Aug 23 #Python

python3 selenium自动化测试强大的CSS定位方法

Aug 23 #Python

You might like

PHP在字符串中查找指定字符串并删除的代码

2008/10/02 PHP

php设计模式之单例模式使用示例

2014/01/20 PHP

php计算2个日期的差值函数分享

2015/02/02 PHP

javascript获得网页窗口实际大小的示例代码

2013/09/21 Javascript

jquery 3D 标签云示例代码

2014/06/12 Javascript

javascript中indexOf技术详解

2015/05/07 Javascript

JQuery插入DOM节点的方法

2015/06/11 Javascript

JavaScript各类型的关系图解

2015/10/16 Javascript

无缝滚动的简单实现代码(推荐)

2016/06/07 Javascript

jQuery tagsinput在h5邮件客户端中应用详解

2016/09/26 Javascript

JS中LocalStorage与SessionStorage五种循序渐进的使用方法

2017/07/12 Javascript

VUE2.0+Element-UI+Echarts封装的组件实例

2018/03/02 Javascript

vue 父组件调用子组件方法及事件

2018/03/29 Javascript

node 标准输入流和输出流代码实例

2019/09/19 Javascript

jQuery实现视频展示效果

2020/05/30 jQuery

[56:38]DOTA2-DPC中国联赛正赛Aster vs Magma BO3 第一场 3月5日

2021/03/11 DOTA

python3.x实现发送邮件功能

2018/05/22 Python

python 递归深度优先搜索与广度优先搜索算法模拟实现

2018/10/22 Python

python 顺时针打印矩阵的超简洁代码

2018/11/14 Python

Django+zTree构建组织架构树的方法

2019/08/21 Python

Python稀疏矩阵及参数保存代码实现

2020/04/18 Python

小学教育毕业生自荐信

2013/11/18 职场文书

爱国卫生月活动总结范文

2014/04/25 职场文书

民族团结先进集体事迹材料

2014/05/22 职场文书

保安公司服务承诺书

2014/05/28 职场文书

群众路线教育实践活动思想汇报（2014特荐篇）

2014/09/16 职场文书

2014政府领导班子对照检查材料思想汇报（3篇）

2014/09/26 职场文书

投标人法定代表人授权委托书格式

2014/09/28 职场文书

团员个人年度总结

2015/02/26 职场文书

试用期自我评价怎么写

2015/03/10 职场文书

商场营业员岗位职责

2015/04/14 职场文书

2015年店长个人工作总结

2015/10/23 职场文书

反邪教学习心得体会

2016/01/15 职场文书

Elasticsearch 基本查询和组合查询

2022/04/19 Python

Golang ort 中的sortInts 方法

2022/04/24 Golang

win10输入法不见了只能打出字母怎么解决?

2022/08/05 数码科技