编程 Python

Python实现提取谷歌音乐搜索结果的方法

Posted in Python onJuly 10, 2015

本文实例讲述了Python实现提取谷歌音乐搜索结果的方法。分享给大家供大家参考。具体如下：

Python的简单脚本，用于提取谷歌音乐搜索页面中的歌曲信息，包括歌曲名，作者，专辑名，现在链接等，最多只提取10页结果。

#! /usr/bin/env python
#coding=utf-8
'''
Created on 2011-8-19
@author: yaoboyuan
'''
from urllib import request,parse
import re,sys
def extractSongRawData(text):
  '抓取每一首歌的原始数据'
  text = re.sub('\n+','',text)
  songList = re.findall('\<tbody.*?\</tbody>',text)
  nums = len(songList)
  print('search ' + str(nums) + ' songs')
  return songList
def translate(text):
  '去掉text中的无用字符，转换unicode码'
  text = re.sub('\<b>','',text)
  text = re.sub('\</b>','',text)
  #find the 成 and translate into chinese
  s = re.findall('&#([0-9]+);',text)
  if len(s)<=0:
    return text
  else:
    text = ''
    for i in range(len(s)):
      value = int(s[i],10) #from str'123' to 10 base's int 124
      text += chr(value)  #from value to char
    return text
def extractSongName(song):
  '提取歌曲名字'
  td = re.findall('(?:\<td class\="Title).*(?:\</td>)',song)
  name = re.findall('.+?\<a.+?>(.*?)\</a>',td[0])
  songName = translate(name[0])
  return songName
def extractAuthorName(song):
  '提取作者名字'
  td = re.findall('(?:\<td class\="Artist).*(?:\</td>)',song)
  name = re.findall('.+?\<a.+?>(.*?)\</a>',td[0])
  authorName = name[0]
  authorName = translate(authorName)
  return authorName
def extrackAlbumName(song):
  '提取专辑名字'
  td = re.findall('(?:\<td class\="Album).*(?:\</td>)',song)
  name = re.findall('.+?\<a.+?>(.*?)\</a>',td[0])
  albumName = translate(name[0])
  return albumName
def extractID(song):
  '提取歌曲id'
  td = re.findall('''\<tbody id\="([a-zA-Z0-9]+)"''',song)
  if len(td)>0:
    return td[0]
  else:
    return song
def extractLink(song):
  '提取歌曲下载链接'
  td = re.findall('''\<td class\="Icon.*?(?=title\="下载").*?onclick\="(.*?)>''',song)
  if len(td) == 0:
    return 'NULL'
  s = str(td[0])
  rawLink = re.findall('http.*?(?=\?)',s)
  if len(rawLink) == 0:
    return s
  link = rawLink[0]
  link = re.sub('%3D','=',link)
  id = extractID(song)
  return link + '?id=' + id
def extractPageNums(text):
  '提取返回结果的页数，最多要10页'
  pageList = re.findall('page_link',text)
  return len(pageList)
def extractSongInfo(song):
  '提取歌曲信息，返回歌曲列表'
  songList = []
  for i in range(len(song)):
    songName = extractSongName(song[i])
    authorName = extractAuthorName(song[i])
    albumName = extrackAlbumName(song[i])
    link = extractLink(song[i])
    songItem = [songName,authorName,albumName,link]
    songList.append(songItem)
    index = ''
    if i<9:
      index = '0' + str(i+1)
    else:
      index = str(i + 1)
    #print(index + ' ' + songName + ' ' + authorName + ' ' + albumName + ' ' + link)
  return songList
def main():
  while True:
    url = 'http://www.google.cn/music/search?q='
    key = input('请输入歌曲名字或关键字:')
    key = parse.quote(key) #统一编码成utf-8
    url += key
    mf = request.urlopen(url)
    c = mf.readall()
    c = str(c,encoding = 'utf-8')
    num = extractPageNums(c)
    print(str(num+1) + ' pages found')
    song = extractSongRawData(c)
    songList = extractSongInfo(song)
    #if the result great than 2 pages, then request all pages
    if num>0:
      for i in range(num):
        start = (i+1)*20
        next_page = '&cat=song&start=%d'%(start)
        #next_page = parse.quote(next_page) #统一编码成utf-8
        url += next_page
        mf = request.urlopen(url)
        c = mf.readall()
        c = str(c,encoding = 'utf-8')
        song = extractSongRawData(c)
        songList += extractSongInfo(song) #find all results
    for i in range(len(songList)): #print the result
      index = ''
      if i<9:
        index = '0' + str(i+1)
      else:
        index = str(i + 1)
      print(index + ' ' + str(songList[i]))
if __name__ == '__main__':
  main()

希望本文所述对大家的Python程序设计有所帮助。

Python实现提取谷歌音乐搜索结果的方法

- Author -

yaoboyuan

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现多线程采集的2个代码例子

Jul 07 Python

Python中计算三角函数之cos()方法的使用简介

May 15 Python

Python的GUI框架PySide的安装配置教程

Feb 16 Python

Python中使用asyncio 封装文件读写

Sep 11 Python

python getopt详解及简单实例

Dec 30 Python

老生常谈Python基础之字符编码

Jun 14 Python

利用django-suit模板添加自定义的菜单、页面及设置访问权限

Jul 13 Python

python使用scrapy发送post请求的坑

Sep 04 Python

Django实现跨域请求过程详解

Jul 25 Python

python interpolate插值实例

Jul 06 Python

通过案例解析python鸭子类型相关原理

Oct 10 Python

python 实现波浪滤镜特效

Dec 02 Python

python和bash统计CPU利用率的方法

Jul 10 #Python

Python多线程下载文件的方法

Jul 10 #Python

Python爬取国外天气预报网站的方法

Jul 10 #Python

Python实现比较两个文件夹中代码变化的方法

Jul 10 #Python

python简单文本处理的方法

Jul 10 #Python

Python实现把json格式转换成文本或sql文件

Jul 10 #Python

Python中的一些陷阱与技巧小结

Jul 10 #Python

You might like

DC宇宙的第一个英雄，堪称动漫史鼻祖，如今成为美国文化的象征

2020/04/09 欧美动漫

咖啡界又出新概念，无需咖啡豆的分子咖啡

2021/03/03 咖啡文化

神盾加密解密教程（一）PHP变量可用字符

2014/05/28 PHP

一些常用的JS功能函数代码

2009/06/23 Javascript

javascript instanceof,typeof的区别

2010/03/24 Javascript

javascript 兼容所有浏览器的DOM扩展功能

2012/08/01 Javascript

JS 屏蔽键盘不可用与鼠标右键不可用的方法

2013/11/18 Javascript

Javascript selection的兼容性写法介绍

2013/12/20 Javascript

使用js实现数据格式化

2014/12/03 Javascript

Bootstrap框架下下拉框select搜索功能

2020/03/26 Javascript

js 实现数值的千分位及保存小数方法(推荐)

2016/08/01 Javascript

BootStrap Tooltip插件源码解析

2016/12/27 Javascript

ES6中Iterator与for..of..遍历用法分析

2017/03/31 Javascript

初识NodeJS服务端开发入门（Express+MySQL）

2017/04/07 NodeJs

React中的refs的使用教程

2018/02/13 Javascript

jQuery实现网页拼图游戏

2020/04/22 jQuery

一些手写JavaScript常用的函数汇总

2019/04/16 Javascript

vue下载excel的实现代码后台用post方法

2019/05/10 Javascript

JS面向对象编程实现的Tab选项卡案例详解

2020/03/03 Javascript

vue props default Array或是Object的正确写法说明

2020/07/30 Javascript

jQuery实现朋友圈查看图片

2020/09/11 jQuery

[01:10]DOTA2 Supermajor：英雄，由我们见证

2018/05/14 DOTA

用Python编写一个每天都在系统下新建一个文件夹的脚本

2015/05/04 Python

Python中用于转换字母为小写的lower()方法使用简介

2015/05/19 Python

Python与Java间Socket通信实例代码

2017/03/06 Python

对python 生成拼接xml报文的示例详解

2018/12/28 Python

利用Python正则表达式过滤敏感词的方法

2019/01/21 Python

Python3多线程基础知识点

2019/02/19 Python

django admin后台添加导出excel功能示例代码

2019/05/15 Python

python3 正则表达式基础廖雪峰

2020/03/25 Python

Django模板报TemplateDoesNotExist异常(亲测可行)

2020/12/18 Python

印度领先的眼镜电子商务网站：Lenskart

2019/12/16 全球购物

网管求职信

2014/03/03 职场文书

师德标兵事迹材料

2014/12/19 职场文书

2015年团支部年度工作总结

2015/05/27 职场文书

红白喜事主持词

2015/07/06 职场文书