Python爬虫——爬取豆瓣电影Top250代码实例


Posted in Python onApril 17, 2019

利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中。基本上爬取结果还是挺好的。具体代码如下:

#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from bs4 import BeautifulSoup
import re
import urllib2
import xlwt

#得到页面全部内容
def askURL(url):
  request = urllib2.Request(url)#发送请求
  try:
    response = urllib2.urlopen(request)#取得响应
    html= response.read()#获取网页内容
    #print html
  except urllib2.URLError, e:
    if hasattr(e,"code"):
      print e.code
    if hasattr(e,"reason"):
      print e.reason
  return html

#获取相关内容
def getData(baseurl):
  findLink=re.compile(r'<a href="(.*?)" rel="external nofollow" >')#找到影片详情链接
  findImgSrc=re.compile(r'<img.*src="(.*jpg)"',re.S)#找到影片图片
  findTitle=re.compile(r'<span class="title">(.*)</span>')#找到片名
  #找到评分
  findRating=re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
  #找到评价人数
  findJudge=re.compile(r'<span>(\d*)人评价</span>')
  #找到概况
  findInq=re.compile(r'<span class="inq">(.*)</span>')
  #找到影片相关内容:导演,主演,年份,地区,类别
  findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
  #去掉无关内容
  remove=re.compile(r'              |\n|</br>|\.*')
  datalist=[]
  for i in range(0,10):
    url=baseurl+str(i*25)
    html=askURL(url)
    soup = BeautifulSoup(html, "html.parser")
    for item in soup.find_all('div',class_='item'):#找到每一个影片项
      data=[]
      item=str(item)#转换成字符串
      #print item
      link=re.findall(findLink,item)[0]
      data.append(link)#添加详情链接
      imgSrc=re.findall(findImgSrc,item)[0]
      data.append(imgSrc)#添加图片链接
      titles=re.findall(findTitle,item)
      #片名可能只有一个中文名,没有外国名
      if(len(titles)==2):
        ctitle=titles[0]
        data.append(ctitle)#添加中文片名
        otitle=titles[1].replace(" / ","")#去掉无关符号
        data.append(otitle)#添加外国片名
      else:
        data.append(titles[0])#添加中文片名
        data.append(' ')#留空
      rating=re.findall(findRating,item)[0]
      data.append(rating)#添加评分
      judgeNum=re.findall(findJudge,item)[0]
      data.append(judgeNum)#添加评论人数
      inq=re.findall(findInq,item)
      #可能没有概况
      if len(inq)!=0:
        inq=inq[0].replace("。","")#去掉句号
        data.append(inq)#添加概况
      else:
        data.append(' ')#留空
      bd=re.findall(findBd,item)[0]
      bd=re.sub(remove,"",bd)
      bd=re.sub('<br>'," ",bd)#去掉<br>
      bd=re.sub('/'," ",bd)#替换/
      #data.append(bd)
      words=bd.split(" ")
      for s in words:
        if len(s)!=0 and s!=' ':#去掉空白内容
           data.append(s)
      #主演有可能因为导演内容太长而没有
      if(len(data)!=12):
        data.insert(8,' ')#留空
      datalist.append(data)
  return datalist

#将相关数据写入excel中
def saveData(datalist,savepath):
  book=xlwt.Workbook(encoding='utf-8',style_compression=0)
  sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)
  col=('电影详情链接','图片链接','影片中文名','影片外国名',
        '评分','评价数','概况','导演','主演','年份','地区','类别')
  for i in range(0,12):
    sheet.write(0,i,col[i])#列名
  for i in range(0,250):
    data=datalist[i]
    for j in range(0,12):
      sheet.write(i+1,j,data[j])#数据
  book.save(savepath)#保存

def main():
  baseurl='https://movie.douban.com/top250?start='
  datalist=getData(baseurl)
  savapath=u'豆瓣电影Top250.xlsx'
  saveData(datalist,savapath)

main()

Excel表部分内容如下:

Python爬虫——爬取豆瓣电影Top250代码实例

以上所述是小编给大家介绍的Python爬取豆瓣电影Top250实例详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
在Python的struct模块中进行数据格式转换的方法
Jun 17 Python
利用python实现数据分析
Jan 11 Python
python获取指定时间差的时间实例详解
Apr 11 Python
django 按时间范围查询数据库实例代码
Feb 11 Python
使用Python3内置文档高效学习以及官方中文文档
May 19 Python
详解Python 中sys.stdin.readline()的用法
Sep 12 Python
Pycharm远程连接服务器并实现代码同步上传更新功能
Feb 25 Python
浅谈pytorch 模型 .pt, .pth, .pkl的区别及模型保存方式
May 25 Python
Python如何实现的二分查找算法
May 27 Python
python Selenium 库的使用技巧
Oct 16 Python
关于python pygame游戏进行声音添加的技巧
Oct 24 Python
关于python中模块和重载的问题
Nov 02 Python
Python2与Python3的区别实例总结
Apr 17 #Python
详解Python用户登录接口的方法
Apr 17 #Python
详解python中递归函数
Apr 16 #Python
python学习--使用QQ邮箱发送邮件代码实例
Apr 16 #Python
详解Python连接MySQL数据库的多种方式
Apr 16 #Python
详解Python学习之安装pandas
Apr 16 #Python
不归路系列:Python入门之旅-一定要注意缩进!!!(推荐)
Apr 16 #Python
You might like
php实现MySQL数据库备份与还原类实例
2014/12/09 PHP
php强制用户转向www域名的方法
2015/06/19 PHP
PHP入门教程之会话控制技巧(cookie与session)
2016/09/11 PHP
PHP简单装饰器模式实现与用法示例
2017/06/22 PHP
php微信开发之音乐回复功能
2018/06/14 PHP
PHP实现微信退款的方法示例
2019/03/26 PHP
JavaScript入门教程(11) js事件处理
2009/01/31 Javascript
JS根据变量保存方法名并执行方法示例
2014/04/04 Javascript
JavaScript实现获取dom中class的方法
2015/02/09 Javascript
jQuery选择器及jquery案例详解(必看)
2016/05/20 Javascript
angular route中使用resolve在uglify压缩后问题解决
2016/09/21 Javascript
AngularJS模仿Form表单提交的实现代码
2016/12/08 Javascript
简单实现JS计算器功能
2016/12/21 Javascript
JavaScript运动框架 多物体任意值运动(三)
2017/05/17 Javascript
AngularJs定时器$interval 和 $timeout详解
2017/05/25 Javascript
vuejs实现ready函数加载完之后执行某个函数的方法
2018/08/31 Javascript
node学习笔记之读写文件与开启第一个web服务器操作示例
2019/05/29 Javascript
Vue实现图书管理小案例
2020/12/03 Vue.js
python BeautifulSoup设置页面编码的方法
2015/04/03 Python
Python基于动态规划算法解决01背包问题实例
2017/12/06 Python
Python函数的参数常见分类与用法实例详解
2019/03/30 Python
kafka-python 获取topic lag值方式
2019/12/23 Python
Python中文分词库jieba,pkusegwg性能准确度比较
2020/02/11 Python
Python GUI编程学习笔记之tkinter界面布局显示详解
2020/03/30 Python
django实现后台显示媒体文件
2020/04/07 Python
keras 指定程序在某块卡上训练实例
2020/06/22 Python
解决TensorFlow程序无限制占用GPU的方法
2020/06/30 Python
收藏!10个免费高清视频素材网站!【设计、视频剪辑必备】
2021/03/18 杂记
将一个数的从第5位开始的7个数取出,其余位置0
2016/05/26 面试题
软件测试工程师结构化面试题库
2016/11/23 面试题
程序员跳槽必看面试题总结
2013/06/28 面试题
六年级数学教学反思
2014/02/03 职场文书
2014年小班元旦活动方案
2014/02/16 职场文书
军训教官感言
2014/03/02 职场文书
学生会部长竞聘书
2014/03/31 职场文书
汉语专业毕业生自荐信
2014/07/06 职场文书