Python爬虫——爬取豆瓣电影Top250代码实例


Posted in Python onApril 17, 2019

利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中。基本上爬取结果还是挺好的。具体代码如下:

#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from bs4 import BeautifulSoup
import re
import urllib2
import xlwt

#得到页面全部内容
def askURL(url):
  request = urllib2.Request(url)#发送请求
  try:
    response = urllib2.urlopen(request)#取得响应
    html= response.read()#获取网页内容
    #print html
  except urllib2.URLError, e:
    if hasattr(e,"code"):
      print e.code
    if hasattr(e,"reason"):
      print e.reason
  return html

#获取相关内容
def getData(baseurl):
  findLink=re.compile(r'<a href="(.*?)" rel="external nofollow" >')#找到影片详情链接
  findImgSrc=re.compile(r'<img.*src="(.*jpg)"',re.S)#找到影片图片
  findTitle=re.compile(r'<span class="title">(.*)</span>')#找到片名
  #找到评分
  findRating=re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
  #找到评价人数
  findJudge=re.compile(r'<span>(\d*)人评价</span>')
  #找到概况
  findInq=re.compile(r'<span class="inq">(.*)</span>')
  #找到影片相关内容:导演,主演,年份,地区,类别
  findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
  #去掉无关内容
  remove=re.compile(r'              |\n|</br>|\.*')
  datalist=[]
  for i in range(0,10):
    url=baseurl+str(i*25)
    html=askURL(url)
    soup = BeautifulSoup(html, "html.parser")
    for item in soup.find_all('div',class_='item'):#找到每一个影片项
      data=[]
      item=str(item)#转换成字符串
      #print item
      link=re.findall(findLink,item)[0]
      data.append(link)#添加详情链接
      imgSrc=re.findall(findImgSrc,item)[0]
      data.append(imgSrc)#添加图片链接
      titles=re.findall(findTitle,item)
      #片名可能只有一个中文名,没有外国名
      if(len(titles)==2):
        ctitle=titles[0]
        data.append(ctitle)#添加中文片名
        otitle=titles[1].replace(" / ","")#去掉无关符号
        data.append(otitle)#添加外国片名
      else:
        data.append(titles[0])#添加中文片名
        data.append(' ')#留空
      rating=re.findall(findRating,item)[0]
      data.append(rating)#添加评分
      judgeNum=re.findall(findJudge,item)[0]
      data.append(judgeNum)#添加评论人数
      inq=re.findall(findInq,item)
      #可能没有概况
      if len(inq)!=0:
        inq=inq[0].replace("。","")#去掉句号
        data.append(inq)#添加概况
      else:
        data.append(' ')#留空
      bd=re.findall(findBd,item)[0]
      bd=re.sub(remove,"",bd)
      bd=re.sub('<br>'," ",bd)#去掉<br>
      bd=re.sub('/'," ",bd)#替换/
      #data.append(bd)
      words=bd.split(" ")
      for s in words:
        if len(s)!=0 and s!=' ':#去掉空白内容
           data.append(s)
      #主演有可能因为导演内容太长而没有
      if(len(data)!=12):
        data.insert(8,' ')#留空
      datalist.append(data)
  return datalist

#将相关数据写入excel中
def saveData(datalist,savepath):
  book=xlwt.Workbook(encoding='utf-8',style_compression=0)
  sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)
  col=('电影详情链接','图片链接','影片中文名','影片外国名',
        '评分','评价数','概况','导演','主演','年份','地区','类别')
  for i in range(0,12):
    sheet.write(0,i,col[i])#列名
  for i in range(0,250):
    data=datalist[i]
    for j in range(0,12):
      sheet.write(i+1,j,data[j])#数据
  book.save(savepath)#保存

def main():
  baseurl='https://movie.douban.com/top250?start='
  datalist=getData(baseurl)
  savapath=u'豆瓣电影Top250.xlsx'
  saveData(datalist,savapath)

main()

Excel表部分内容如下:

Python爬虫——爬取豆瓣电影Top250代码实例

以上所述是小编给大家介绍的Python爬取豆瓣电影Top250实例详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
gearman的安装启动及python API使用实例
Jul 08 Python
Python函数嵌套实例
Sep 23 Python
Python多进程同步Lock、Semaphore、Event实例
Nov 21 Python
Python文件和目录操作详解
Feb 08 Python
Python爬虫辅助利器PyQuery模块的安装使用攻略
Apr 24 Python
Python实现命令行通讯录实例教程
Aug 18 Python
Python实现统计给定列表中指定数字出现次数的方法
Apr 11 Python
PyCharm代码格式调整方法
May 23 Python
python3.5 cv2 获取视频特定帧生成jpg图片
Aug 28 Python
keras得到每层的系数方式
Jun 15 Python
Python 生成短8位唯一id实战教程
Jan 13 Python
Pandas数据类型之category的用法
Jun 28 Python
Python2与Python3的区别实例总结
Apr 17 #Python
详解Python用户登录接口的方法
Apr 17 #Python
详解python中递归函数
Apr 16 #Python
python学习--使用QQ邮箱发送邮件代码实例
Apr 16 #Python
详解Python连接MySQL数据库的多种方式
Apr 16 #Python
详解Python学习之安装pandas
Apr 16 #Python
不归路系列:Python入门之旅-一定要注意缩进!!!(推荐)
Apr 16 #Python
You might like
PHP将整个网站生成HTML纯静态网页的方法总结
2012/02/05 PHP
php中使用临时表查询数据的一个例子
2013/02/03 PHP
PHP仿博客园 个人博客(2) 数据库增添改删
2013/07/05 PHP
php递归创建目录的方法
2015/02/02 PHP
yii2.0使用Plupload实现带缩放功能的多图上传
2015/12/22 PHP
Laravel中基于Artisan View扩展包创建及删除应用视图文件的方法
2016/10/08 PHP
如何重写Laravel异常处理类详解
2020/12/20 PHP
使用Jquery搭建最佳用户体验的登录页面之记住密码自动登录功能(含后台代码)
2011/07/10 Javascript
HTML上传控件取消选择
2013/03/06 Javascript
跟我学习javascript的浮点数精度
2015/11/16 Javascript
jQuery语法小结(超实用)
2015/12/31 Javascript
javascript高级选择器querySelector和querySelectorAll全面解析
2016/04/07 Javascript
vuejs2.0实现一个简单的分页示例
2017/02/22 Javascript
Angular2自定义分页组件
2017/04/19 Javascript
vue新vue-cli3环境配置和模拟json数据的实例
2018/09/19 Javascript
使用weixin-java-miniapp配置进行单个小程序的配置详解
2019/03/29 Javascript
js/jQuery实现全选效果
2019/06/17 jQuery
在NodeJs中使用node-schedule增加定时器任务的方法
2020/06/08 NodeJs
解决antd日期选择组件,添加value就无法点击下一年和下一月问题
2020/10/29 Javascript
Python实现115网盘自动下载的方法
2014/09/30 Python
pymongo实现多结果进行多列排序的方法
2015/05/16 Python
浅谈Pandas:Series和DataFrame间的算术元素
2018/12/22 Python
德国大型的家具商店:Pharao24.de
2016/10/02 全球购物
TCP协议通讯的过程和步骤是什么
2015/10/18 面试题
2013年员工自我评价范文
2013/12/27 职场文书
秘书英文求职信范文
2014/01/31 职场文书
社团2014年植树节活动总结
2014/03/11 职场文书
护理专业学生职业生涯规划范文
2014/03/11 职场文书
电力培训心得体会
2014/09/02 职场文书
基层党员干部四风问题整改方向和措施
2014/09/25 职场文书
2015年教师节演讲稿范文
2015/03/19 职场文书
2015年七年级班主任工作总结
2015/05/21 职场文书
详解TS数字分隔符和更严格的类属性检查
2021/05/06 Javascript
MySQL面试题讲解之如何设置Hash索引
2021/11/01 MySQL
Python开发五子棋小游戏
2022/04/28 Python
React如何使用axios请求数据并把数据渲染到组件
2022/08/05 Javascript