Python爬虫——爬取豆瓣电影Top250代码实例


Posted in Python onApril 17, 2019

利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中。基本上爬取结果还是挺好的。具体代码如下:

#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from bs4 import BeautifulSoup
import re
import urllib2
import xlwt

#得到页面全部内容
def askURL(url):
  request = urllib2.Request(url)#发送请求
  try:
    response = urllib2.urlopen(request)#取得响应
    html= response.read()#获取网页内容
    #print html
  except urllib2.URLError, e:
    if hasattr(e,"code"):
      print e.code
    if hasattr(e,"reason"):
      print e.reason
  return html

#获取相关内容
def getData(baseurl):
  findLink=re.compile(r'<a href="(.*?)" rel="external nofollow" >')#找到影片详情链接
  findImgSrc=re.compile(r'<img.*src="(.*jpg)"',re.S)#找到影片图片
  findTitle=re.compile(r'<span class="title">(.*)</span>')#找到片名
  #找到评分
  findRating=re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
  #找到评价人数
  findJudge=re.compile(r'<span>(\d*)人评价</span>')
  #找到概况
  findInq=re.compile(r'<span class="inq">(.*)</span>')
  #找到影片相关内容:导演,主演,年份,地区,类别
  findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
  #去掉无关内容
  remove=re.compile(r'              |\n|</br>|\.*')
  datalist=[]
  for i in range(0,10):
    url=baseurl+str(i*25)
    html=askURL(url)
    soup = BeautifulSoup(html, "html.parser")
    for item in soup.find_all('div',class_='item'):#找到每一个影片项
      data=[]
      item=str(item)#转换成字符串
      #print item
      link=re.findall(findLink,item)[0]
      data.append(link)#添加详情链接
      imgSrc=re.findall(findImgSrc,item)[0]
      data.append(imgSrc)#添加图片链接
      titles=re.findall(findTitle,item)
      #片名可能只有一个中文名,没有外国名
      if(len(titles)==2):
        ctitle=titles[0]
        data.append(ctitle)#添加中文片名
        otitle=titles[1].replace(" / ","")#去掉无关符号
        data.append(otitle)#添加外国片名
      else:
        data.append(titles[0])#添加中文片名
        data.append(' ')#留空
      rating=re.findall(findRating,item)[0]
      data.append(rating)#添加评分
      judgeNum=re.findall(findJudge,item)[0]
      data.append(judgeNum)#添加评论人数
      inq=re.findall(findInq,item)
      #可能没有概况
      if len(inq)!=0:
        inq=inq[0].replace("。","")#去掉句号
        data.append(inq)#添加概况
      else:
        data.append(' ')#留空
      bd=re.findall(findBd,item)[0]
      bd=re.sub(remove,"",bd)
      bd=re.sub('<br>'," ",bd)#去掉<br>
      bd=re.sub('/'," ",bd)#替换/
      #data.append(bd)
      words=bd.split(" ")
      for s in words:
        if len(s)!=0 and s!=' ':#去掉空白内容
           data.append(s)
      #主演有可能因为导演内容太长而没有
      if(len(data)!=12):
        data.insert(8,' ')#留空
      datalist.append(data)
  return datalist

#将相关数据写入excel中
def saveData(datalist,savepath):
  book=xlwt.Workbook(encoding='utf-8',style_compression=0)
  sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)
  col=('电影详情链接','图片链接','影片中文名','影片外国名',
        '评分','评价数','概况','导演','主演','年份','地区','类别')
  for i in range(0,12):
    sheet.write(0,i,col[i])#列名
  for i in range(0,250):
    data=datalist[i]
    for j in range(0,12):
      sheet.write(i+1,j,data[j])#数据
  book.save(savepath)#保存

def main():
  baseurl='https://movie.douban.com/top250?start='
  datalist=getData(baseurl)
  savapath=u'豆瓣电影Top250.xlsx'
  saveData(datalist,savapath)

main()

Excel表部分内容如下:

Python爬虫——爬取豆瓣电影Top250代码实例

以上所述是小编给大家介绍的Python爬取豆瓣电影Top250实例详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
python生成器表达式和列表解析
Mar 10 Python
Python使用pymysql小技巧
Jun 04 Python
python3+PyQt5实现拖放功能
Apr 24 Python
完美解决python中ndarray 默认用科学计数法显示的问题
Jul 14 Python
几行Python代码爬取3000+上市公司的信息
Jan 24 Python
用python一行代码得到数组中某个元素的个数方法
Jan 28 Python
Python使用微信接入图灵机器人过程解析
Nov 04 Python
opencv之为图像添加边界的方法示例
Dec 26 Python
python自动化unittest yaml使用过程解析
Feb 03 Python
Python代码覆盖率统计工具coverage.py用法详解
Nov 25 Python
通过python-pptx模块操作ppt文件的方法
Dec 26 Python
Python网络编程之ZeroMQ知识总结
Apr 25 Python
Python2与Python3的区别实例总结
Apr 17 #Python
详解Python用户登录接口的方法
Apr 17 #Python
详解python中递归函数
Apr 16 #Python
python学习--使用QQ邮箱发送邮件代码实例
Apr 16 #Python
详解Python连接MySQL数据库的多种方式
Apr 16 #Python
详解Python学习之安装pandas
Apr 16 #Python
不归路系列:Python入门之旅-一定要注意缩进!!!(推荐)
Apr 16 #Python
You might like
PHP Ajax实现页面无刷新发表评论
2007/01/02 PHP
PHP实现将几张照片拼接到一起的合成图片功能【便于整体打印输出】
2017/11/14 PHP
禁止直接访问php文件代码分享
2020/05/05 PHP
Javascript-Mozilla和IE中的一个函数直接量的问题分析
2007/08/12 Javascript
Extjs学习笔记之三 extjs form更多的表单项
2010/01/07 Javascript
基于jQuery的js分页代码
2010/06/10 Javascript
javascript 小数取整简单实现方式
2014/05/30 Javascript
jQuery插件实现大图全屏图片相册
2015/03/14 Javascript
Nodejs学习笔记之入门篇
2015/04/16 NodeJs
浅谈JavaScript中指针和地址
2015/07/26 Javascript
Nodejs中 npm常用命令详解
2016/07/04 NodeJs
实现React单页应用的方法详解
2016/08/02 Javascript
Bootstrap如何创建表单
2016/10/21 Javascript
利用Js的console对象,在控制台打印调式信息测试Js的实现
2016/11/26 Javascript
JS实现多张图片预览同步上传功能
2017/06/23 Javascript
jQuery实现的模仿雨滴下落动画效果
2018/12/11 jQuery
JS实现表单中点击小眼睛显示隐藏密码框中的密码
2020/04/13 Javascript
深入解析微信小程序开发中遇到的几个小问题
2020/07/11 Javascript
疯狂上涨的Python 开发者应从2.x还是3.x着手?
2017/11/16 Python
python使用matplotlib库生成随机漫步图
2018/08/27 Python
Python 加密与解密小结
2018/12/06 Python
Python 函数返回值的示例代码
2019/03/11 Python
解决django 向mysql中写入中文字符出错的问题
2020/05/18 Python
Numpy(Pandas)删除全为零的列的方法
2020/09/11 Python
美国家用和厨房电器销售网站:Appliances Connection
2020/01/24 全球购物
分布式数据库需要考虑哪些问题
2013/12/08 面试题
介绍一下如何优化MySql
2016/12/20 面试题
长辈证婚人证婚词
2014/01/09 职场文书
五十岁生日宴会答谢词
2014/01/15 职场文书
物业管理毕业生的自我评价
2014/02/17 职场文书
大学生职业生涯规划大赛作品(精品)
2014/09/17 职场文书
群众路线教育实践活动总结
2014/10/30 职场文书
团委工作总结2015
2015/04/02 职场文书
防震减灾主题班会
2015/08/14 职场文书
文明医院的标语集锦!
2019/07/24 职场文书
go语言中切片与内存复制 memcpy 的实现操作
2021/04/27 Golang