Python爬虫——爬取豆瓣电影Top250代码实例


Posted in Python onApril 17, 2019

利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中。基本上爬取结果还是挺好的。具体代码如下:

#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from bs4 import BeautifulSoup
import re
import urllib2
import xlwt

#得到页面全部内容
def askURL(url):
  request = urllib2.Request(url)#发送请求
  try:
    response = urllib2.urlopen(request)#取得响应
    html= response.read()#获取网页内容
    #print html
  except urllib2.URLError, e:
    if hasattr(e,"code"):
      print e.code
    if hasattr(e,"reason"):
      print e.reason
  return html

#获取相关内容
def getData(baseurl):
  findLink=re.compile(r'<a href="(.*?)" rel="external nofollow" >')#找到影片详情链接
  findImgSrc=re.compile(r'<img.*src="(.*jpg)"',re.S)#找到影片图片
  findTitle=re.compile(r'<span class="title">(.*)</span>')#找到片名
  #找到评分
  findRating=re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
  #找到评价人数
  findJudge=re.compile(r'<span>(\d*)人评价</span>')
  #找到概况
  findInq=re.compile(r'<span class="inq">(.*)</span>')
  #找到影片相关内容:导演,主演,年份,地区,类别
  findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
  #去掉无关内容
  remove=re.compile(r'              |\n|</br>|\.*')
  datalist=[]
  for i in range(0,10):
    url=baseurl+str(i*25)
    html=askURL(url)
    soup = BeautifulSoup(html, "html.parser")
    for item in soup.find_all('div',class_='item'):#找到每一个影片项
      data=[]
      item=str(item)#转换成字符串
      #print item
      link=re.findall(findLink,item)[0]
      data.append(link)#添加详情链接
      imgSrc=re.findall(findImgSrc,item)[0]
      data.append(imgSrc)#添加图片链接
      titles=re.findall(findTitle,item)
      #片名可能只有一个中文名,没有外国名
      if(len(titles)==2):
        ctitle=titles[0]
        data.append(ctitle)#添加中文片名
        otitle=titles[1].replace(" / ","")#去掉无关符号
        data.append(otitle)#添加外国片名
      else:
        data.append(titles[0])#添加中文片名
        data.append(' ')#留空
      rating=re.findall(findRating,item)[0]
      data.append(rating)#添加评分
      judgeNum=re.findall(findJudge,item)[0]
      data.append(judgeNum)#添加评论人数
      inq=re.findall(findInq,item)
      #可能没有概况
      if len(inq)!=0:
        inq=inq[0].replace("。","")#去掉句号
        data.append(inq)#添加概况
      else:
        data.append(' ')#留空
      bd=re.findall(findBd,item)[0]
      bd=re.sub(remove,"",bd)
      bd=re.sub('<br>'," ",bd)#去掉<br>
      bd=re.sub('/'," ",bd)#替换/
      #data.append(bd)
      words=bd.split(" ")
      for s in words:
        if len(s)!=0 and s!=' ':#去掉空白内容
           data.append(s)
      #主演有可能因为导演内容太长而没有
      if(len(data)!=12):
        data.insert(8,' ')#留空
      datalist.append(data)
  return datalist

#将相关数据写入excel中
def saveData(datalist,savepath):
  book=xlwt.Workbook(encoding='utf-8',style_compression=0)
  sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)
  col=('电影详情链接','图片链接','影片中文名','影片外国名',
        '评分','评价数','概况','导演','主演','年份','地区','类别')
  for i in range(0,12):
    sheet.write(0,i,col[i])#列名
  for i in range(0,250):
    data=datalist[i]
    for j in range(0,12):
      sheet.write(i+1,j,data[j])#数据
  book.save(savepath)#保存

def main():
  baseurl='https://movie.douban.com/top250?start='
  datalist=getData(baseurl)
  savapath=u'豆瓣电影Top250.xlsx'
  saveData(datalist,savapath)

main()

Excel表部分内容如下:

Python爬虫——爬取豆瓣电影Top250代码实例

以上所述是小编给大家介绍的Python爬取豆瓣电影Top250实例详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
python实现图片批量剪切示例
Mar 25 Python
Python基础教程之浅拷贝和深拷贝实例详解
Jul 15 Python
matplotlib在python上绘制3D散点图实例详解
Dec 09 Python
python绘制立方体的方法
Jul 02 Python
Django在pycharm下修改默认启动端口的方法
Jul 26 Python
python中time库的实例使用方法
Oct 31 Python
TensorFlow 显存使用机制详解
Feb 03 Python
Python之关于类变量的两种赋值区别详解
Mar 12 Python
Python使用Matlab命令过程解析
Jun 04 Python
Python使用struct处理二进制(pack和unpack用法)
Nov 12 Python
浅谈Python xlwings 读取Excel文件的正确姿势
Feb 26 Python
python中出现invalid syntax报错的几种原因分析
Feb 12 Python
Python2与Python3的区别实例总结
Apr 17 #Python
详解Python用户登录接口的方法
Apr 17 #Python
详解python中递归函数
Apr 16 #Python
python学习--使用QQ邮箱发送邮件代码实例
Apr 16 #Python
详解Python连接MySQL数据库的多种方式
Apr 16 #Python
详解Python学习之安装pandas
Apr 16 #Python
不归路系列:Python入门之旅-一定要注意缩进!!!(推荐)
Apr 16 #Python
You might like
一个高ai的分页函数和一个url函数
2006/10/09 PHP
Linux系统递归生成目录中文件的md5的方法
2015/06/29 PHP
PHP高并发和大流量解决方案整理
2019/12/24 PHP
Aster vs KG BO3 第三场2.18
2021/03/10 DOTA
jqueyr判断checkbox组的选中(示例代码)
2013/11/08 Javascript
jQuery使用元素属性attr赋值详解
2015/02/27 Javascript
javascript实现省市区三级联动下拉框菜单
2015/11/17 Javascript
TinyMCE汉化及本地上传图片功能实例详解
2016/05/31 Javascript
JS导出PDF插件的方法(支持中文、图片使用路径)
2016/07/12 Javascript
JSONP跨域请求
2017/03/02 Javascript
如何使用vuejs实现更好的Form validation?
2017/04/07 Javascript
Webpack 4如何动态切割JS注入文件名详解
2019/07/09 Javascript
浅谈Vue.set实际上是什么
2019/10/17 Javascript
webpack打包优化的几个方法总结
2020/02/10 Javascript
解析Mac OS下部署Pyhton的Django框架项目的过程
2016/05/03 Python
numpy排序与集合运算用法示例
2017/12/15 Python
flask中主动抛出异常及统一异常处理代码示例
2018/01/18 Python
Python字符串的修改方法实例
2019/12/19 Python
Python yield生成器和return对比代码实例
2020/04/20 Python
浅谈keras使用中val_acc和acc值不同步的思考
2020/06/18 Python
如何从csv文件构建Tensorflow的数据集
2020/09/21 Python
草莓网化妆品加拿大网站:Strawberrynet Canada
2016/09/20 全球购物
Nike法国官方网站:Nike.com FR
2018/07/22 全球购物
意大利和国际奢侈品牌购物网站:Suitnegozi.com
2021/01/15 全球购物
高中生校园生活自我评价
2013/09/19 职场文书
初二政治教学反思
2014/01/12 职场文书
结婚邀请函范文
2014/01/14 职场文书
护士辞职信范文
2014/01/19 职场文书
公司领导班子对照材料
2014/08/18 职场文书
2014年健康教育工作总结
2014/11/20 职场文书
2016中秋节问候语
2015/11/11 职场文书
公司要求试用期员工提交“述职报告”,该怎么写?
2019/07/17 职场文书
pandas中DataFrame重置索引的几种方法
2021/05/24 Python
详解MySQL中的主键与事务
2021/05/27 MySQL
HTML+CSS 实现顶部导航栏菜单制作
2021/06/03 HTML / CSS
图片批量处理 - 尺寸、格式、水印等
2022/03/07 杂记