python爬取豆瓣电影排行榜(requests)的示例代码


Posted in Python onFebruary 18, 2021

'''
  爬取豆瓣电影排行榜
  设计思路:
       1、先获取电影类型的名字以及特有的编号
       2、将编号向ajax发送get请求获取想要的数据
       3、将数据存放进excel表格中
'''

环境部署:

软件安装:

Python 3.7.6

官网地址:https://www.python.org/

安装地址:https://www.python.org/ftp/python/3.7.6/python-3.7.6-amd64.exe

PyCharm 2020.2.2 x64 位

官网地址:https://www.jetbrains.com/pycharm/download/#section=windows

参考教程:https://3water.com/article/197466.htm

模块安装(打开cmd或powershell进行下面的命令安装【前提需要有python】):安装requests模块、lxml模块(发送请求,xpath获取数据)

pip install requests #(主要用来发送请求,获取响应)

pip install lxml #(主要引用里面的etree里面的xpath方法)

安装xpathhelper插件(可以在网页中复制相应的节点xpath路径并查看)

1、下载地址:

链接: https://pan.baidu.com/s/1zfpnrnFtZaxrgqrUX9y5Yg

提取码: fmsu

2、window平台下:
    · 把文件的后缀名crx改为rar,然后解压到同名文件夹中
    · 打开谷歌的扩展程序 ——> 进入到管理管理扩展程序中
    · 打开开发者模式,通过加载已解压的扩展程序,将插件导入
3、ios平台下:
    · 直接将crx文件拖进扩展程序中

安装xlwt模块(将数据存放进excel表格)

pip install xlwt

项目中需要引入的模块:

import requests
from lxml import etree
import xlwt
import time

使用流程:

  • 在列表中填写所需要获取的电影类型名
  • 输入开始时获取的start以及获取多少数据的limit
  • 填写所要输出的excel表格的名字(代码中默认douban.xls)
  • 程序运行结束后打开excel验证数据是否获取
  • 观察自己所需的数据

完整代码:

# encoding=utf8
# 编程者 :Alvin
'''
 爬取豆瓣电影排行榜
 设计思路:
 1、先获取电影类型的名字以及特有的编号
 2、将编号向ajax发送get请求获取想要的数据
 3、将数据存放进excel表格中
'''
import requests
from lxml import etree
import xlwt
import time

class DouBan():
 # 初始化数据,获取最外层的数据
 def __init__(self, name_list):
 self.headers = {
 "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.3",
 "Connection": "close",
 "Referer": "https://movie.douban.com/"
 }
 # 获取最外层的数据,并拿到url中的type中的name 和 类型
 self.url = 'https://movie.douban.com/chart'
 self.dydata_list = []
 # 电影的类型名
 self.name_list = name_list
 # 实例化excel表格对象
 self.wb = xlwt.Workbook()


 # 通过电影的类型名字获取对应的类型号
 def get_data_typenum(self, name):
 for data in self.dydata_list:
 if data['name'] == name:
 typenum =data['dytype']
 else:
 continue
 return typenum

 # 获取数据
 def get_data_p1(self):
 response = requests.get(self.url , headers = self.headers)
 # 判断长度是否足够大
 # print(len(response.content.decode()))
 return response.content.decode()

 # 获取下一层的页面数据
 def get_data_p2(self, typenum, num, limit):
 url = 'https://movie.douban.com/j/chart/top_list'
 params = {
 'type': typenum,
 'interval_id': '100:90',
 'action':'',
 'start': num*20,
 'limit': limit
 }
 response = requests.get(url,params=params,headers=self.headers)
 # print(response.json())
 return response.json()

 # 处理数据
 def data_parse_p1(self, data):
 html = etree.HTML(data)
 data_list = html.xpath('//div[@class="types"]/span/a/@href')
 # 用于收集类型名字
 name_list = []
 dytype_list = []
 # 用于收集类型号
 for data in data_list:
 name = data.split('?')[-1].split('&')[0].split('=')[-1]
 dytype = data.split('?')[-1].split('&')[1].split('=')[-1]
 name_list.append(name)
 dytype_list.append(dytype)
 for (name,dytype) in zip(name_list,dytype_list):
 dydict = {}
 dydict['name'] = name
 dydict['dytype'] = dytype
 self.dydata_list.append(dydict)
 # print(self.dydata_list)
 return self.dydata_list

 def data_parse_p2(self, data_list,name):
 print(len(data_list))
 douban = self.wb.add_sheet(name)
 style = xlwt.XFStyle() # 初始化一个style对象,用来保存excel的样式
 font = xlwt.Font() # 创建一个font对象,用来保存对字体进行的操作
 font.name = '微软雅黑' # 字体设置为'微软雅黑'
 font.bold = True # 字体加粗
 al = xlwt.Alignment() # 创建一个对齐对啊想,用来改变文本内容的字体
 style.font = font # 将字体信息保存到style对象中
 style.alignment = al

 # 水平对齐方式、水平居中
 al.horz = 0x02
 # 垂直对齐方式、垂直居中
 al.vert = 0x01

 # 电影的标题
 douban.col(0).width = 256 * 25
 # 电影演员的名字
 douban.col(1).width = 256 * 50
 # 电影上映的年份
 douban.col(2).width = 256 * 15
 # 电影上映的国家
 douban.col(3).width = 256 * 15
 # 电影的标签
 douban.col(4).width = 256 * 20
 # 电影的评分
 douban.col(5).width = 256 * 8
 # 豆瓣中该电影的页面链接
 douban.col(6).width = 256 * 40

 douban.write(0, 0, '电影标题', style)
 douban.write(0, 1, '电影演员名字', style)
 douban.write(0, 2, '电影上映年份', style)
 douban.write(0, 3, '电影上映国家', style)
 douban.write(0, 4, '电影标签', style)
 douban.write(0, 5, '电影评分', style)
 douban.write(0, 6, '豆瓣中该电影的页面链接', style)
 row = 1
 for data in data_list:
 # 电影的标题
 title = data['title']
 # 电影演员的名字
 actors = data['actors']
 # 电影上映的年份
 release_date = data['release_date']
 # 电影上映的国家
 regions = data['regions'][0]
 # 电影的标签
 types = data['types']
 # 电影评分
 score = data['score']
 # 豆瓣查看的链接
 link = data['url']
 douban.write(row, 0, title)
 douban.write(row, 1, actors)
 douban.write(row, 2, release_date)
 douban.write(row, 3, regions)
 douban.write(row, 4, types)
 douban.write(row, 5, score)
 douban.write(row, 6, link)
 row += 1
 self.wb.save('douban.xls')


 # 运行程序
 def run(self, num, limit):
 # 获取第一层中的所需要的类型名字和数字
 self.data_parse_p1(self.get_data_p1())
 for name in self.name_list:
 typenum = self.get_data_typenum(name)
 # 向指定的分类进行数据的访问
 data_list = self.get_data_p2(typenum,num,limit)
 # 对获取的数据进行解析保存
 self.data_parse_p2(data_list,name)


if __name__ == '__main__':
 # 需要查看的类型
 douban = DouBan(['喜剧','悬疑','惊悚'])
 # 需要查看的开始值start,以及需要查看的数量limit
 douban.run(0,100)
 time.sleep(2)

效果图pycharm 运行台

python爬取豆瓣电影排行榜(requests)的示例代码

excel表格显示

python爬取豆瓣电影排行榜(requests)的示例代码

本案例笔者的想法是打算先获取到每一个电影类型的前100个数据,然后在excel表格中进行评分的筛选,最后观察现阶段某个电影类型中哪些电影在豆瓣电影中评分较高的

到此这篇关于python爬取豆瓣电影排行榜(requests)的文章就介绍到这了,更多相关python爬取豆瓣电影内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python2.x和3.x下maketrans与translate函数使用上的不同
Apr 13 Python
介绍Python的Django框架中的静态资源管理器django-pipeline
Apr 25 Python
浅谈Python对内存的使用(深浅拷贝)
Jan 17 Python
解决pandas .to_excel不覆盖已有sheet的问题
Dec 10 Python
Python实现的爬取百度文库功能示例
Feb 16 Python
python+mysql实现学生信息查询系统
Feb 21 Python
Python骚操作之动态定义函数
Mar 26 Python
Python将主机名转换为IP地址的方法
Aug 14 Python
使用python3批量下载rbsp数据的示例代码
Dec 20 Python
Python新手学习函数默认参数设置
Jun 03 Python
python ansible自动化运维工具执行流程
Jun 24 Python
Python 中 Shutil 模块详情
Nov 11 Python
python 爬取腾讯视频评论的实现步骤
Feb 18 #Python
Python之qq自动发消息的示例代码
Feb 18 #Python
Python对excel的基本操作方法
Feb 18 #Python
No module named ‘win32gui‘ 的解决方法(踩坑之旅)
Feb 18 #Python
Python操作Excel的学习笔记
Feb 18 #Python
手把手教你用Django执行原生SQL的方法
Feb 18 #Python
python中封包建立过程实例
Feb 18 #Python
You might like
wamp安装后自定义配置的方法
2014/08/23 PHP
使用ltrace工具跟踪PHP库函数调用的方法
2016/04/25 PHP
php 使用html5实现多文件上传实例
2016/10/24 PHP
PHP实现的DES加密解密类定义与用法示例
2020/11/02 PHP
在phpstudy集成环境下的nginx服务器下配置url重写
2019/12/02 PHP
在第一个input框内输入内容.textarea自动得到第一个文件框的值的javascript代码
2007/04/20 Javascript
JavaScript中的一些定位属性[图解]
2010/07/14 Javascript
Js 时间间隔计算的函数(间隔天数)
2011/11/15 Javascript
在Javascript中 声明时用"var"与不用"var"的区别
2013/04/15 Javascript
JS中引用百度地图并将百度地图的logo和信息去掉
2013/09/29 Javascript
jquery下拉select控件操作方法分享(jquery操作select)
2014/03/25 Javascript
localResizeIMG先压缩后使用ajax无刷新上传(移动端)
2015/08/11 Javascript
jquery制作图片时钟特效
2020/03/30 Javascript
学习javascript面向对象 理解javascript对象
2016/01/04 Javascript
Windows环境下npm install 报错: operation not permitted, rename的解决方法
2016/09/26 Javascript
从0开始学Vue
2016/10/27 Javascript
webpack常用配置项配置文件介绍
2016/11/07 Javascript
Bootstrap风格的zTree右键菜单
2017/02/17 Javascript
浅谈原生JS实现jQuery的animate()动画示例
2017/03/08 Javascript
纯jQuery实现前端分页功能
2017/03/23 jQuery
Vue实现textarea固定输入行数与添加下划线样式的思路详解
2018/06/28 Javascript
package.json配置文件构成详解
2019/08/27 Javascript
vue实现五子棋游戏
2020/05/28 Javascript
三步搞定:Vue.js调用Android原生操作
2020/09/07 Javascript
Python getopt模块处理命令行选项实例
2014/05/13 Python
深入浅析python继承问题
2016/05/29 Python
详解python调度框架APScheduler使用
2017/03/28 Python
Python入门_条件控制(详解)
2017/05/16 Python
python中reader的next用法
2018/07/24 Python
Python使用monkey.patch_all()解决协程阻塞问题
2020/04/15 Python
python argparse模块通过后台传递参数实例
2020/04/20 Python
Python实现CAN报文转换工具教程
2020/05/05 Python
Python 远程开关机的方法
2020/11/18 Python
CSS3感应鼠标的背景闪烁和图片缩放动画效果
2014/05/14 HTML / CSS
日本AOKI官方商城:AOKI西装
2020/06/11 全球购物
大学校庆邀请函
2014/01/11 职场文书