编程 Python

python requests库爬取豆瓣电视剧数据并保存到本地详解

Posted in Python onAugust 10, 2019

首先要做的就是去豆瓣网找对应的接口，这里就不赘述了，谷歌浏览器抓包即可，然后要做的就是分析返回的json数据的结构：

https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=recommend&page_limit=20&page_start=0

这是接口地址，可以大概的分析一下各个参数的规则：

type=tv，表示的是电视剧的分类
tag=国产剧，表示是国产剧的分类
sort参数，这里猜测是一个排序方式
page_limit=20，这个一定就是每页所存取的数据数量了
page_start=0，表示的是这页从哪条数据开始，比如第二页就为page_start=20，第三页为page_start=40，以此类推
最终我们要用到的主要是page_start和page_limit两个参数

下面这里是返回的json数据格式，可以看出我们要的是json中subjects列表中的每条数据，在之后的程序中会把每一个电视剧的信息保存到文件里的一行

python requests库爬取豆瓣电视剧数据并保存到本地详解

有了这些，就直接上程序了，因为感觉程序还是比较好懂，主要还是遵从面向对象的程序设计：

import json
import requests


class DoubanSpider(object):
  """爬取豆瓣热门国产电视剧的数据并保存到本地"""

  def __init__(self):
    # url_temp中的start的值是动态的，所以这里用{}替换，方便后面使用format方法
    self.url_temp = 'https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=recommend&page_limit=20&page_start={}'
    self.headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
    }

  def pass_url(self, url): # 发送请求，获取响应
    print(url)
    response = requests.get(url, headers=self.headers)
    return response.content.decode()

  def get_content_list(self, json_str): # 提取数据
    dict_ret = json.loads(json_str)
    content_list = dict_ret['subjects']
    return content_list

  def save_content_list(self, content_list): # 保存
    with open('douban.txt', 'a', encoding='utf-8') as f:
      for content in content_list:
        f.write(json.dumps(content, ensure_ascii=False)) # 一部电视剧的信息一行
        f.write('\n') # 写入换行符进行换行
    print('保存成功！')


  def run(self): # 实现主要逻辑
    num = 0
    while True:
      # 1. start_url
      url = self.url_temp.format(num)
      # 2. 发送请求，获取响应
      json_str = self.pass_url(url)
      # 3. 提取数据
      content_list = self.get_content_list(json_str)
      # 4. 保存
      self.save_content_list(content_list)
      if len(content_list) < 20:
        break
      # 5. 构造下一页url地址，进入循环
      num += 20 # 每一页有二十条数据


if __name__ == '__main__':
  douban_spider = DoubanSpider()
  douban_spider.run()

上面是利用循环遍历每一页，后来我又想到用递归也可以，虽然递归效率可能不高，这里还是展示一下，只需要改几个地方而已：

import json
import requests


class DoubanSpider(object):
  """爬取豆瓣热门国产电视剧的数据并保存到本地"""
  def __init__(self):
    # url_temp中的start的值是动态的，所以这里用{}替换，方便后面使用format方法
    self.url_temp = 'https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=recommend&page_limit=20&page_start={}'
    self.headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
    }
    self.num = 0

  def pass_url(self, url): # 发送请求，获取响应
    print(url)
    response = requests.get(url, headers=self.headers)
    return response.content.decode()

  def get_content_list(self, json_str): # 提取数据
    dict_ret = json.loads(json_str)
    content_list = dict_ret['subjects']
    return content_list

  def save_content_list(self, content_list): # 保存
    with open('douban2.txt', 'a', encoding='utf-8') as f:
      for content in content_list:
        f.write(json.dumps(content, ensure_ascii=False)) # 一部电视剧的信息一行
        f.write('\n') # 写入换行符进行换行
    print('保存成功！')


  def run(self): # 实现主要逻辑
    # 1. start_url
    url = self.url_temp.format(self.num)
    # 2. 发送请求，获取响应
    json_str = self.pass_url(url)
    # 3. 提取数据
    content_list = self.get_content_list(json_str)
    # 4. 保存
    self.save_content_list(content_list)
    # 5. 构造下一页url地址，进入循环
    if len(content_list) == 20:
      self.num += 20 # 每一页有二十条数据
      self.run()


if __name__ == '__main__':
  douban_spider = DoubanSpider()
  douban_spider.run()

最终文件得到的结果：

python requests库爬取豆瓣电视剧数据并保存到本地详解

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python requests库爬取豆瓣电视剧数据并保存到本地详解

- Author -

springionic

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中操作MySQL入门实例

Feb 08 Python

简单的Apache+FastCGI+Django配置指南

Jul 22 Python

python去掉行尾的换行符方法

Jan 04 Python

Python单例模式实例详解

Mar 01 Python

Django中利用filter与simple_tag为前端自定义函数的实现方法

Jun 15 Python

python遍历序列enumerate函数浅析

Oct 17 Python

python绘制简单折线图代码示例

Dec 19 Python

关于PyTorch 自动求导机制详解

Aug 18 Python

python爬虫实现获取下一页代码

Mar 13 Python

Python爬虫爬取新闻资讯案例详解

Jul 14 Python

python使用matplotlib的savefig保存时图片保存不完整的问题

Jan 08 Python

pytorch 实现L2和L1正则化regularization的操作

Mar 03 Python

python实现邮件发送功能

Aug 10 #Python

Python字典推导式将cookie字符串转化为字典解析

Aug 10 #Python

python selenium登录豆瓣网过程解析

Aug 10 #Python

python matplotlib库绘制散点图例题解析

Aug 10 #Python

python matplotlib库绘制条形图练习题

Aug 10 #Python

Python OpenCV实现鼠标画框效果

Aug 19 #Python

python opencv鼠标事件实现画框圈定目标获取坐标信息

Apr 18 #Python

You might like

php过滤危险html代码

2008/08/18 PHP

php实现的支持imagemagick及gd库两种处理的缩略图生成类

2014/09/23 PHP

php和vue配合使用技巧和方法

2019/05/09 PHP

ThinkPHP5框架中使用JWT的方法示例

2020/06/03 PHP

用window.location.href实现刷新另个框架页面

2007/03/07 Javascript

基于jquery的内容循环滚动小模块（仿新浪微博未登录首页滚动微博显示）

2011/03/28 Javascript

JS的千分位算法实现思路

2013/07/31 Javascript

javascript函数的四种调用模式

2017/01/08 Javascript

vue如何引用其他组件（css和js）

2017/04/13 Javascript

详解在 Angular 项目中添加 clean-blog 模板

2017/07/04 Javascript

微信小程序同步请求授权的详解

2017/08/04 Javascript

理理Vue细节（推荐）

2019/04/16 Javascript

封装一下vue中的axios示例代码详解

2020/02/16 Javascript

Node.js API详解之 string_decoder用法实例分析

2020/04/29 Javascript

js实现表格单列按字母排序

2020/08/12 Javascript

vue组件中实现嵌套子组件案例

2020/08/31 Javascript

原生js实现购物车

2020/09/23 Javascript

[56:29]Secret vs Optic 2018国际邀请赛小组赛BO2 第一场 8.18

2018/08/19 DOTA

使用Pyrex来扩展和加速Python程序的教程

2015/04/13 Python

Python编程实现二分法和牛顿迭代法求平方根代码

2017/12/04 Python

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码

2018/03/04 Python

使用python画个小猪佩奇的示例代码

2018/06/06 Python

使用python根据端口号关闭进程的方法

2018/11/06 Python

Python栈的实现方法示例【列表、单链表】

2020/02/22 Python

Python IDLE或shell中切换路径的操作

2020/03/09 Python

Django更新models数据库结构步骤

2020/04/01 Python

Python txt文件常用读写操作代码实例

2020/08/03 Python

python使用建议技巧分享（三）

2020/08/18 Python

Michael Kors加拿大官网：购买设计师手袋、手表、鞋子、服装等

2019/03/16 全球购物

Oracle中delete,truncate和drop的区别

2016/05/05 面试题

工程管理专业毕业生自荐信

2014/01/24 职场文书

教师个人剖析材料

2014/02/05 职场文书

《独坐敬亭山》教学反思

2014/04/08 职场文书

离婚协议书怎样才有法律效力

2014/10/10 职场文书

2015年酒店工作总结

2015/04/28 职场文书

GO语言异常处理分析 err接口及defer延迟

2022/04/14 Golang