python爬虫用scrapy获取影片的实例分析


Posted in Python onNovember 23, 2020

我们平时生活的娱乐中,看电影是大部分小伙伴都喜欢的事情。周围的人总会有意无意的在谈论,有什么影片上映,好不好看之类的话题,没事的时候谈论电影是非常不错的话题。那么,一些好看的影片如果不去电影院的话,在其他地方看都会有大大小小的限制,今天小编就教大家用python中的scrapy获取影片的办法吧。

1. 创建项目

运行命令:

scrapy startproject myfrist(your_project_name)

python爬虫用scrapy获取影片的实例分析

文件说明: 名称 | 作用 --|-- scrapy.cfg | 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中) items.py | 设置数据存储模板,用于结构化数据,如:Django的Model pipelines | 数据处理行为,如:一般结构化的数据持久化 settings.py | 配置文件,如:递归的层数、并发数,延迟下载等 spiders | 爬虫目录,如:创建文件,编写爬虫规则

注意:一般创建爬虫文件时,以网站域名命名

2 编写 spdier

在spiders目录中新建 daidu_spider.py 文件

2.1 注意

爬虫文件需要定义一个类,并继承scrapy.spiders.Spider

必须定义name,即爬虫名,如果没有name,会报错。因为源码中是这样定义的

2.2 编写内容

在这里可以告诉 scrapy 。要如何查找确切数据,这里必须要定义一些属性

name: 它定义了蜘蛛的唯一名称

allowed_domains: 它包含了蜘蛛抓取的基本URL;

start-urls: 蜘蛛开始爬行的URL列表;

parse(): 这是提取并解析刮下数据的方法;

下面的代码演示了蜘蛛代码的样子:

import scrapy
class DoubanSpider(scrapy.Spider):
  name = 'douban'
  allwed_url = 'douban.com'
  start_urls = [
    'https://movie.douban.com/top250/'
  ]
  def parse(self, response):
    movie_name = response.xpath("//div[@class='item']//a/span[1]/text()").extract()
    movie_core = response.xpath("//div[@class='star']/span[2]/text()").extract()
    yield {
      'movie_name':movie_name,
      'movie_core':movie_core
    }

到此这篇关于python爬虫用scrapy获取影片的实例分析的文章就介绍到这了,更多相关python爬虫如何用scrapy获取影片内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中getattr函数和hasattr函数作用详解
Jun 14 Python
Python中音频处理库pydub的使用教程
Jun 07 Python
利用Tkinter和matplotlib两种方式画饼状图的实例
Nov 06 Python
Python批处理删除和重命名文件夹的实例
Jul 11 Python
python版飞机大战代码分享
Nov 20 Python
利用Pyhton中的requests包进行网页访问测试的方法
Dec 26 Python
Python标准库:内置函数max(iterable, *[, key, default])说明
Apr 25 Python
python map比for循环快在哪
Sep 21 Python
scrapy结合selenium解析动态页面的实现
Sep 28 Python
python 利用panda 实现列联表(交叉表)
Feb 06 Python
秀!学妹看见都惊呆的Python小招数!【详细语言特性使用技巧】
Apr 27 Python
Python中的嵌套循环详情
Mar 23 Python
python爬虫scrapy图书分类实例讲解
Nov 23 #Python
scrapy处理python爬虫调度详解
Nov 23 #Python
利用Python将多张图片合成视频的实现
Nov 23 #Python
Python系统公网私网流量监控实现流程
Nov 23 #Python
Python 调用 ES、Solr、Phoenix的示例代码
Nov 23 #Python
10个示例带你掌握python中的元组
Nov 23 #Python
详解anaconda安装步骤
Nov 23 #Python
You might like
删除及到期域名的查看(抢域名必备哦)
2008/05/14 PHP
PHPExcel中文帮助手册|PHPExcel使用方法(分享)
2017/06/09 PHP
jQuery Flash/MP3/Video多媒体插件
2010/01/18 Javascript
Jquery实现显示和隐藏的4种简单方式
2013/08/28 Javascript
原生javascript模仿win8等待提示圆圈进度条
2014/04/24 Javascript
node.js开机自启动脚本文件
2014/12/24 Javascript
javascript解三阶幻方(九宫格)
2015/04/22 Javascript
windows下安装nodejs及框架express
2015/08/07 NodeJs
基于jquery实现智能表单验证操作
2016/05/09 Javascript
js定义类的几种方法(推荐)
2016/06/08 Javascript
JS原型对象的创建方法详解
2016/06/16 Javascript
浅谈JavaScript对象与继承
2016/07/10 Javascript
JS和canvas实现俄罗斯方块
2017/03/14 Javascript
Extjs表单输入框异步校验的插件实现方法
2017/03/20 Javascript
详解Node.js项目APM监控之New Relic
2017/05/12 Javascript
关于Angular2 + node接口调试的解决方案
2017/05/28 Javascript
Easyui Datagrid自定义按钮列(最后面的操作列)
2017/07/13 Javascript
vue移动UI框架滑动加载数据的方法
2018/03/12 Javascript
微信公众平台获取access_token的方法步骤
2019/03/29 Javascript
小程序云开发实现数据库异步操作同步化
2019/05/18 Javascript
JS实现百度搜索框关键字推荐
2020/02/17 Javascript
[49:20]2014 DOTA2国际邀请赛中国区预选赛5.21 CIS VS TongFu
2014/05/22 DOTA
python实现遍历文件夹修改文件后缀
2018/08/28 Python
win7 x64系统中安装Scrapy的方法
2018/11/18 Python
用Python编写一个高效的端口扫描器的方法
2018/12/20 Python
python根据文本生成词云图代码实例
2019/11/15 Python
python 定义类时,实现内部方法的互相调用
2019/12/25 Python
python中requests模拟登录的三种方式(携带cookie/session进行请求网站)
2020/11/17 Python
HTML5如何实现元素拖拽
2016/03/11 HTML / CSS
工程资料员岗位职责
2014/03/10 职场文书
解除劳动合同协议书范本
2014/09/13 职场文书
单位法定代表人授权委托书
2014/09/20 职场文书
关于成绩下滑的自我检讨书
2014/09/20 职场文书
电子商务实训报告总结
2014/11/05 职场文书
2014年银行信贷员工作总结
2014/12/08 职场文书
Python基础之Socket通信原理
2021/04/22 Python