Python中Pyspider爬虫框架的基本使用详解


Posted in Python onJanuary 27, 2021

1.pyspider介绍  

     一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。

  • 用Python编写脚本
  • 功能强大的WebUI,包含脚本编辑器,任务监视器,项目管理器和结果查看器
  • MySQL,MongoDB,Redis,SQLite,Elasticsearch ; PostgreSQL与SQLAlchemy作为数据库后端
  • RabbitMQ,Beanstalk,Redis和Kombu作为消息队列
  • 任务优先级,重试,定期,按年龄重新抓取等...
  • 分布式架构,抓取JavaScript页面,Python 2和3等... 

2.pyspider文档

1>中文文档:http://www.pyspider.cn/

2>英文文档:http://docs.pyspider.org/

3.pyspider安装

打开cmd命令行工具,执行命令

pip install pyspider

Python中Pyspider爬虫框架的基本使用详解

出现下图则安装成功

Python中Pyspider爬虫框架的基本使用详解

4.pyspider启动服务,进入WebUI界面

安装pyspider后,打开cmd命令工具,执行命令来启动服务器

pyspider

Python中Pyspider爬虫框架的基本使用详解

出现下图则启动服务成功,默认地址端口为127.0.0.1:5000

Python中Pyspider爬虫框架的基本使用详解

输入地址127.0.0.1:5000,打开WebUI界面

Python中Pyspider爬虫框架的基本使用详解

队列统计是为了方便查看爬虫状态,优化爬虫爬取速度新增的状态统计.每个组件之间的数字就是对应不同队列的排队数量.通常来是0或是个位数.如果达到了几十甚至一百说明下游组件出现了瓶颈或错误,需要分析处理.

新建项目:pyspider与scrapy最大的区别就在这,pyspider新建项目调试项目完全在web下进行,而scrapy是在命令行下开发并运行测试.

组名:项目新建后一般来说是不能修改项目名的,如果需要特殊标记可修改组名.直接在组名上点鼠标左键进行修改.注意:组名改为delete后如果状态为stop状态,24小时后项目会被系统删除.

运行状态:这一栏显示的是当前项目的运行状态.每个项目的运行状态都是单独设置的.直接在每个项目的运行状态上点鼠标左键进行修改.运行分为五个状态:TODO,STOP,CHECKING,DEBUG,RUNNING.各状态说明:TODO是新建项目后的默认状态,不会运行项目.STOP状态是停止状态,也不会运行.CHECHING是修改项目代码后自动变的状态.DEBUG是调试模式,遇到错误信息会停止继续运行,RUNNING是运行状态,遇到错误会自动尝试,如果还是错误会跳过错误的任务继续运行.

速度控制:很多朋友安装好用说爬的慢,多数情况是速度被限制了.这个功能就是速度设置项.rate是每秒爬取页面数,burst是并发数.如1/3是三个并发,每秒爬取一个页面.

简单统计:这个功能只是简单的做的运行状态统计,5m是五分钟内任务执行情况,1h是一小时内运行任务统计,1d是一天内运行统计,all是所有的任务统计.

运行:run按钮是项目初次运行需要点的按钮,这个功能会运行项目的on_start方法来生成入口任务.

任务列表:显示最新任务列表,方便查看状态,查看错误等

结果查看:查看项目爬取的结果.

5.创建pyspider项目

点击上图中的新建项目按钮

Python中Pyspider爬虫框架的基本使用详解

6.创建后的pyspider项目

Python中Pyspider爬虫框架的基本使用详解

Python中Pyspider爬虫框架的基本使用详解

Python中Pyspider爬虫框架的基本使用详解

到此这篇关于Python中Pyspider爬虫框架的基本使用详解的文章就介绍到这了,更多相关Pyspider爬虫框架使用内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
linux下安装easy_install的方法
Feb 10 Python
在Python中使用模块的教程
Apr 27 Python
用Python遍历C盘dll文件的方法
May 06 Python
浅谈python中set使用
Jun 30 Python
Python的语言类型(详解)
Jun 24 Python
Python3中正则模块re.compile、re.match及re.search函数用法详解
Jun 11 Python
在Pycharm中执行scrapy命令的方法
Jan 16 Python
Python实现对特定列表进行从小到大排序操作示例
Feb 11 Python
Python PyQt5运行程序把输出信息展示到GUI图形界面上
Apr 27 Python
解决在keras中使用model.save()函数保存模型失败的问题
May 21 Python
Python爬取12306车次信息代码详解
Aug 12 Python
Pytorch可视化的几种实现方法
Jun 10 Python
Python3 + Appium + 安卓模拟器实现APP自动化测试并生成测试报告
Jan 27 #Python
一个入门级python爬虫教程详解
Jan 27 #Python
python+selenium爬取微博热搜存入Mysql的实现方法
Jan 27 #Python
Python实现网络聊天室的示例代码(支持多人聊天与私聊)
Jan 27 #Python
基于Python的接口自动化unittest测试框架和ddt数据驱动详解
Jan 27 #Python
python实现scrapy爬虫每天定时抓取数据的示例代码
Jan 27 #Python
使用bandit对目标python代码进行安全函数扫描的案例分析
Jan 27 #Python
You might like
php中通过正则表达式下载内容中的远程图片的函数代码
2012/01/10 PHP
Zend Framework处理Json数据方法详解
2016/12/09 PHP
SWFObject 2.1以上版本语法介绍
2010/07/10 Javascript
jQuery 数据缓存模块进化史详细介绍
2012/11/19 Javascript
jQuery filter函数使用方法
2014/05/19 Javascript
详解JavaScript中常用的函数类型
2015/11/18 Javascript
基于JavaScript获取鼠标位置的各种方法
2015/12/16 Javascript
AngularJS向后端ASP.NET API控制器上传文件
2016/02/03 Javascript
jquery zTree异步加载简单实例讲解
2016/02/25 Javascript
jQuery 3.0中存在问题及解决办法
2016/07/15 Javascript
jQuery自制提示框tooltip改进版
2016/08/01 Javascript
js 数据存储和DOM编程
2017/02/09 Javascript
JavaScript代码执行的先后顺序问题
2017/10/29 Javascript
jQuery使用动画队列自定义动画操作示例
2018/06/16 jQuery
一些你可能不熟悉的JS知识点总结
2019/03/15 Javascript
基于mpvue搭建微信小程序项目框架的教程详解
2019/04/10 Javascript
JS中的算法与数据结构之队列(Queue)实例详解
2019/08/20 Javascript
Vue中keep-alive组件的深入理解
2020/08/23 Javascript
JavaScript使用setTimeout实现倒计时效果
2021/02/19 Javascript
[56:24]DOTA2上海特级锦标赛主赛事日 - 3 胜者组第二轮#1Liquid VS MVP.Phx第二局
2016/03/04 DOTA
python用装饰器自动注册Tornado路由详解
2017/02/14 Python
Django2.1集成xadmin管理后台所遇到的错误集锦(填坑)
2018/12/20 Python
Python实现KNN(K-近邻)算法的示例代码
2019/03/05 Python
Python实现的服务器示例小结【单进程、多进程、多线程、非阻塞式】
2019/05/23 Python
python中的&&及||的实现示例
2019/08/07 Python
python3 selenium自动化 frame表单嵌套的切换方法
2019/08/23 Python
python GUI库图形界面开发之PyQt5 UI主线程与耗时线程分离详细方法实例
2020/02/26 Python
在canvas上实现元素图片镜像翻转动画效果的方法
2018/03/20 HTML / CSS
即将毕业大学生自荐信
2014/01/24 职场文书
大学自我评价
2014/02/12 职场文书
2014派出所所长群众路线对照检查材料思想汇报
2014/09/18 职场文书
药品销售内勤岗位职责
2015/04/13 职场文书
唐山大地震的观后感
2015/06/05 职场文书
高中体育课教学反思
2016/02/16 职场文书
Django展示可视化图表的多种方式
2021/04/08 Python
Redis全局ID生成器的实现
2022/06/05 Redis