Python爬虫框架Scrapy常用命令总结


Posted in Python onJuly 26, 2018

本文实例讲述了Python爬虫框架Scrapy常用命令。分享给大家供大家参考,具体如下:

在Scrapy中,工具命令分为两种,一种为全局命令,一种为项目命令

全局命令不需要依靠Scrapy项目就可以在全局中直接运行,而项目命令必须要在Scrapy项目中才可以运行

全局命令

全局命令有哪些呢,要想了解在Scrapy中有哪些全局命令,可以在不进入Scrapy项目所在目录的情况下,运行scrapy-h,如图所示:

Python爬虫框架Scrapy常用命令总结

可以看到,此时在可用命令在终端下展示出了常见的全局命令,分别为fetchrunspidersettingsshellstartprojectversionview

fetch命令

fetch命令主要用来显示爬虫爬取的过程.如下图所示:

Python爬虫框架Scrapy常用命令总结

在使用fetch命令时,同样可以使用某些参数进行相应的控制。那么fetch有哪些相关参数可以使用呢?我们可以通过scrpy fetch -h列出所有可以使用的fetch相关参数。比如我们可以使用?headers显示头信息,也可以使用?nolog控制不显示日志信息,还可以使用?spider=SPIDER参数来控制使用哪个爬虫,通过?logfile=FILE指定存储日志信息的文件,通过?loglevel=LEVEL控制日志等级。举个栗子:

# 显示头信息,并且不显示日志信息
scrpay -fetch --headers --nolog http://www.baidu.com

sunspider命令

通过runspider命令可以不依托scrapy的爬虫项目,直接运行一个爬虫文件

# first.py为自定义的一个爬虫文件
scrapy runspider first.py

settings命令

在scrapy项目所在的目录中使用settings命令查看的使用对应的项目配置信息,如果在scrapy项目所在的目录外使用settings命令查看的Scrapy默认的配置信息

# 在项目中使用此命令打印的为BOT_NAME对应的值,即scrapy项目名称。
# 在项目外使用此命令打印的为scrapybot
scrapy settings --get BOT_NAME

shell命令

通过shell命令可以启动Scrapy的交互终端。

Scrapy的交互终端经常在开发以及调试的时候用到,使用Scrapy的交互终端可以实现在不启动Scrapy爬虫的情况下,对网站响应进行调试,同样,在该交互终端下,我们也可以写一些Python代码进行相应测试。

Python爬虫框架Scrapy常用命令总结

>>>后面可以输入交互命令以及相应的代码

startproject命令

用于创建scrapy项目

version命令

查看scrapy版本

view命令

用于下载某个网页,然后通过浏览器查看

项目命令

bench命令

测试本地硬件的性能

scrapy bench

genspider命令

用于创建爬虫文件,这是一种快速创建爬虫文件的方式。

# scrpay genspider -t 基本格式
# basic 模板
# baidu.com 爬取的域名
scrapy genspider -t basic xxx baidu.com

此时在spider文件夹下会生成一个以xxx命名的py文件。可以使用scrapy genspider -l查看所有可用爬虫模板。当前可用的爬虫模板有:basiccrawlcsvfeedxmlfeed

check命令

使用check命令可以实现对某个爬虫文件进行合同检查,即测试.

# xxx为爬虫名
scrapy check xxx

crawl命令

启动某个爬虫

# xxx为爬虫名
scrapy crawl xxx

list命令

列出当前可使用的爬虫文件

scrapy list

edit命令

编辑爬虫文件

scrapy edit xxx

parse命令

通过parse命令,我们可以实现获取指定的URL网址,并使用对应的爬虫文件进行处理和分析

日志等级

等级名 含义
CRITICAL 发生了最严重的错误
ERROR 发生了必须立即处理的错误
WARNING 出现了一些警告信息,即存在潜在错误
INFO 输出一些提示显示
DEBUG 输出一些调试信息

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python中的测试模块unittest和doctest的使用教程
Apr 14 Python
实例解析Python的Twisted框架中Deferred对象的用法
May 25 Python
Python部署web开发程序的几种方法
May 05 Python
浅谈python中的正则表达式(re模块)
Oct 17 Python
Python并发编程协程(Coroutine)之Gevent详解
Dec 27 Python
Python 从一个文件中调用另一个文件的类方法
Jan 10 Python
Django项目基础配置和基本使用过程解析
Nov 25 Python
浅谈numpy中np.array()与np.asarray的区别以及.tolist
Jun 03 Python
Python中的整除和取模实例
Jun 03 Python
套娃式文件夹如何通过Python批量处理
Aug 23 Python
Python生成并下载文件后端代码实例
Aug 31 Python
浅析Python requests 模块
Oct 09 Python
Python退火算法在高次方程的应用
Jul 26 #Python
Python爬虫框架Scrapy基本用法入门教程
Jul 26 #Python
Tensorflow 合并通道及加载子模型的方法
Jul 26 #Python
解决tensorflow测试模型时NotFoundError错误的问题
Jul 26 #Python
tensorflow 恢复指定层与不同层指定不同学习率的方法
Jul 26 #Python
kaggle+mnist实现手写字体识别
Jul 26 #Python
解决tensorflow模型参数保存和加载的问题
Jul 26 #Python
You might like
php简单定时执行任务的实现方法
2015/02/23 PHP
基于PHP实现等比压缩图片大小
2016/03/04 PHP
10个对初学者非常有用的PHP技巧
2016/04/06 PHP
JavaScript实现删除电脑的关机键
2016/07/26 PHP
解决laravel 出现ajax请求419(unknown status)的问题
2019/09/03 PHP
服务端 VBScript 与 JScript 几个相同特性的写法 By shawl.qiu
2007/03/06 Javascript
JQuery与iframe交互实现代码
2009/12/24 Javascript
BooStrap对导航条的改造实践小结
2016/09/21 Javascript
Bootstrap学习笔记之环境配置(1)
2016/12/07 Javascript
JavaScript中校验银行卡号的实现代码
2016/12/19 Javascript
ES6概念 ymbol.for()方法
2016/12/25 Javascript
Vue表单验证插件的制作过程
2017/04/01 Javascript
JavaScript中错误正确处理方式小结你用对了吗
2017/10/10 Javascript
json字符串传到前台input的方法
2018/08/06 Javascript
Node.js + express基本用法教程
2019/03/14 Javascript
微信小程序 生成携带参数的二维码
2019/10/23 Javascript
jQuery实现中奖播报功能(让文本滚动起来) 简单设置数值即可
2020/03/20 jQuery
JavaScript检测是否开启了控制台(F12调试工具)
2020/10/02 Javascript
JavaScript通如何过RGraph实现动态仪表盘
2020/10/15 Javascript
python中的一些类型转换函数小结
2013/02/10 Python
使用Python进行稳定可靠的文件操作详解
2013/12/31 Python
Using Django with GAE Python 后台抓取多个网站的页面全文
2016/02/17 Python
Python使用multiprocessing实现一个最简单的分布式作业调度系统
2016/03/14 Python
Python编程实现数学运算求一元二次方程的实根算法示例
2017/04/02 Python
python中logging库的使用总结
2017/10/18 Python
pandas表连接 索引上的合并方法
2018/06/08 Python
Python读取数据集并消除数据中的空行方法
2018/07/12 Python
python tkinter界面居中显示的方法
2018/10/11 Python
蛋白质世界:Protein World
2017/11/23 全球购物
升职自荐信
2013/11/28 职场文书
工程售后服务承诺书
2014/05/21 职场文书
医院标语大全
2014/06/23 职场文书
学习朴航瑛老师爱岗敬业先进事迹思想汇报
2014/09/17 职场文书
环保宣传语大全
2015/07/13 职场文书
幼儿园毕业致辞
2015/07/29 职场文书
《传颂之物 虚伪的假面》BD发售宣传CM公开
2022/04/04 日漫