Python爬虫框架Scrapy常用命令总结


Posted in Python onJuly 26, 2018

本文实例讲述了Python爬虫框架Scrapy常用命令。分享给大家供大家参考,具体如下:

在Scrapy中,工具命令分为两种,一种为全局命令,一种为项目命令

全局命令不需要依靠Scrapy项目就可以在全局中直接运行,而项目命令必须要在Scrapy项目中才可以运行

全局命令

全局命令有哪些呢,要想了解在Scrapy中有哪些全局命令,可以在不进入Scrapy项目所在目录的情况下,运行scrapy-h,如图所示:

Python爬虫框架Scrapy常用命令总结

可以看到,此时在可用命令在终端下展示出了常见的全局命令,分别为fetchrunspidersettingsshellstartprojectversionview

fetch命令

fetch命令主要用来显示爬虫爬取的过程.如下图所示:

Python爬虫框架Scrapy常用命令总结

在使用fetch命令时,同样可以使用某些参数进行相应的控制。那么fetch有哪些相关参数可以使用呢?我们可以通过scrpy fetch -h列出所有可以使用的fetch相关参数。比如我们可以使用?headers显示头信息,也可以使用?nolog控制不显示日志信息,还可以使用?spider=SPIDER参数来控制使用哪个爬虫,通过?logfile=FILE指定存储日志信息的文件,通过?loglevel=LEVEL控制日志等级。举个栗子:

# 显示头信息,并且不显示日志信息
scrpay -fetch --headers --nolog http://www.baidu.com

sunspider命令

通过runspider命令可以不依托scrapy的爬虫项目,直接运行一个爬虫文件

# first.py为自定义的一个爬虫文件
scrapy runspider first.py

settings命令

在scrapy项目所在的目录中使用settings命令查看的使用对应的项目配置信息,如果在scrapy项目所在的目录外使用settings命令查看的Scrapy默认的配置信息

# 在项目中使用此命令打印的为BOT_NAME对应的值,即scrapy项目名称。
# 在项目外使用此命令打印的为scrapybot
scrapy settings --get BOT_NAME

shell命令

通过shell命令可以启动Scrapy的交互终端。

Scrapy的交互终端经常在开发以及调试的时候用到,使用Scrapy的交互终端可以实现在不启动Scrapy爬虫的情况下,对网站响应进行调试,同样,在该交互终端下,我们也可以写一些Python代码进行相应测试。

Python爬虫框架Scrapy常用命令总结

>>>后面可以输入交互命令以及相应的代码

startproject命令

用于创建scrapy项目

version命令

查看scrapy版本

view命令

用于下载某个网页,然后通过浏览器查看

项目命令

bench命令

测试本地硬件的性能

scrapy bench

genspider命令

用于创建爬虫文件,这是一种快速创建爬虫文件的方式。

# scrpay genspider -t 基本格式
# basic 模板
# baidu.com 爬取的域名
scrapy genspider -t basic xxx baidu.com

此时在spider文件夹下会生成一个以xxx命名的py文件。可以使用scrapy genspider -l查看所有可用爬虫模板。当前可用的爬虫模板有:basiccrawlcsvfeedxmlfeed

check命令

使用check命令可以实现对某个爬虫文件进行合同检查,即测试.

# xxx为爬虫名
scrapy check xxx

crawl命令

启动某个爬虫

# xxx为爬虫名
scrapy crawl xxx

list命令

列出当前可使用的爬虫文件

scrapy list

edit命令

编辑爬虫文件

scrapy edit xxx

parse命令

通过parse命令,我们可以实现获取指定的URL网址,并使用对应的爬虫文件进行处理和分析

日志等级

等级名 含义
CRITICAL 发生了最严重的错误
ERROR 发生了必须立即处理的错误
WARNING 出现了一些警告信息,即存在潜在错误
INFO 输出一些提示显示
DEBUG 输出一些调试信息

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python计算圆周长、面积、球体体积并画出圆
Apr 08 Python
Python入门及进阶笔记 Python 内置函数小结
Aug 09 Python
Python中基础的socket编程实战攻略
Jun 01 Python
python发送邮件功能实现代码
Jul 15 Python
Python创建xml文件示例
Mar 22 Python
python的构建工具setup.py的方法使用示例
Oct 23 Python
浅谈Python使用Bottle来提供一个简单的web服务
Dec 27 Python
Java与Python两大幸存者谁更胜一筹呢
Apr 12 Python
python range()函数取反序遍历sequence的方法
Jun 25 Python
python3实现钉钉消息推送的方法示例
Mar 14 Python
在CentOS7下安装Python3教程解析
Jul 09 Python
Django+RestFramework API接口及接口文档并返回json数据操作
Jul 12 Python
Python退火算法在高次方程的应用
Jul 26 #Python
Python爬虫框架Scrapy基本用法入门教程
Jul 26 #Python
Tensorflow 合并通道及加载子模型的方法
Jul 26 #Python
解决tensorflow测试模型时NotFoundError错误的问题
Jul 26 #Python
tensorflow 恢复指定层与不同层指定不同学习率的方法
Jul 26 #Python
kaggle+mnist实现手写字体识别
Jul 26 #Python
解决tensorflow模型参数保存和加载的问题
Jul 26 #Python
You might like
全国FM电台频率大全 - 14 江西省
2020/03/11 无线电
用php+javascript实现二级级联菜单的制作
2008/05/06 PHP
PHP字符串 ==比较运算符的副作用
2009/10/21 PHP
Yii中CGridView关联表搜索排序方法实例详解
2014/12/03 PHP
PHP实现冒泡排序的简单实例
2016/05/26 PHP
PHP使用数组实现矩阵数学运算的方法示例
2017/05/29 PHP
js判断浏览器的比较全的代码
2007/02/13 Javascript
JS字符串函数扩展代码
2011/09/13 Javascript
JQuery调用绑定click事件的3种写法
2015/03/28 Javascript
js代码验证手机号码和电话号码是否合法
2015/07/30 Javascript
基于jquery实现放大镜效果
2015/08/17 Javascript
js 实现数值的千分位及保存小数方法(推荐)
2016/08/01 Javascript
nodejs简单实现操作arduino
2016/09/25 NodeJs
利用Plupload.js解决大文件上传问题, 带进度条和背景遮罩层
2017/03/15 Javascript
jQuery.ajax向后台传递数组问题的解决方法
2017/05/12 jQuery
canvas+gif.js打造自己的数字雨头像的示例代码
2017/10/26 Javascript
js实现敏感词过滤算法及实现逻辑
2018/07/24 Javascript
JavaScript解析机制与闭包原理实例详解
2019/03/08 Javascript
ES6 Array常用扩展的应用实例分析
2019/06/26 Javascript
vue中使用[provide/inject]实现页面reload的方法
2019/09/30 Javascript
[02:55]DOTA2英雄基础教程 发条技师
2013/12/04 DOTA
python实现清屏的方法
2015/04/30 Python
python爬取哈尔滨天气信息
2018/07/14 Python
解决PyCharm同目录下导入模块会报错的问题
2018/10/13 Python
查看python安装路径及pip安装的包列表及路径
2019/04/03 Python
Python基于Opencv来快速实现人脸识别过程详解(完整版)
2019/07/11 Python
详解Python中正则匹配TAB及空格的小技巧
2019/07/26 Python
jupyter notebook读取/导出文件/图片实例
2020/04/16 Python
Python 利用argparse模块实现脚本命令行参数解析
2020/12/28 Python
园林资料员岗位职责
2013/12/30 职场文书
土木工程求职信
2014/05/29 职场文书
计算机应用专业自荐信
2014/07/05 职场文书
教师工作能力自我评价
2015/03/04 职场文书
2015社区健康教育工作总结
2015/05/20 职场文书
毕业证明模板
2015/06/19 职场文书
2016年过年放假安排通知
2015/08/18 职场文书