Python爬虫框架Scrapy常用命令总结


Posted in Python onJuly 26, 2018

本文实例讲述了Python爬虫框架Scrapy常用命令。分享给大家供大家参考,具体如下:

在Scrapy中,工具命令分为两种,一种为全局命令,一种为项目命令

全局命令不需要依靠Scrapy项目就可以在全局中直接运行,而项目命令必须要在Scrapy项目中才可以运行

全局命令

全局命令有哪些呢,要想了解在Scrapy中有哪些全局命令,可以在不进入Scrapy项目所在目录的情况下,运行scrapy-h,如图所示:

Python爬虫框架Scrapy常用命令总结

可以看到,此时在可用命令在终端下展示出了常见的全局命令,分别为fetchrunspidersettingsshellstartprojectversionview

fetch命令

fetch命令主要用来显示爬虫爬取的过程.如下图所示:

Python爬虫框架Scrapy常用命令总结

在使用fetch命令时,同样可以使用某些参数进行相应的控制。那么fetch有哪些相关参数可以使用呢?我们可以通过scrpy fetch -h列出所有可以使用的fetch相关参数。比如我们可以使用?headers显示头信息,也可以使用?nolog控制不显示日志信息,还可以使用?spider=SPIDER参数来控制使用哪个爬虫,通过?logfile=FILE指定存储日志信息的文件,通过?loglevel=LEVEL控制日志等级。举个栗子:

# 显示头信息,并且不显示日志信息
scrpay -fetch --headers --nolog http://www.baidu.com

sunspider命令

通过runspider命令可以不依托scrapy的爬虫项目,直接运行一个爬虫文件

# first.py为自定义的一个爬虫文件
scrapy runspider first.py

settings命令

在scrapy项目所在的目录中使用settings命令查看的使用对应的项目配置信息,如果在scrapy项目所在的目录外使用settings命令查看的Scrapy默认的配置信息

# 在项目中使用此命令打印的为BOT_NAME对应的值,即scrapy项目名称。
# 在项目外使用此命令打印的为scrapybot
scrapy settings --get BOT_NAME

shell命令

通过shell命令可以启动Scrapy的交互终端。

Scrapy的交互终端经常在开发以及调试的时候用到,使用Scrapy的交互终端可以实现在不启动Scrapy爬虫的情况下,对网站响应进行调试,同样,在该交互终端下,我们也可以写一些Python代码进行相应测试。

Python爬虫框架Scrapy常用命令总结

>>>后面可以输入交互命令以及相应的代码

startproject命令

用于创建scrapy项目

version命令

查看scrapy版本

view命令

用于下载某个网页,然后通过浏览器查看

项目命令

bench命令

测试本地硬件的性能

scrapy bench

genspider命令

用于创建爬虫文件,这是一种快速创建爬虫文件的方式。

# scrpay genspider -t 基本格式
# basic 模板
# baidu.com 爬取的域名
scrapy genspider -t basic xxx baidu.com

此时在spider文件夹下会生成一个以xxx命名的py文件。可以使用scrapy genspider -l查看所有可用爬虫模板。当前可用的爬虫模板有:basiccrawlcsvfeedxmlfeed

check命令

使用check命令可以实现对某个爬虫文件进行合同检查,即测试.

# xxx为爬虫名
scrapy check xxx

crawl命令

启动某个爬虫

# xxx为爬虫名
scrapy crawl xxx

list命令

列出当前可使用的爬虫文件

scrapy list

edit命令

编辑爬虫文件

scrapy edit xxx

parse命令

通过parse命令,我们可以实现获取指定的URL网址,并使用对应的爬虫文件进行处理和分析

日志等级

等级名 含义
CRITICAL 发生了最严重的错误
ERROR 发生了必须立即处理的错误
WARNING 出现了一些警告信息,即存在潜在错误
INFO 输出一些提示显示
DEBUG 输出一些调试信息

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python引用(import)文件夹下的py文件的方法
Aug 26 Python
python 与GO中操作slice,list的方式实例代码
Mar 20 Python
Python爬虫之xlml解析库(全面了解)
Aug 08 Python
numpy.ndarray 交换多维数组(矩阵)的行/列方法
Aug 02 Python
tensorflow学习教程之文本分类详析
Aug 07 Python
Python实现简易过滤删除数字的方法小结
Jan 09 Python
Python判断有效的数独算法示例
Feb 23 Python
Django如何使用第三方服务发送电子邮件
Aug 14 Python
Python基于locals返回作用域字典
Oct 17 Python
利用Python pandas对Excel进行合并的方法示例
Nov 04 Python
详解Python中的GIL(全局解释器锁)详解及解决GIL的几种方案
Jan 29 Python
python中Matplotlib绘制直线的实例代码
Jul 04 Python
Python退火算法在高次方程的应用
Jul 26 #Python
Python爬虫框架Scrapy基本用法入门教程
Jul 26 #Python
Tensorflow 合并通道及加载子模型的方法
Jul 26 #Python
解决tensorflow测试模型时NotFoundError错误的问题
Jul 26 #Python
tensorflow 恢复指定层与不同层指定不同学习率的方法
Jul 26 #Python
kaggle+mnist实现手写字体识别
Jul 26 #Python
解决tensorflow模型参数保存和加载的问题
Jul 26 #Python
You might like
php5.2时间相差8小时
2007/01/15 PHP
PHP中遇到BOM、编码导致json_decode函数无法解析问题
2014/07/02 PHP
PHP flush 函数使用注意事项
2016/08/26 PHP
tp5修改(实现即点即改)
2019/10/18 PHP
php接口隔离原则实例分析
2019/11/11 PHP
jQuery使用手册之 事件处理
2007/03/24 Javascript
关于eval 与new Function 到底该选哪个?
2013/04/17 Javascript
从数据库读取数据后将其输出成html标签的三种方法
2014/10/13 Javascript
原生js实现吸顶效果
2017/03/13 Javascript
Bootstrap弹出框(Popover)被挤压的问题小结
2017/07/11 Javascript
Vue.JS项目中5个经典Vuex插件
2017/11/28 Javascript
解决Jquery下拉框数据动态获取的问题
2018/01/25 jQuery
Vue官方推荐AJAX组件axios.js使用方法详解与API
2018/10/09 Javascript
element ui table 增加筛选的方法示例
2018/11/02 Javascript
Vue3.0中的monorepo管理模式的实现
2019/10/14 Javascript
Element Card 卡片的具体使用
2020/07/26 Javascript
vue 子组件和父组件传值的示例
2020/09/11 Javascript
Vue+scss白天和夜间模式切换功能的实现方法
2021/01/05 Vue.js
python爬虫中get和post方法介绍以及cookie作用
2018/02/08 Python
Python 共享变量加锁、释放详解
2019/08/28 Python
线程安全及Python中的GIL原理分析
2019/10/29 Python
python 字典item与iteritems的区别详解
2020/04/25 Python
python Paramiko使用示例
2020/09/21 Python
python实现文件+参数发送request的实例代码
2021/01/05 Python
联想西班牙官网:Lenovo西班牙
2018/08/28 全球购物
TOWER London官网:鞋子、靴子、运动鞋等
2019/07/14 全球购物
DJI全球:DJI Global
2021/03/15 全球购物
捷克建筑材料网上商店:DEK.cz
2021/03/06 全球购物
关于逃课的检讨书
2014/01/23 职场文书
古汉语文学求职信范文
2014/03/16 职场文书
《长江之歌》教学反思
2014/04/17 职场文书
汽车服务工程专业自荐信
2014/09/02 职场文书
党风廉政建设个人总结
2015/03/06 职场文书
陈斌强事迹观后感
2015/06/17 职场文书
python ConfigParser库的使用及遇到的坑
2022/02/12 Python
Vue ECharts实现机舱座位选择展示功能
2022/05/15 Vue.js