Python爬虫框架Scrapy常用命令总结


Posted in Python onJuly 26, 2018

本文实例讲述了Python爬虫框架Scrapy常用命令。分享给大家供大家参考,具体如下:

在Scrapy中,工具命令分为两种,一种为全局命令,一种为项目命令

全局命令不需要依靠Scrapy项目就可以在全局中直接运行,而项目命令必须要在Scrapy项目中才可以运行

全局命令

全局命令有哪些呢,要想了解在Scrapy中有哪些全局命令,可以在不进入Scrapy项目所在目录的情况下,运行scrapy-h,如图所示:

Python爬虫框架Scrapy常用命令总结

可以看到,此时在可用命令在终端下展示出了常见的全局命令,分别为fetchrunspidersettingsshellstartprojectversionview

fetch命令

fetch命令主要用来显示爬虫爬取的过程.如下图所示:

Python爬虫框架Scrapy常用命令总结

在使用fetch命令时,同样可以使用某些参数进行相应的控制。那么fetch有哪些相关参数可以使用呢?我们可以通过scrpy fetch -h列出所有可以使用的fetch相关参数。比如我们可以使用?headers显示头信息,也可以使用?nolog控制不显示日志信息,还可以使用?spider=SPIDER参数来控制使用哪个爬虫,通过?logfile=FILE指定存储日志信息的文件,通过?loglevel=LEVEL控制日志等级。举个栗子:

# 显示头信息,并且不显示日志信息
scrpay -fetch --headers --nolog http://www.baidu.com

sunspider命令

通过runspider命令可以不依托scrapy的爬虫项目,直接运行一个爬虫文件

# first.py为自定义的一个爬虫文件
scrapy runspider first.py

settings命令

在scrapy项目所在的目录中使用settings命令查看的使用对应的项目配置信息,如果在scrapy项目所在的目录外使用settings命令查看的Scrapy默认的配置信息

# 在项目中使用此命令打印的为BOT_NAME对应的值,即scrapy项目名称。
# 在项目外使用此命令打印的为scrapybot
scrapy settings --get BOT_NAME

shell命令

通过shell命令可以启动Scrapy的交互终端。

Scrapy的交互终端经常在开发以及调试的时候用到,使用Scrapy的交互终端可以实现在不启动Scrapy爬虫的情况下,对网站响应进行调试,同样,在该交互终端下,我们也可以写一些Python代码进行相应测试。

Python爬虫框架Scrapy常用命令总结

>>>后面可以输入交互命令以及相应的代码

startproject命令

用于创建scrapy项目

version命令

查看scrapy版本

view命令

用于下载某个网页,然后通过浏览器查看

项目命令

bench命令

测试本地硬件的性能

scrapy bench

genspider命令

用于创建爬虫文件,这是一种快速创建爬虫文件的方式。

# scrpay genspider -t 基本格式
# basic 模板
# baidu.com 爬取的域名
scrapy genspider -t basic xxx baidu.com

此时在spider文件夹下会生成一个以xxx命名的py文件。可以使用scrapy genspider -l查看所有可用爬虫模板。当前可用的爬虫模板有:basiccrawlcsvfeedxmlfeed

check命令

使用check命令可以实现对某个爬虫文件进行合同检查,即测试.

# xxx为爬虫名
scrapy check xxx

crawl命令

启动某个爬虫

# xxx为爬虫名
scrapy crawl xxx

list命令

列出当前可使用的爬虫文件

scrapy list

edit命令

编辑爬虫文件

scrapy edit xxx

parse命令

通过parse命令,我们可以实现获取指定的URL网址,并使用对应的爬虫文件进行处理和分析

日志等级

等级名 含义
CRITICAL 发生了最严重的错误
ERROR 发生了必须立即处理的错误
WARNING 出现了一些警告信息,即存在潜在错误
INFO 输出一些提示显示
DEBUG 输出一些调试信息

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python实现堆栈与队列的方法
Jan 15 Python
Python基于scapy实现修改IP发送请求的方法示例
Jul 08 Python
基于python socketserver框架全面解析
Sep 21 Python
python微信跳一跳游戏辅助代码解析
Jan 29 Python
Python读写docx文件的方法
May 08 Python
Python Pandas 获取列匹配特定值的行的索引问题
Jul 01 Python
python 实现按对象传值
Dec 26 Python
Pyecharts绘制全球流向图的示例代码
Jan 08 Python
Django ValuesQuerySet转json方式
Mar 16 Python
python同时遍历两个list用法说明
May 02 Python
Numpy(Pandas)删除全为零的列的方法
Sep 11 Python
总结Pyinstaller的坑及终极解决方法(小结)
Sep 21 Python
Python退火算法在高次方程的应用
Jul 26 #Python
Python爬虫框架Scrapy基本用法入门教程
Jul 26 #Python
Tensorflow 合并通道及加载子模型的方法
Jul 26 #Python
解决tensorflow测试模型时NotFoundError错误的问题
Jul 26 #Python
tensorflow 恢复指定层与不同层指定不同学习率的方法
Jul 26 #Python
kaggle+mnist实现手写字体识别
Jul 26 #Python
解决tensorflow模型参数保存和加载的问题
Jul 26 #Python
You might like
探讨如何把session存入数据库
2013/06/07 PHP
php使用ICQ网关发送手机短信
2013/10/30 PHP
PHP中的use关键字概述
2014/07/23 PHP
[原创]php简单防盗链验证实现方法
2016/07/09 PHP
表单提交验证类
2006/07/14 Javascript
JS实现浏览器菜单命令
2006/09/05 Javascript
原生js实现shift/ctrl/alt按键的获取
2013/04/08 Javascript
JS 获取select(多选下拉)中所选值的示例代码
2013/08/02 Javascript
jQuery简易图片放大特效示例代码
2014/06/09 Javascript
JavaScript模板引擎用法实例
2015/07/10 Javascript
JavaScript 对象深入学习总结(经典)
2015/09/29 Javascript
基于Echarts 3.19 制作常用的图形(非静态)
2016/05/19 Javascript
Javascript打印局部页面实例
2016/06/21 Javascript
jquery实现网页定位导航
2016/08/23 Javascript
javascript简单进制转换实现方法
2016/11/24 Javascript
jQuery输入框密码的显示隐藏【代码分享】
2017/04/29 jQuery
JavaScript条件判断_动力节点Java学院整理
2017/06/26 Javascript
Kindeditor单独调用多图上传实例
2017/07/31 Javascript
jQuery选择器中的特殊符号处理方法
2017/09/08 jQuery
使用3D引擎threeJS实现星空粒子移动效果
2020/09/13 Javascript
Taro集成Redux快速上手的方法示例
2018/06/21 Javascript
使用D3.js+Vue实现一个简单的柱形图
2018/08/05 Javascript
浅谈Vue组件及组件的注册方法
2018/08/24 Javascript
JS async 函数的含义和用法实例总结
2020/04/08 Javascript
vue 接口请求地址前缀本地开发和线上开发设置方式
2020/08/13 Javascript
[05:04]完美世界携手游戏风云打造 卡尔工作室地图界面篇
2013/04/23 DOTA
python使用mailbox打印电子邮件的方法
2015/04/30 Python
Python使用cx_Oracle模块将oracle中数据导出到csv文件的方法
2015/05/16 Python
python爬虫破解字体加密案例详解
2021/03/02 Python
英国旅行箱包和行李箱购物网站:Travel Luggage & Cabin Bags
2019/08/26 全球购物
J2EE面试题集锦(附答案)
2013/08/16 面试题
小学数学教研活动总结
2014/07/01 职场文书
计生工作先进事迹
2014/08/15 职场文书
大四优秀党员个人民主评议
2014/09/19 职场文书
创业不要错过,这4种餐饮新模式
2019/07/18 职场文书
立秋之描写立秋的作文(五年级)
2019/08/08 职场文书