Scrapy框架基本命令与settings.py设置


Posted in Python onFebruary 06, 2020

本文实例讲述了Scrapy框架基本命令与settings.py设置。分享给大家供大家参考,具体如下:

Scrapy框架基本命令

1.创建爬虫项目

scrapy startproject [项目名称]

2.创建爬虫文件

scrapy genspider +文件名+网址

3.运行(crawl)

scrapy crawl 爬虫名称
# -o output 输出数据到文件
scrapy crawl [爬虫名称] -o zufang.json
scrapy crawl [爬虫名称] -o zufang.csv

4.check检查错误

scrapy check

5.list返回项目所有spider

scrapy list

6.view 存储、打开网页

scrapy view http://www.baidu.com

7.scrapy shell, 进入终端

scrapy shell https://www.baidu.com

8.scrapy runspider

scrapy runspider zufang_spider.py

Scrapy框架: settings.py设置

# -*- coding: utf-8 -*-
# Scrapy settings for maitian project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#   https://doc.scrapy.org/en/latest/topics/settings.html
#   https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#   https://doc.scrapy.org/en/latest/topics/spider-middleware.html
BOT_NAME = 'maitian'
SPIDER_MODULES = ['maitian.spiders']
NEWSPIDER_MODULE = 'maitian.spiders'
#不能批量设置
# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'maitian (+http://www.yourdomain.com)'
#默认遵守robots协议
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
#设置日志文件
LOG_FILE="maitian.log"
#日志等级分为5种:1.DEBUG 2.INFO 3.Warning 4.ERROR 5.CRITICAL
#等级越高 输出的日志越少
# LOG_LEVEL="INFO"
#scrapy设置最大并发数 默认16
# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32
#设置批量延迟请求16 等待3秒再发16 秒
# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16
#cookie 不生效 默认是True
# Disable cookies (enabled by default)
#COOKIES_ENABLED = False
#远程
# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False
#加载默认的请求头
# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#  'Accept-Language': 'en',
#}
#爬虫中间件
# Enable or disable spider middlewares
# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#  'maitian.middlewares.MaitianSpiderMiddleware': 543,
#}
#下载中间件
# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#  'maitian.middlewares.MaitianDownloaderMiddleware': 543,
#}
# Enable or disable extensions
# See https://doc.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#  'scrapy.extensions.telnet.TelnetConsole': None,
#}
#在配置文件 开启管道
#优先级的范围 0--1000;值越小 优先级越高
# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
#ITEM_PIPELINES = {
#  'maitian.pipelines.MaitianPipeline': 300,
#}
# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False
# Enable and configure HTTP caching (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

更多相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家基于Scrapy框架的Python程序设计有所帮助。

Python 相关文章推荐
python网络编程实例简析
Sep 26 Python
Python实现简单的可逆加密程序实例
Mar 05 Python
Python的Flask开发框架简单上手笔记
Nov 16 Python
Python简单实现安全开关文件的两种方式
Sep 19 Python
Python 多进程和数据传递的理解
Oct 09 Python
[原创]Python入门教程2. 字符串基本操作【运算、格式化输出、常用函数】
Oct 29 Python
Python分割训练集和测试集的方法示例
Sep 19 Python
python对象销毁实例(垃圾回收)
Jan 16 Python
使用Python合成图片的实现代码(图片添加个性化文本,图片上叠加其他图片)
Apr 30 Python
Django中ORM找出内容不为空的数据实例
May 20 Python
matplotlib之多边形选区(PolygonSelector)的使用
Feb 24 Python
字典算法实现及操作 --python(实用)
Mar 31 Python
python opencv圆、椭圆与任意多边形的绘制实例详解
Feb 06 #Python
Python输出指定字符串的方法
Feb 06 #Python
python实现简单飞行棋
Feb 06 #Python
python实现飞行棋游戏
Feb 05 #Python
以SQLite和PySqlite为例来学习Python DB API
Feb 05 #Python
Python操作Sqlite正确实现方法解析
Feb 05 #Python
Tensorflow矩阵运算实例(矩阵相乘,点乘,行/列累加)
Feb 05 #Python
You might like
PHP安装攻略:常见问题解答(一)
2006/10/09 PHP
php+AJAX传送中文会导致乱码的问题的解决方法
2008/09/08 PHP
PHP 网络开发详解之远程文件包含漏洞
2010/04/25 PHP
PHP实现上传图片到 zimg 服务器
2016/10/19 PHP
setTimeout和setInterval的区别你真的了解吗?
2011/03/31 Javascript
js字符串的各种格式的转换 ToString,Format
2011/08/08 Javascript
javascript date格式化示例
2013/09/25 Javascript
学习JavaScript设计模式之代理模式
2016/01/12 Javascript
Node.js对MongoDB数据库实现模糊查询的方法
2017/05/03 Javascript
基于iScroll实现下拉刷新和上滑加载效果
2017/07/18 Javascript
使用async-validator编写Form组件的方法
2018/01/10 Javascript
微信小程序项目实践之九宫格实现及item跳转功能
2018/07/19 Javascript
react-navigation之动态修改title的内容
2018/09/26 Javascript
前端Electron新手入门教程详解
2019/06/21 Javascript
vue 检测用户上传图片宽高的方法
2020/02/06 Javascript
谈一谈vue请求数据放在created好还是mounted里好
2020/07/27 Javascript
解决vant中 tab栏遇到的坑 van-tabs
2020/11/04 Javascript
python装饰器decorator介绍
2014/11/21 Python
Python线程创建和终止实例代码
2018/01/20 Python
python构建深度神经网络(DNN)
2018/03/10 Python
python控制台实现tab补全和清屏的例子
2019/08/20 Python
python 采用paramiko 远程执行命令及报错解决
2019/10/21 Python
python读取Kafka实例
2019/12/23 Python
Python自动化之UnitTest框架实战记录
2020/09/08 Python
CSS3教程:background-clip和background-origin
2008/10/17 HTML / CSS
澳大利亚在线家具、灯饰和家居装饰店:LivingStyles
2018/11/20 全球购物
阿里巴巴Oracle DBA笔试题答案-备份恢复类
2013/11/20 面试题
成立公司计划书
2014/05/07 职场文书
财会专业毕业生自荐信
2014/07/09 职场文书
夏季药店促销方案
2014/08/22 职场文书
2014年合同管理工作总结
2014/12/02 职场文书
2015年毕业生自荐信范文
2015/03/24 职场文书
教师节作文之小学四年级
2019/09/03 职场文书
一定要知道的 25 个 Vue 技巧
2021/11/02 Vue.js
JavaScript事件的委托(代理)的用法示例详解
2022/02/18 Javascript
古见同学有交流障碍症 第二季宣传CM公开播出
2022/04/11 日漫