pycharm下打开、执行并调试scrapy爬虫程序的方法


Posted in Python onNovember 29, 2017

首先得有一个Scrapy项目,我在Desktop上新建一个Scrapy的项目叫test,在Desktop目录打开命令行,键入命令:scrapy startproject test1

pycharm下打开、执行并调试scrapy爬虫程序的方法

目录结构如下:

pycharm下打开、执行并调试scrapy爬虫程序的方法

pycharm下打开、执行并调试scrapy爬虫程序的方法

pycharm下打开、执行并调试scrapy爬虫程序的方法

打开Pycharm,选择open

pycharm下打开、执行并调试scrapy爬虫程序的方法

选择项目,ok

pycharm下打开、执行并调试scrapy爬虫程序的方法

打开如下界面之后,按alt + 1, 打开project 面板

pycharm下打开、执行并调试scrapy爬虫程序的方法

pycharm下打开、执行并调试scrapy爬虫程序的方法

在test1/spiders/,文件夹下,新建一个爬虫spider.py, 注意代码中的name="dmoz"。这个名字后面会用到。

pycharm下打开、执行并调试scrapy爬虫程序的方法

在test1目录和scrapy.cfg同级目录下面,新建一个begin.py文件(便于理解可以写成main.py),注意箭头2所指的名字和第5步中的name='dmoz'名字是一样的。

from scrapy import cmdline
cmdline.execute("scrapy crawl dmoz".split())

pycharm下打开、执行并调试scrapy爬虫程序的方法

7. 上面把文件搞定了,下面要配置一下pycharm了。点击Run->Edit Configurations

pycharm下打开、执行并调试scrapy爬虫程序的方法

8. 新建一个运行的python模块

pycharm下打开、执行并调试scrapy爬虫程序的方法

9. Name:改成spider; script:选择刚才新建的那个begin.py文件;Working Direciton:改成自己的工作目录

pycharm下打开、执行并调试scrapy爬虫程序的方法

10. 至此,大功告成了,点击下图,右上角的按钮就能运行了。

pycharm下打开、执行并调试scrapy爬虫程序的方法

调试

可以在其他代码中设置断点,就可以debug运行

pycharm下打开、执行并调试scrapy爬虫程序的方法

pycharm下打开、执行并调试scrapy爬虫程序的方法

遇到问题

1. Unknown command: crawl

调试运行,断点并未命中,控制台输出信息如下:

H:\Python\Python36\python.exe "H:\Program Files (x86)\JetBrains\PyCharm Community Edition 4.5.4\helpers\pydev\pydevd.py" --multiproc --client 127.0.0.1 --port 59810 --file H:/Python/Python36/Lib/site-packages/scrapy/cmdline.py crawl quotes -o quotes.jl
pydev debugger: process 4740 is connecting

Connected to pydev debugger (build 141.3058)
Scrapy 1.3.2 - no active project

Unknown command: crawl

Use "scrapy" to see available commands

Process finished with exit code 2

工作目录设置有误,造成无法识别 scrapy 命令,按照上文所说,将工作目录设置为包含 scrapy.cfg,重新运行,问题解决。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python通过正则表达式选取callback的方法
Jul 18 Python
在Python的Django框架中包装视图函数
Jul 20 Python
深入理解NumPy简明教程---数组1
Dec 17 Python
Python中的命令行参数解析工具之docopt详解
Mar 27 Python
Django实现的自定义访问日志模块示例
Jun 23 Python
对numpy中布尔型数组的处理方法详解
Apr 17 Python
解决django后台样式丢失,css资源加载失败的问题
Jun 11 Python
Python爬虫学习之翻译小程序
Jul 30 Python
浅谈python print(xx, flush = True) 全网最清晰的解释
Feb 21 Python
Python如何爬取qq音乐歌词到本地
Jun 01 Python
Python如何合并多个字典或映射
Jul 24 Python
python实现xml转json文件的示例代码
Dec 30 Python
Python快速排序算法实例分析
Nov 29 #Python
Python3学习urllib的使用方法示例
Nov 29 #Python
Python实现的选择排序算法示例
Nov 29 #Python
Python实现的桶排序算法示例
Nov 29 #Python
[原创]教女朋友学Python(一)运行环境搭建
Nov 29 #Python
对变量赋值的理解--Pyton中让两个值互换的实现方法
Nov 29 #Python
基于Python函数的作用域规则和闭包(详解)
Nov 29 #Python
You might like
fleaphp crud操作之findByField函数的使用方法
2011/04/23 PHP
PHP和javascript常用正则表达式及用法实例
2014/07/01 PHP
Linux下手动编译安装PHP扩展的例子分享
2014/07/15 PHP
分享ThinkPHP3.2中关联查询解决思路
2015/09/20 PHP
WordPress主题中添加文章列表页页码导航的PHP代码实例
2015/12/22 PHP
php静态成员方法和静态的成员属性的使用方法
2017/10/26 PHP
javascript实现的在当前窗口中漂浮框的代码
2010/03/15 Javascript
javascript比较两个日期的先后示例代码
2014/12/31 Javascript
JavaScript在Android的WebView中parseInt函数转换不正确问题解决方法
2015/04/25 Javascript
javascript文本模板用法实例
2015/07/31 Javascript
浅谈JavaScript变量的自动转换和语句
2016/06/12 Javascript
fullpage.js最后一屏滚动方式
2018/02/06 Javascript
原生JS实现的轮播图功能详解
2018/08/06 Javascript
基于javascript实现贪吃蛇小游戏
2019/11/25 Javascript
npm ci命令的基本使用方法
2020/09/20 Javascript
[02:42]DOTA2英雄基础教程 杰奇洛
2013/12/23 DOTA
python使用multiprocessing模块实现带回调函数的异步调用方法
2015/04/18 Python
举例讲解Python中的list列表数据结构用法
2016/03/12 Python
Python多进程multiprocessing用法实例分析
2017/08/18 Python
深入理解Python异常处理的哲学
2019/02/01 Python
Python使用POP3和SMTP协议收发邮件的示例代码
2019/04/16 Python
python3 selenium自动化测试 强大的CSS定位方法
2019/08/23 Python
Python (Win)readline和tab补全的安装方法
2019/08/27 Python
python matplotlib拟合直线的实现
2019/11/19 Python
Win下PyInstaller 安装和使用教程
2019/12/25 Python
django filter过滤器实现显示某个类型指定字段不同值方式
2020/07/16 Python
纯CSS3实现运行时钟的示例代码
2021/01/25 HTML / CSS
6PM官网:折扣鞋、服装及配饰
2018/08/03 全球购物
全球在线商店:BerryLook
2019/04/14 全球购物
彪马西班牙官网:PUMA西班牙
2019/06/18 全球购物
电大毕业生自我鉴定
2014/04/10 职场文书
会员活动策划方案
2014/08/19 职场文书
授权委托书样本及填写说明
2014/09/19 职场文书
教师党员学习群众路线心得体会
2014/11/04 职场文书
pytest进阶教程之fixture函数详解
2021/03/29 Python
redis 存储对象的方法对比分析
2021/08/02 Redis