pycharm下打开、执行并调试scrapy爬虫程序的方法


Posted in Python onNovember 29, 2017

首先得有一个Scrapy项目,我在Desktop上新建一个Scrapy的项目叫test,在Desktop目录打开命令行,键入命令:scrapy startproject test1

pycharm下打开、执行并调试scrapy爬虫程序的方法

目录结构如下:

pycharm下打开、执行并调试scrapy爬虫程序的方法

pycharm下打开、执行并调试scrapy爬虫程序的方法

pycharm下打开、执行并调试scrapy爬虫程序的方法

打开Pycharm,选择open

pycharm下打开、执行并调试scrapy爬虫程序的方法

选择项目,ok

pycharm下打开、执行并调试scrapy爬虫程序的方法

打开如下界面之后,按alt + 1, 打开project 面板

pycharm下打开、执行并调试scrapy爬虫程序的方法

pycharm下打开、执行并调试scrapy爬虫程序的方法

在test1/spiders/,文件夹下,新建一个爬虫spider.py, 注意代码中的name="dmoz"。这个名字后面会用到。

pycharm下打开、执行并调试scrapy爬虫程序的方法

在test1目录和scrapy.cfg同级目录下面,新建一个begin.py文件(便于理解可以写成main.py),注意箭头2所指的名字和第5步中的name='dmoz'名字是一样的。

from scrapy import cmdline
cmdline.execute("scrapy crawl dmoz".split())

pycharm下打开、执行并调试scrapy爬虫程序的方法

7. 上面把文件搞定了,下面要配置一下pycharm了。点击Run->Edit Configurations

pycharm下打开、执行并调试scrapy爬虫程序的方法

8. 新建一个运行的python模块

pycharm下打开、执行并调试scrapy爬虫程序的方法

9. Name:改成spider; script:选择刚才新建的那个begin.py文件;Working Direciton:改成自己的工作目录

pycharm下打开、执行并调试scrapy爬虫程序的方法

10. 至此,大功告成了,点击下图,右上角的按钮就能运行了。

pycharm下打开、执行并调试scrapy爬虫程序的方法

调试

可以在其他代码中设置断点,就可以debug运行

pycharm下打开、执行并调试scrapy爬虫程序的方法

pycharm下打开、执行并调试scrapy爬虫程序的方法

遇到问题

1. Unknown command: crawl

调试运行,断点并未命中,控制台输出信息如下:

H:\Python\Python36\python.exe "H:\Program Files (x86)\JetBrains\PyCharm Community Edition 4.5.4\helpers\pydev\pydevd.py" --multiproc --client 127.0.0.1 --port 59810 --file H:/Python/Python36/Lib/site-packages/scrapy/cmdline.py crawl quotes -o quotes.jl
pydev debugger: process 4740 is connecting

Connected to pydev debugger (build 141.3058)
Scrapy 1.3.2 - no active project

Unknown command: crawl

Use "scrapy" to see available commands

Process finished with exit code 2

工作目录设置有误,造成无法识别 scrapy 命令,按照上文所说,将工作目录设置为包含 scrapy.cfg,重新运行,问题解决。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
c++生成dll使用python调用dll的方法
Jan 20 Python
Python警察与小偷的实现之一客户端与服务端通信实例
Oct 09 Python
利用python模拟sql语句对员工表格进行增删改查
Jul 05 Python
Python random模块用法解析及简单示例
Dec 18 Python
Python图像处理之简单画板实现方法示例
Aug 30 Python
Python+OpenCV图片局部区域像素值处理改进版详解
Jan 23 Python
Django框架之登录后自定义跳转页面的实现方法
Jul 18 Python
flask框架渲染Jinja模板与传入模板变量操作详解
Jan 25 Python
基于python实现检索标记敏感词并输出
May 07 Python
python中yield的用法详解
Jan 13 Python
python工具快速为音视频自动生成字幕(使用说明)
Jan 27 Python
FP-growth算法发现频繁项集——发现频繁项集
Jun 24 Python
Python快速排序算法实例分析
Nov 29 #Python
Python3学习urllib的使用方法示例
Nov 29 #Python
Python实现的选择排序算法示例
Nov 29 #Python
Python实现的桶排序算法示例
Nov 29 #Python
[原创]教女朋友学Python(一)运行环境搭建
Nov 29 #Python
对变量赋值的理解--Pyton中让两个值互换的实现方法
Nov 29 #Python
基于Python函数的作用域规则和闭包(详解)
Nov 29 #Python
You might like
DC宇宙的第一个英雄,堪称动漫史鼻祖,如今成为美国文化的象征
2020/04/09 欧美动漫
php面向对象全攻略 (十二) 抽象方法和抽象类
2009/09/30 PHP
PIGCMS 如何关闭聊天机器人
2015/02/12 PHP
PHP根据图片色界在不同位置加水印的方法
2015/07/01 PHP
php解析base64数据生成图片的方法
2016/12/06 PHP
Laravel源码解析之路由的使用和示例详解
2018/09/27 PHP
Thinkphp5.0框架使用模型Model的获取器、修改器、软删除数据操作示例
2019/10/11 PHP
js截取小数点后几位的写法
2013/11/14 Javascript
jquery中html、val与text三者属性取值的联系与区别介绍
2013/12/29 Javascript
JavaScript实现检查页面上的广告是否被AdBlock屏蔽了的方法
2014/11/03 Javascript
使用AngularJS中的SCE来防止XSS攻击的方法
2015/06/18 Javascript
跟我学习javascript的基本类型和引用类型
2015/11/16 Javascript
jQuery 获取多选框的值及多选框中文的函数
2016/05/16 Javascript
玩转JavaScript OOP - 类的实现详解
2016/06/08 Javascript
深入理解AngularJS中的ng-bind-html指令和$sce服务
2016/09/08 Javascript
layui分页效果实现代码
2017/05/19 Javascript
JavaScript上传文件时不用刷新页面方法总结(推荐)
2017/08/15 Javascript
jQuery 1.9版本以上的浏览器判断方法代码分享
2017/08/28 jQuery
react学习笔记之state以及setState的使用
2017/12/07 Javascript
JavaScript函数、闭包、原型、面向对象学习笔记
2018/09/06 Javascript
微信小程序获取用户openid的实现
2018/12/24 Javascript
详解vue-router导航守卫
2019/01/19 Javascript
js get和post请求实现代码解析
2020/02/06 Javascript
[52:03]DOTA2-DPC中国联赛 正赛 Ehome vs iG BO3 第三场 1月31日
2021/03/11 DOTA
python 读取文本文件的行数据,文件.splitlines()的方法
2018/07/12 Python
keras得到每层的系数方式
2020/06/15 Python
css3实现超炫风车特效
2014/11/12 HTML / CSS
Html5与App的通讯方式详解
2019/10/24 HTML / CSS
继电保护工岗位职责
2014/01/05 职场文书
2014年大学班长工作总结
2014/11/14 职场文书
一年级语文上册复习计划
2015/01/17 职场文书
领导欢迎词致辞
2015/01/23 职场文书
政协工作总结2015
2015/05/20 职场文书
欠条范文
2015/07/03 职场文书
Python基础之tkinter图形化界面学习
2021/04/29 Python
JavaScript阻止事件冒泡的方法
2021/12/06 Javascript