pycharm创建scrapy项目教程及遇到的坑解析


Posted in Python onAugust 15, 2019

前言

最近学习scrapy爬虫框架,在使用pycharm安装scrapy类库及创建scrapy项目时花费了好长的时间,遇到各种坑,根据网上的各种教程,花费了一晚上的时间,终于成功,其中也踩了一些坑,现在整理下相关教程,希望帮助那些遇到和我一样问题的码农。

1、环境

  • 操作系统:windows10。
  • python版本:python3.7,必须使用Anaconda,目前是Anaconda5.3.1。下载地址:https://www.anaconda.com/download/ 下载64位的安装包。scrapy依赖的类库比较多,使用Anaconda会将相关的依赖的类库都安装好,并且版本保持一致。
  • pycharm:pycharm2018。

2、安装Anaconda

安装好Anaconda之后,将下面的变量加入到系统环境变量中:

e:\Anaconda3;e:\Anaconda3\Library\mingw-w64\bin;e:\Anaconda3\Library\usr\bin;e:\Anaconda3\Library\bin;e:\Anaconda3\Scripts;

上面是我本机上的环境变量,我是将Anaconda3安装在E盘的Anaconda3文件夹中。

3、安装scrapy相关类库

打开pycharm,创建一个项目,然后开始安装相关的类库。通过下面的方式查找类库,点击左上角的File按钮,会弹出如下的界面:

pycharm创建scrapy项目教程及遇到的坑解析

点击Settings按钮,会弹出下面的菜单:

pycharm创建scrapy项目教程及遇到的坑解析

然后点击右边的“+”,就会弹出安装类库的界面:

pycharm创建scrapy项目教程及遇到的坑解析

在上图中查询类库,然后点击“Install package”即可安装。
如果查询出的类库显示蓝色,表示这个类库已经安装过了。

按照下面的顺序安装类库:lxml->zope.interface->pyopenssl->twisted->scrapy。一般情况下Anaconda已经安装了很多类库,我们只需安装scrapy即可。

4、创建scrapy项目

安装好scrapy类库之后,就可以创建scrapy项目了,pycharm不能直接创建scrapy项目,必须通过命令行创建,打开pycharm的Terminal终端,输入scrapy startproject test_scrapy命令,就可以创建名为test_scrapy的scrapy项目,看到如下的信息表示成功创建scrapy项目:

New Scrapy project 'test_scrapy', using template directory 'e:\\Anaconda3\\lib\\site-packages\\scrapy\\templates\\project', created in:
  G:\PycharmProjects\scrapy\test_scrapy

You can start your first spider with:
  cd test_scrapy
  scrapy genspider example example.com

然后在pycharm的项目空间中就可以看到test_scrapy项目的目录结构:

pycharm创建scrapy项目教程及遇到的坑解析

通过命令行创建scrapy项目时经常会遇到下面的三个坑:

(1)'scrapy' 不是内部或外部命令,也不是可运行的程序或批处理文件。这是因为没有把Anaconda加入到环境变量中。在安装scrapy时,会将scrapy.exe文件安装到Scripts文件夹下面:

pycharm创建scrapy项目教程及遇到的坑解析

如果没有设置环境变量,将无法找到scrapy.exe文件。

(2)ImportError: DLL load failed: 找不到指定的模块。 这个问题是因为lxml类库版本引起的,在window7操作系统会遇到这个问题。我安装的是4.2.5版本,后来改成3.8.0就解决了。将lxml从4.2.5切换成3.8.0的方法如下:

pycharm创建scrapy项目教程及遇到的坑解析

通过上图的安装类库界面,找到lxml,勾选上Specify version选项,然后选择3.8.0,点击“install package”按钮即可。使用anaconda的好处就是,将lxml切换成3.8.0之后,会把相关的openssl和twisted等类库也切换成匹配的类库,因此强烈推荐使用Anaconda安装python。

(3)ImportError: DLL load failed: 操作系统无法运行 %1 。 这个是因为c:/windows/system32目录中的ssleay32.dll和libeay32.dll冲突导致的,我的做法是删除掉这个两个文件,创建好scrapy项目后,在恢复回来。因为删除这两个文件会导致某些应用无法运行。在window10操作系统会遇到这个问题。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
pycharm 使用心得(九)解决No Python interpreter selected的问题
Jun 06 Python
Python通过解析网页实现看报程序的方法
Aug 04 Python
详解python时间模块中的datetime模块
Jan 13 Python
一个基于flask的web应用诞生 组织结构调整(7)
Apr 11 Python
Python Paramiko模块的使用实际案例
Feb 01 Python
Python爬虫之正则表达式基本用法实例分析
Aug 08 Python
ubuntu 18.04搭建python环境(pycharm+anaconda)
Jun 14 Python
python3实现带多张图片、附件的邮件发送
Aug 10 Python
pymysql 插入数据 转义处理方式
Mar 02 Python
Python如何执行精确的浮点数运算
Jul 31 Python
Python 在局部变量域中执行代码
Aug 07 Python
解决PDF 转图片时丢文字的一种可能方式
Mar 04 Python
通过selenium抓取某东的TT购买记录并分析趋势过程解析
Aug 15 #Python
Python依赖包整体迁移方法详解
Aug 15 #Python
使用python批量修改文件名的方法(视频合并时)
Mar 24 #Python
python 修改本地网络配置的方法
Aug 14 #Python
python django 原生sql 获取数据的例子
Aug 14 #Python
django 连接数据库 sqlite的例子
Aug 14 #Python
Python将主机名转换为IP地址的方法
Aug 14 #Python
You might like
解决ThinkPHP关闭调试模式时报错的问题汇总
2015/04/22 PHP
php开发时容易忘记的一些技术细节
2016/02/03 PHP
Yii2超好用的日期和时间组件(值得收藏)
2016/05/05 PHP
laravel Validator ajax返回错误信息的方法
2019/09/29 PHP
JQuery中$之选择器用法介绍
2011/04/05 Javascript
jquery的flexigrid无法显示数据提示获取到数据
2013/07/19 Javascript
使用js判断当前时区TimeZone是否是夏令时
2014/02/23 Javascript
javascript实现俄罗斯方块游戏的思路和方法
2015/04/27 Javascript
jQuery实现仿Google首页拖动效果的方法
2015/05/04 Javascript
js字符串操作方法实例分析
2015/05/06 Javascript
jQuery常用且重要方法汇总
2015/07/13 Javascript
解析浏览器端的AJAX缓存机制
2016/06/21 Javascript
微信扫码支付零云插件版实例详解
2017/04/26 Javascript
解决React Native端口号修改的方法
2017/07/28 Javascript
微信开发之企业付款到银行卡接口开发的示例代码
2018/09/18 Javascript
jQuery分组选择器简单用法示例
2019/04/04 jQuery
如何使用JavaScript实现栈与队列
2019/06/24 Javascript
JSONObject与JSONArray使用方法解析
2020/09/28 Javascript
数据挖掘之Apriori算法详解和Python实现代码分享
2014/11/07 Python
Python多线程编程(五):死锁的形成
2015/04/05 Python
python pandas中对Series数据进行轴向连接的实例
2018/06/08 Python
使用python脚本实现查询火车票工具
2018/07/19 Python
对python添加模块路径的三种方法总结
2018/10/16 Python
解决python打不开文件(文件不存在)的问题
2019/02/18 Python
python输出电脑上所有的串口名的方法
2019/07/02 Python
python 爬虫百度地图的信息界面的实现方法
2019/10/27 Python
python3使用Pillow、tesseract-ocr与pytesseract模块的图片识别的方法
2020/02/26 Python
HTML5+CSS3网页加载进度条的实现,下载进度条的代码实例
2016/12/30 HTML / CSS
MATCHESFASHION.COM法国官网:英国奢侈品零售商
2018/01/04 全球购物
营业员实习自我鉴定
2013/12/07 职场文书
取保候审保证书
2014/04/30 职场文书
祖国在我心中演讲稿400字
2014/05/04 职场文书
幼儿教师师德演讲稿
2014/05/06 职场文书
史上最牛的辞职信
2015/02/28 职场文书
利用 JavaScript 构建命令行应用
2021/11/17 Javascript
python 闭包函数详细介绍
2022/04/19 Python