Scrapy的简单使用教程


Posted in Python onOctober 24, 2017

在这篇入门教程中,我们假定你已经安装了python。如果你还没有安装,那么请参考安装指南。

首先第一步:进入开发环境,workon article_spider

进入这个环境:

Scrapy的简单使用教程

安装Scrapy,在安装的过程中出现了一些错误:通常这些错误都是部分文件没有安装导致的,因为大学时经常出现,所以对解决这种问题,很实在,直接到http://www.lfd.uci.edu/~gohlke/pythonlibs/这个网站下载对应的文件,下载后用pip安装,具体过程不在赘述。

Scrapy的简单使用教程

然后进入工程目录,并打开我们的新创建的虚拟环境:

Scrapy的简单使用教程

新建scrapy工程:ArticleSpider

Scrapy的简单使用教程

创建好工程框架:在pycharm中导入

 Scrapy的简单使用教程

scrapy.cfg: 项目的配置文件。
ArticleSpeder/: 该项目的python模块。之后您将在此加入代码。
ArticleSpeder/items.py: 项目中的item文件。
ArticleSpeder/pipelines.py: 项目中的pipelines文件。
ArticleSpeder/settings.py: 项目的设置文件。
ArticleSpeder/spiders/: 放置spider代码的目录。

回到dos窗口用basic创建模板

Scrapy的简单使用教程

上面pycharm的截图中已经创建好了:

为了今后更好的开发,创建一个用于debug的类main.py

from scrapy.cmdline import execute
import sys
import os
print(os.path.dirname(os.path.abspath(__file__)))
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","jobbole"])

 这是代码内容

import sys 为了设置工程目录,调用命令才会生效

里面的路径最好不要写死:可以通过os获取路径,更加灵活

execute用来执行目标程序的

jobbole.py的内容

class JobboleSpider(scrapy.Spider):
name = 'jobbole'
allowed_domains = ['blog.jobbole.com']
start_urls = ['http://blog.jobbole.com/110287']

def parse(self, response):
re_selector = response.xpath("/html/body/div[1]/div[3]/div[1]/div[1]/h1")
re2_selector = response.xpath('//*[@id="post-110287"]/div[1]/h1')
title = response.xpath('//div[@class="entry-header"]/h1/text()')
create_date = response.xpath("")
#//*[@id="112706votetotal"]
dian_zan = int(response.xpath("//span[contains(@class,'vote-post-up ')]/h10/text()").extract()[0])
pass

 通过xpath技术获取对应文章的一些字段信息,包括标题,时间,评论数,点赞数等,因为比较简单所以不在赘述

写到这儿,大家也知道每次在pycharm里面debug和麻烦,因为scrapy比较大,所以这时候我们可以使用Scrapy shell来调试

Scrapy的简单使用教程

标记部分是目标网站的地址:现在我们可以更加愉悦的进行调试了。

今天scrapy的初体验就到这里了

Python 相关文章推荐
详解Django通用视图中的函数包装
Jul 21 Python
Python在Windows和在Linux下调用动态链接库的教程
Aug 18 Python
Django使用uwsgi部署时的配置以及django日志文件的处理方法
Aug 30 Python
Django通用类视图实现忘记密码重置密码功能示例
Dec 17 Python
Python通过TensorFLow进行线性模型训练原理与实现方法详解
Jan 15 Python
Django实现将views.py中的数据传递到前端html页面,并展示
Mar 16 Python
Python实现Wordcloud生成词云图的示例
Mar 30 Python
python 解决mysql where in 对列表(list,,array)问题
Jun 06 Python
keras slice layer 层实现方式
Jun 11 Python
python爬虫利用selenium实现自动翻页爬取某鱼数据的思路详解
Dec 22 Python
python OpenCV学习笔记
Mar 31 Python
python+opencv实现视频抽帧示例代码
Jun 11 Python
详解python里使用正则表达式的分组命名方式
Oct 24 #Python
在python中使用正则表达式查找可嵌套字符串组
Oct 24 #Python
python爬虫之BeautifulSoup 使用select方法详解
Oct 23 #Python
浅谈python中copy和deepcopy中的区别
Oct 23 #Python
python的构建工具setup.py的方法使用示例
Oct 23 #Python
python使用pyqt写带界面工具的示例代码
Oct 23 #Python
基于Django的python验证码(实例讲解)
Oct 23 #Python
You might like
php smarty函数扩展
2010/03/15 PHP
PHP 二维数组根据某个字段排序的具体实现
2014/06/03 PHP
php接口数据加密、解密、验证签名
2015/03/12 PHP
php对接java现实加签验签的实例
2016/11/25 PHP
CI框架(CodeIgniter)公共模型类定义与用法示例
2017/08/10 PHP
php设计模式之组合模式实例详解【星际争霸游戏案例】
2020/03/27 PHP
通过JAVASCRIPT读取ASP设定的COOKIE
2007/02/15 Javascript
jQuery温习篇 强大的JQuery选择器
2010/04/24 Javascript
JS操作select下拉框动态变动(创建/删除/获取)
2013/06/02 Javascript
div模拟选择框示例代码
2013/11/03 Javascript
jquery链式操作的正确使用方法
2014/01/06 Javascript
jQuery实现的fixedMenu下拉菜单效果代码
2015/08/24 Javascript
javascript中Date format(js日期格式化)方法小结
2015/12/17 Javascript
javascript使用Promise对象实现异步编程
2016/03/01 Javascript
Node.js连接postgreSQL并进行数据操作
2016/12/18 Javascript
简单实现IONIC购物车功能
2017/01/10 Javascript
Vue.js 2.0窥探之Virtual DOM到底是什么?
2017/02/10 Javascript
Angular2下使用pdf插件的方法详解
2017/04/29 Javascript
nodejs后台集成ueditor富文本编辑器的实例
2017/07/11 NodeJs
javascript Function函数理解与实战
2017/12/01 Javascript
vue-cli webpack模板项目搭建及打包时路径问题的解决方法
2018/02/26 Javascript
AngularJS中ng-options实现下拉列表的数据绑定方法
2018/08/13 Javascript
vue的全局变量和全局拦截请求器的示例代码
2018/09/13 Javascript
layui 表格操作列按钮动态显示的实现方法
2019/09/06 Javascript
Python 文件读写操作实例详解
2014/03/12 Python
Python复制目录结构脚本代码分享
2015/03/06 Python
Python实现的多进程拷贝文件并显示百分比功能示例
2019/04/09 Python
django中使用Celery 布式任务队列过程详解
2019/07/29 Python
Pyecharts绘制全球流向图的示例代码
2020/01/08 Python
python如何通过twisted搭建socket服务
2020/02/03 Python
Python使用pdb调试代码的技巧
2020/05/03 Python
建筑专业自荐信
2013/10/18 职场文书
技校个人求职信范文
2014/01/25 职场文书
镇副书记专题民主生活会对照检查材料思想汇报
2014/10/02 职场文书
2014年城管工作总结
2014/11/20 职场文书
观后感开头
2015/06/19 职场文书