编程 Python

Python之Scrapy爬虫框架安装及简单使用详解

Posted in Python onDecember 22, 2017

题记：早已听闻python爬虫框架的大名。近些天学习了下其中的Scrapy爬虫框架，将自己理解的跟大家分享。有表述不当之处，望大神们斧正。

一、初窥Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

其最初是为了页面抓取(更确切来说,网络抓取)所设计的，也可以应用在获取API所返回的数据(例如Amazon Associates Web Services) 或者通用的网络爬虫。

本文档将通过介绍Scrapy背后的概念使您对其工作原理有所了解，并确定Scrapy是否是您所需要的。

当您准备好开始您的项目后，您可以参考入门教程。

二、Scrapy安装介绍

Scrapy框架运行平台及相关辅助工具

Python2.7（Python最新版3.5，这里选择了2.7版本）
Python Package:pipandsetuptools. 现在pip依赖setuptools，如果未安装，则会自动安装setuptools。
lxml. 大多数Linux发行版自带了lxml。如果缺失，请查看http://lxml.de/installation.html
OpenSSL. 除了Windows(请查看平台安装指南)之外的系统都已经提供。

您可以使用pip来安装Scrapy(推荐使用pip来安装Python package).

pip install Scrapy

Windows下安装流程：

1、安装Python 2.7之后，您需要修改PATH环境变量，将Python的可执行程序及额外的脚本添加到系统路径中。将以下路径添加到PATH中:

C:\Python27\;C:\Python27\Scripts\;

除此之外，还可以用cmd命令来设置Path：

c:\python27\python.exe c:\python27\tools\scripts\win_add2path.py

安装配置完成之后，可以执行命令python --version查看安装的python版本。（如图所示）

Python之Scrapy爬虫框架安装及简单使用详解

2、从http://sourceforge.net/projects/pywin32/安装pywin32

请确认下载符合您系统的版本(win32或者amd64)

从https://pip.pypa.io/en/latest/installing.html安装pip

3、打开命令行窗口，确认pip被正确安装:

pip --version

4、到目前为止Python 2.7 及pip已经可以正确运行了。接下来安装Scrapy:

pip install Scrapy

至此windows下Scrapy安装已经结束。

三、Scrapy入门教程

1、在cmd中创建Scrapy项目工程。

scrapy startproject tutorial

H:\python\scrapyDemo>scrapy startproject tutorial
New Scrapy project 'tutorial', using template directory 'f:\\python27\\lib\\site-packages\\scrapy\\templates\\project', created in:
  H:\python\scrapyDemo\tutorial

You can start your first spider with:
  cd tutorial
  scrapy genspider example example.com

2、文件目录结构如下：

Python之Scrapy爬虫框架安装及简单使用详解。

解析scrapy框架结构：

scrapy.cfg: 项目的配置文件。
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件。
tutorial/pipelines.py: 项目中的pipelines文件。
tutorial/settings.py: 项目的设置文件。
tutorial/spiders/: 放置spider代码的目录。

3、编写简单的爬虫

1、在item.py中配置需采集页面的字段实例。

# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
import scrapy
from scrapy.item import Item, Field
class TutorialItem(Item):
  title = Field()
  author = Field()
  releasedate = Field()

2、在tutorial/spiders/spider.py中书写要采集的网站以及分别采集各字段。

# -*-coding:utf-8-*-
import sys
from scrapy.linkextractors.sgml import SgmlLinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from tutorial.items import TutorialItem
reload(sys)
sys.setdefaultencoding("utf-8")
class ListSpider(CrawlSpider):
  # 爬虫名称
  name = "tutorial"
  # 设置下载延时
  download_delay = 1
  # 允许域名
  allowed_domains = ["news.cnblogs.com"]
  # 开始URL
  start_urls = [
    "https://news.cnblogs.com"
  ]
  # 爬取规则,不带callback表示向该类url递归爬取
  rules = (
    Rule(SgmlLinkExtractor(allow=(r'https://news.cnblogs.com/n/page/\d',))),
    Rule(SgmlLinkExtractor(allow=(r'https://news.cnblogs.com/n/\d+',)), callback='parse_content'),
  )

  # 解析内容函数
  def parse_content(self, response):
    item = TutorialItem()

    # 当前URL
    title = response.selector.xpath('//div[@id="news_title"]')[0].extract().decode('utf-8')
    item['title'] = title

    author = response.selector.xpath('//div[@id="news_info"]/span/a/text()')[0].extract().decode('utf-8')
    item['author'] = author

    releasedate = response.selector.xpath('//div[@id="news_info"]/span[@class="time"]/text()')[0].extract().decode(
      'utf-8')
    item['releasedate'] = releasedate

    yield item

3、在tutorial/pipelines.py管道中保存数据。

# -*- coding: utf-8 -*-
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
import json
import codecs
class TutorialPipeline(object):
  def __init__(self):
    self.file = codecs.open('data.json', mode='wb', encoding='utf-8')#数据存储到data.json

  def process_item(self, item, spider):
    line = json.dumps(dict(item)) + "\n"
    self.file.write(line.decode("unicode_escape"))

    return item

4、tutorial/settings.py中配置执行环境。

# -*- coding: utf-8 -*-
BOT_NAME = 'tutorial'
SPIDER_MODULES = ['tutorial.spiders']
NEWSPIDER_MODULE = 'tutorial.spiders'

# 禁止cookies,防止被ban
COOKIES_ENABLED = False
COOKIES_ENABLES = False

# 设置Pipeline,此处实现数据写入文件
ITEM_PIPELINES = {
  'tutorial.pipelines.TutorialPipeline': 300
}

# 设置爬虫爬取的最大深度
DEPTH_LIMIT = 100

5、新建main文件执行爬虫代码。

from scrapy import cmdline
cmdline.execute("scrapy crawl tutorial".split())

最终，执行main.py后在data.json文件中获取到采集结果的json数据。

Python之Scrapy爬虫框架安装及简单使用详解

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python之Scrapy爬虫框架安装及简单使用详解

- Author -

leerh

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python在windows下实现ping操作并接收返回信息的方法

Mar 20 Python

理解python正则表达式

Jan 15 Python

利用python的socket发送http(s)请求方法示例

May 07 Python

Python3爬虫学习之爬虫利器Beautiful Soup用法分析

Dec 12 Python

python中import与from方法总结（推荐）

Mar 21 Python

Python生成一个迭代器的实操方法

Jun 18 Python

python3安装crypto出错及解决方法

Jul 30 Python

Python实现自定义读写分离代码实例

Nov 16 Python

Python argparse模块使用方法解析

Feb 20 Python

Python Django2 model 查询介绍(条件、范围、模糊查询)

Mar 16 Python

python简单实现最大似然估计&scipy库的使用详解

Apr 15 Python

Python数据分析之pandas读取数据

Jun 02 Python

Python2.7下安装Scrapy框架步骤教程

Dec 22 #Python

Python机器学习之决策树算法

Dec 22 #Python

python+selenium实现登录账户后自动点击的示例

Dec 22 #Python

python实现决策树

Dec 21 #Python

python利用sklearn包编写决策树源代码

Dec 21 #Python

python实现决策树分类算法

Dec 21 #Python

Python语言描述机器学习之Logistic回归算法

Dec 21 #Python

You might like

php生成略缩图代码

2012/07/16 PHP

php面试实现反射注入的详细方法

2019/09/30 PHP

php中array_fill函数的实例用法

2021/03/02 PHP

将HTML自动转为JS代码

2006/06/26 Javascript

jQuery-Easyui 1.2 实现多层菜单效果的代码

2012/01/13 Javascript

javascript显示用户停留时间的简单实例

2013/08/05 Javascript

js如何获取兄弟、父类等节点

2014/01/06 Javascript

jquery html动态添加的元素绑定事件详解

2016/05/24 Javascript

利用js编写响应式侧边栏

2016/09/17 Javascript

EasyUI为Numberbox添加blur事件的方法

2017/03/05 Javascript

原生JS封装animate运动框架的实例

2017/10/12 Javascript

浅析vue-router jquery和params传参(接收参数)$router $route的区别

2018/08/03 jQuery

搭建基于express框架运行环境的方法步骤

2018/11/15 Javascript

Vue实现图片与文字混输效果

2019/12/04 Javascript

Js跳出两级循环方法代码实例

2020/09/22 Javascript

pandas 小数位数精度的处理方法

2018/06/09 Python

详解Python sys.argv使用方法

2019/05/10 Python

解决pyqt5中QToolButton无法使用的问题

2019/06/21 Python

django用户登录验证的完整示例代码

2019/07/21 Python

python__new__内置静态方法使用解析

2020/01/07 Python

python爬虫学习笔记之Beautifulsoup模块用法详解

2020/04/09 Python

Sentry错误日志监控使用方法解析

2020/11/12 Python

matplotlib bar()实现多组数据并列柱状图通用简便创建方法

2021/02/24 Python

HTML5自定义元素播放焦点图动画的实现

2019/09/25 HTML / CSS

JD Sports马来西亚：英国领先的运动鞋和运动服饰零售商

2018/03/13 全球购物

新西兰购物网站：TheMarket NZ

2020/09/19 全球购物

请写出 float x 与＂零值＂比较的 if 语句

2016/01/04 面试题

某公司C#程序员面试题笔试题

2014/05/26 面试题

代码中finally中的代码会不会执行

2012/02/06 面试题

师范院校学生自荐信范文

2013/12/27 职场文书

2014年加油站工作总结

2014/12/04 职场文书

创业计划书之少年玩具店

2019/09/05 职场文书

Nginx已编译的nginx-添加新模块

2021/04/01 Servers

JavaScript 实现页面滚动动画

2021/04/24 Javascript

MySQL去除重叠时间求时间差和的实现

2021/08/23 MySQL

MySQL提取JSON字段数据实现查询

2022/04/22 MySQL