编程 Python

python爬虫框架feapde的使用简介

Posted in Python onApril 20, 2021

1. 前言

大家好，我是安果！

众所周知，Python 最流行的爬虫框架是 Scrapy，它主要用于爬取网站结构性数据

今天推荐一款更加简单、轻量级，且功能强大的爬虫框架：feapder

项目地址：

https://github.com/Boris-code/feapder

2. 介绍及安装

和 Scrapy 类似，feapder 支持轻量级爬虫、分布式爬虫、批次爬虫、爬虫报警机制等功能

内置的 3 种爬虫如下：

AirSpider

轻量级爬虫，适合简单场景、数据量少的爬虫

Spider

分布式爬虫，基于 Redis，适用于海量数据，并且支持断点续爬、自动数据入库等功能

BatchSpider

分布式批次爬虫，主要用于需要周期性采集的爬虫

在实战之前，我们在虚拟环境下安装对应的依赖库

# 安装依赖库
pip3 install feapder

3. 实战一下

我们以最简单的 AirSpider 来爬取一些简单的数据

目标网站：aHR0cHM6Ly90b3BodWIudG9kYXkvIA==

详细实现步骤如下（ 5 步）

3-1 创建爬虫项目

首先，我们使用「 feapder create -p 」命令创建一个爬虫项目

# 创建一个爬虫项目
feapder create -p tophub_demo

3-2 创建爬虫 AirSpider

命令行进入到 spiders 文件夹目录下，使用「 feapder create -s 」命令创建一个爬虫

cd spiders

# 创建一个轻量级爬虫
feapder create -s tophub_spider 1

其中

1 为默认，表示创建一个轻量级爬虫 AirSpider
2 代表创建一个分布式爬虫 Spider
3 代表创建一个分布式批次爬虫 BatchSpider

3-3 配置数据库、创建数据表、创建映射 Item

以 Mysql 为例，首先我们在数据库中创建一张数据表

# 创建一张数据表
create table topic
(
    id         int auto_increment
        primary key,
    title      varchar(100)  null comment '文章标题',
    auth       varchar(20)   null comment '作者',
    like_count     int default 0 null comment '喜欢数',
    collection int default 0 null comment '收藏数',
    comment    int default 0 null comment '评论数'
);

然后，打开项目根目录下的 settings.py 文件，配置数据库连接信息

# settings.py

MYSQL_IP = "localhost"
MYSQL_PORT = 3306
MYSQL_DB = "xag"
MYSQL_USER_NAME = "root"
MYSQL_USER_PASS = "root"

最后，创建映射 Item（可选）

进入到 items 文件夹，使用「 feapder create -i 」命令创建一个文件映射到数据库

PS：由于 AirSpider 不支持数据自动入库，所以这步不是必须

3-4 编写爬虫及数据解析

第一步，首先使「 MysqlDB 」初始化数据库

from feapder.db.mysqldb import MysqlDB

class TophubSpider(feapder.AirSpider):

    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.db = MysqlDB()

第二步，在 start_requests 方法中，指定爬取主链接地址，使用关键字「download_midware 」配置随机 UA

import feapder
from fake_useragent import UserAgent

def start_requests(self):
    yield feapder.Request("https://tophub.today/", download_midware=self.download_midware)

def download_midware(self, request):
    # 随机UA
    # 依赖：pip3 install fake_useragent
    ua = UserAgent().random
    request.headers = {'User-Agent': ua}
    return request

第三步，爬取首页标题、链接地址

使用 feapder 内置方法 xpath 去解析数据即可

def parse(self, request, response):
    # print(response.text)
    card_elements = response.xpath('//div[@class="cc-cd"]')

    # 过滤出对应的卡片元素【什么值得买】
    buy_good_element = [card_element for card_element in card_elements if
                        card_element.xpath('.//div[@class="cc-cd-is"]//span/text()').extract_first() == '什么值得买'][0]

    # 获取内部文章标题及地址
    a_elements = buy_good_element.xpath('.//div[@class="cc-cd-cb nano"]//a')

    for a_element in a_elements:
        # 标题和链接
        title = a_element.xpath('.//span[@class="t"]/text()').extract_first()
        href = a_element.xpath('.//@href').extract_first()

        # 再次下发新任务，并带上文章标题
        yield feapder.Request(href, download_midware=self.download_midware, callback=self.parser_detail_page,
                              title=title)

第四步，爬取详情页面数据

上一步下发新的任务，通过关键字「 callback 」指定回调函数，最后在 parser_detail_page 中对详情页面进行数据解析

def parser_detail_page(self, request, response):
    """
    解析文章详情数据
    :param request:
    :param response:
    :return:
    """
    title = request.title

    url = request.url

    # 解析文章详情页面，获取点赞、收藏、评论数目及作者名称
    author = response.xpath('//a[@class="author-title"]/text()').extract_first().strip()

    print("作者：", author, '文章标题:', title, "地址：", url)

    desc_elements = response.xpath('//span[@class="xilie"]/span')

    print("desc数目:", len(desc_elements))

    # 点赞
    like_count = int(re.findall('\d+', desc_elements[1].xpath('./text()').extract_first())[0])
    # 收藏
    collection_count = int(re.findall('\d+', desc_elements[2].xpath('./text()').extract_first())[0])
    # 评论
    comment_count = int(re.findall('\d+', desc_elements[3].xpath('./text()').extract_first())[0])

    print("点赞：", like_count, "收藏:", collection_count, "评论:", comment_count)

3-5 数据入库

使用上面实例化的数据库对象执行 SQL，将数据插入到数据库中即可

# 插入数据库
sql = "INSERT INTO topic(title,auth,like_count,collection,comment) values('%s','%s','%s','%d','%d')" % (
title, author, like_count, collection_count, comment_count)

# 执行
self.db.execute(sql)

4. 最后

本篇文章通过一个简单的实例，聊到了 feapder 中最简单的爬虫 AirSpider

关于 feapder 高级功能的使用，后面我将会通过一系列实例进行详细说明

源码地址：https://github.com/xingag/spider_python/tree/master/feapder

以上就是python爬虫框架feapde的使用简介的详细内容，更多关于python爬虫框架feapde的资料请关注三水点靠木其它相关文章！

python爬虫框架feapde的使用简介

- Author -

星安果

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python正则表达式介绍

Aug 06 Python

Python中线程编程之threading模块的使用详解

Jun 23 Python

python scatter散点图用循环分类法加图例

Mar 19 Python

python中时间模块的基本使用教程

May 14 Python

python实现对象列表根据某个属性排序的方法详解

Jun 11 Python

解决使用python print打印函数返回值多一个None的问题

Apr 09 Python

PyTorch 导数应用的使用教程

Aug 31 Python

Python中实现一行拆多行和多行并一行的示例代码

Sep 06 Python

python zip()函数的使用示例

Sep 23 Python

python用tkinter实现一个简易能进行随机点名的界面

Sep 27 Python

PyCharm 光标变成黑块的解决方式

Feb 06 Python

python数字图像处理：图像简单滤波

Jun 28 Python

python实现大文本文件分割成多个小文件

Apr 20 #Python

Python绘制分类图的方法

Pytest allure 命令行参数的使用

在pyCharm中下载第三方库的方法

Python控制台输出俄罗斯方块移动和旋转功能

Apr 18 #Python

深入理解python多线程编程

Apr 18 #Python

Python实现文本文件拆分写入到多个文本文件的方法

Apr 18 #Python

You might like

Laravel框架学习笔记（二）项目实战之模型（Models）

2014/10/15 PHP

PHP图片处理之使用imagecopy函数添加图片水印实例

2014/11/19 PHP

PHPExcel笔记, mpdf导出

2016/05/03 PHP

Laravel如何使用Redis共享Session

2018/02/23 PHP

PHP获取ttf格式文件字体名的方法示例

2019/03/06 PHP

分享几种好用的PHP自定义加密函数(可逆/不可逆)

2020/09/15 PHP

Javascript在IE或Firefox下获取鼠标位置的代码

2009/12/18 Javascript

与jquery serializeArray()一起使用的函数，主要来方便提交表单

2011/01/31 Javascript

Array的push与unshift方法性能比较分析

2011/03/05 Javascript

javascript中数组的多种定义方法和常用函数简介

2014/05/09 Javascript

javascript计时器详解

2015/02/28 Javascript

jQuery基于ajax实现星星评论代码

2015/08/07 Javascript

js微信支付实现代码

2016/12/22 Javascript

Angular2里获取（input file）上传文件的内容的方法

2017/09/05 Javascript

vue中进入详情页记住滚动位置的方法(keep-alive)

2018/09/21 Javascript

vue2.* element tabs tab-pane 动态加载组件操作

2020/07/19 Javascript

JavaScript Blob对象原理及用法详解

2020/10/14 Javascript

基于JavaScript实现简单抽奖功能代码实例

2020/10/20 Javascript

python解析中国天气网的天气数据

2014/03/21 Python

分享15个最受欢迎的Python开源框架

2014/07/13 Python

python安装Scrapy图文教程

2017/08/14 Python

python2.7实现复制大量文件及文件夹资料

2019/08/31 Python

python海龟绘图之画国旗实例代码

2020/11/11 Python

美国护肤咨询及美容产品电商：Askderm

2017/02/24 全球购物

巴西电子、家电、智能手机购物网站：Girafa

2019/06/04 全球购物

普天C++笔试题

2016/03/20 面试题

四种会话跟踪技术

2015/05/20 面试题

银行会计职员个人的自我评价

2013/09/29 职场文书

财务担保书范文

2014/04/02 职场文书

数学系毕业生求职信

2014/05/29 职场文书

小学爱国卫生月活动总结

2014/06/30 职场文书

教师党员承诺书2015

2015/01/21 职场文书

2016年五四青年节校园广播稿

2015/12/17 职场文书

golang 如何通过反射创建新对象

2021/04/28 Golang

Python中Numpy和Matplotlib的基本使用指南

2021/11/02 Python

JS实现数组去重的11种方法总结

2022/04/04 Javascript