python中scrapy处理项目数据的实例分析


Posted in Python onNovember 22, 2020

在我们处理完数据后,习惯把它放在原有的位置,但是这样也会出现一定的隐患。如果因为新数据的加入或者其他种种原因,当我们再次想要启用这个文件的时候,小伙伴们就会开始着急却怎么也翻不出来,似乎也没有其他更好的搜集办法,而重新进行数据整理显然是不现实的。下面我们就一起看看python爬虫中scrapy处理项目数据的方法吧。

1、拉取项目

$ git clone https://github.com/jonbakerfish/TweetScraper.git

$ cd TweetScraper/

$ pip install -r requirements.txt #add '--user' if you are not root

$ scrapy list

$ #If the output is 'TweetScraper', then you are ready to go.

2、数据持久化

通过阅读文档,我们发现该项目有三种持久化数据的方式,第一种是保存在文件中,第二种是保存在Mongo中,第三种是保存在MySQL数据库中。因为我们抓取的数据需要做后期的分析,所以,需要将数据保存在MySQL中。

抓取到的数据默认是以Json格式保存在磁盘 ./Data/tweet/ 中的,所以,需要修改配置文件 TweetScraper/settings.py 。

ITEM_PIPELINES = {  # 'TweetScraper.pipelines.SaveToFilePipeline':100,
#'TweetScraper.pipelines.SaveToMongoPipeline':100, # replace `SaveToFilePipeline` with this to use MongoDB
  'TweetScraper.pipelines.SavetoMySQLPipeline':100, # replace `SaveToFilePipeline` with this to use MySQL
}
#settings for mysql
MYSQL_SERVER = "18.126.219.16"
MYSQL_DB   = "scraper"
MYSQL_TABLE = "tweets" # the table will be created automatically
MYSQL_USER  = "root"    # MySQL user to use (should have INSERT access granted to the Database/Table
MYSQL_PWD  = "admin123456"    # MySQL user's password

内容扩展:

scrapy.cfg是项目的配置文件

from scrapy.spider import BaseSpider
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
  "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
  "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
  filename = response.url.split("/")[-2]
  open(filename, 'wb').write(response.body)

到此这篇关于python中scrapy处理项目数据的实例分析的文章就介绍到这了,更多相关python爬虫中scrapy如何处理项目数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
用python做一个搜索引擎(Pylucene)的实例代码
Jul 05 Python
python opencv minAreaRect 生成最小外接矩形的方法
Jul 01 Python
python 函数中的内置函数及用法详解
Jul 02 Python
Python的bit_length函数来二进制的位数方法
Aug 27 Python
python实现把两个二维array叠加成三维array示例
Nov 29 Python
python发qq消息轰炸虐狗好友思路详解(完整代码)
Feb 15 Python
PyCharm设置注释字体颜色以及是否倾斜的操作
Sep 16 Python
Pycharm学生免费专业版安装教程的方法步骤
Sep 24 Python
python爬取2021猫眼票房字体加密实例
Feb 19 Python
Python 求向量的余弦值操作
Mar 04 Python
总结Pyinstaller打包的高级用法
Jun 28 Python
Appium中scroll和drag_and_drop根据元素位置滑动
Feb 15 Python
python eventlet绿化和patch原理
Nov 21 #Python
python 实用工具状态机transitions
Nov 21 #Python
python 实现表情识别
Nov 21 #Python
python 实现性别识别
Nov 21 #Python
python遍历路径破解表单的示例
Nov 21 #Python
Python如何批量生成和调用变量
Nov 21 #Python
在终端启动Python时报错的解决方案
Nov 20 #Python
You might like
php 批量替换程序的具体实现代码
2013/10/04 PHP
ThinkPHP实现事务回滚示例代码
2014/06/23 PHP
Linux操作系统安装LAMP环境
2015/06/26 PHP
PHP入门教程之使用Mysqli操作数据库的方法(连接,查询,事务回滚等)
2016/09/11 PHP
javascript jQuery插件练习
2008/12/24 Javascript
js改变文章字体大小的实例代码
2013/11/27 Javascript
Nodejs学习笔记之NET模块
2015/01/13 NodeJs
jQuery获得document和window对象宽度和高度的方法
2015/03/25 Javascript
当jquery ajax遇上401请求的解决方法
2016/05/19 Javascript
jQuery实现手机自定义弹出输入框
2016/06/13 Javascript
解析JavaScript中的字符串类型与字符编码支持
2016/06/24 Javascript
深入理解React中es6创建组件this的方法
2016/08/29 Javascript
解决VUE框架 导致绑定事件的阻止冒泡失效问题
2018/02/24 Javascript
微信小程序访问豆瓣电影api的实现方法
2019/03/31 Javascript
vue生命周期的探索
2019/04/03 Javascript
实例详解带参数的 npm script
2019/05/28 Javascript
解决layui laydate 时间控件一闪而过的问题
2019/09/28 Javascript
elementUI同一页面展示多个Dialog的实现
2020/11/19 Javascript
[03:17]2014DOTA2 国际邀请赛中国区预选赛 四强专访
2014/05/23 DOTA
Python语言编写电脑时间自动同步小工具
2013/03/08 Python
高性能web服务器框架Tornado简单实现restful接口及开发实例
2014/07/16 Python
windows上安装Anaconda和python的教程详解
2017/03/28 Python
详解Golang 与python中的字符串反转
2017/07/21 Python
浅谈tensorflow 中tf.concat()的使用
2020/02/07 Python
三只松鼠官方旗舰店:全网坚果销售第1
2017/11/25 全球购物
意大利辅助药品、药物和补品在线销售:FarmaEurope
2020/04/29 全球购物
即将毕业大学生自荐信
2014/01/24 职场文书
职工运动会邀请函
2014/02/02 职场文书
股份转让协议书
2014/04/12 职场文书
电话客服工作职责
2014/07/27 职场文书
老干部工作先进事迹
2014/08/17 职场文书
实习生工作证明范本
2014/09/14 职场文书
镇党政领导班子民主生活会思想汇报
2014/10/11 职场文书
python 管理系统实现mysql交互的示例代码
2021/12/06 Python
pt-archiver 主键自增
2022/04/26 MySQL
Nginx的gzip相关介绍
2022/05/11 Servers