python中scrapy处理项目数据的实例分析


Posted in Python onNovember 22, 2020

在我们处理完数据后,习惯把它放在原有的位置,但是这样也会出现一定的隐患。如果因为新数据的加入或者其他种种原因,当我们再次想要启用这个文件的时候,小伙伴们就会开始着急却怎么也翻不出来,似乎也没有其他更好的搜集办法,而重新进行数据整理显然是不现实的。下面我们就一起看看python爬虫中scrapy处理项目数据的方法吧。

1、拉取项目

$ git clone https://github.com/jonbakerfish/TweetScraper.git

$ cd TweetScraper/

$ pip install -r requirements.txt #add '--user' if you are not root

$ scrapy list

$ #If the output is 'TweetScraper', then you are ready to go.

2、数据持久化

通过阅读文档,我们发现该项目有三种持久化数据的方式,第一种是保存在文件中,第二种是保存在Mongo中,第三种是保存在MySQL数据库中。因为我们抓取的数据需要做后期的分析,所以,需要将数据保存在MySQL中。

抓取到的数据默认是以Json格式保存在磁盘 ./Data/tweet/ 中的,所以,需要修改配置文件 TweetScraper/settings.py 。

ITEM_PIPELINES = {  # 'TweetScraper.pipelines.SaveToFilePipeline':100,
#'TweetScraper.pipelines.SaveToMongoPipeline':100, # replace `SaveToFilePipeline` with this to use MongoDB
  'TweetScraper.pipelines.SavetoMySQLPipeline':100, # replace `SaveToFilePipeline` with this to use MySQL
}
#settings for mysql
MYSQL_SERVER = "18.126.219.16"
MYSQL_DB   = "scraper"
MYSQL_TABLE = "tweets" # the table will be created automatically
MYSQL_USER  = "root"    # MySQL user to use (should have INSERT access granted to the Database/Table
MYSQL_PWD  = "admin123456"    # MySQL user's password

内容扩展:

scrapy.cfg是项目的配置文件

from scrapy.spider import BaseSpider
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
  "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
  "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
  filename = response.url.split("/")[-2]
  open(filename, 'wb').write(response.body)

到此这篇关于python中scrapy处理项目数据的实例分析的文章就介绍到这了,更多相关python爬虫中scrapy如何处理项目数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python使用BeautifulSoup分析网页信息的方法
Apr 04 Python
Python栈类实例分析
Jun 15 Python
Python selenium 三种等待方式详解(必会)
Sep 15 Python
python使用tkinter实现简单计算器
Jan 30 Python
Python 3.x 安装opencv+opencv_contrib的操作方法
Apr 02 Python
Python中的单行、多行、中文注释方法
Jul 19 Python
Python+OpenCV+图片旋转并用原底色填充新四角的例子
Dec 12 Python
Pytorch Tensor的统计属性实例讲解
Dec 30 Python
python GUI库图形界面开发之PyQt5信号与槽基础使用方法与实例
Mar 06 Python
上帝为你开了一扇窗之Tkinter常用函数详解
Jun 02 Python
68行Python代码实现带难度升级的贪吃蛇
Jan 18 Python
Python中生成随机数据安全性、多功能性、用途和速度方面进行比较
Apr 14 Python
python eventlet绿化和patch原理
Nov 21 #Python
python 实用工具状态机transitions
Nov 21 #Python
python 实现表情识别
Nov 21 #Python
python 实现性别识别
Nov 21 #Python
python遍历路径破解表单的示例
Nov 21 #Python
Python如何批量生成和调用变量
Nov 21 #Python
在终端启动Python时报错的解决方案
Nov 20 #Python
You might like
PHP的一个完整SMTP类(解决邮件服务器需要验证时的问题)
2006/10/09 PHP
PHP MYSQL乱码问题,使用SET NAMES utf8校正
2009/11/30 PHP
php使用正则表达式提取字符串中尖括号、小括号、中括号、大括号中的字符串
2020/04/05 PHP
通过Email发送PHP错误的方法
2015/07/20 PHP
Symfony查询方法实例小结
2017/06/28 PHP
js 返回时间戳所对应的具体时间
2010/07/20 Javascript
javascript 闭包
2011/09/15 Javascript
基于jquery的DIV随滚动条滚动而滚动的代码
2012/07/20 Javascript
jQuery模拟超链接点击效果代码
2013/04/21 Javascript
jQuery中校验时间格式的正则表达式小结
2013/09/22 Javascript
用户代理字符串userAgent可实现的四个识别
2015/09/20 Javascript
js获取url传值的方法
2015/12/18 Javascript
JS读写CSS样式的方法汇总
2016/08/16 Javascript
微信开发之调起摄像头、本地展示图片、上传下载图片实例
2016/12/08 Javascript
Dropify.js图片宽高自适应的方法
2017/11/27 Javascript
select获取下拉框的值 下拉框默认选中方法
2018/02/28 Javascript
学习React中ref的两个demo示例
2018/08/14 Javascript
vue select选择框数据变化监听方法
2018/08/24 Javascript
[46:59]完美世界DOTA2联赛PWL S2 GXR vs Ink 第二场 11.19
2020/11/20 DOTA
详解Python如何生成词云的方法
2018/06/01 Python
Python正则表达式指南 推荐
2018/10/09 Python
详解python中TCP协议中的粘包问题
2019/03/22 Python
Python定时发送天气预报邮件代码实例
2019/09/09 Python
python实现QQ邮箱发送邮件
2020/03/06 Python
使用python接受tgam的脑波数据实例
2020/04/09 Python
python的help函数如何使用
2020/06/11 Python
python中append函数用法讲解
2020/12/11 Python
英国最大的女士服装零售商:Bonmarché
2017/08/17 全球购物
函授毕业生的自我鉴定
2013/11/26 职场文书
早餐连锁店计划书
2014/01/08 职场文书
房屋转让协议书
2014/04/11 职场文书
建筑工程技术专业求职信
2014/07/16 职场文书
授权委托书样本
2014/09/25 职场文书
重阳节标语大全
2014/10/07 职场文书
杜甫草堂导游词
2015/02/03 职场文书
python爬取某网站原图作为壁纸
2021/06/02 Python