python中scrapy处理项目数据的实例分析


Posted in Python onNovember 22, 2020

在我们处理完数据后,习惯把它放在原有的位置,但是这样也会出现一定的隐患。如果因为新数据的加入或者其他种种原因,当我们再次想要启用这个文件的时候,小伙伴们就会开始着急却怎么也翻不出来,似乎也没有其他更好的搜集办法,而重新进行数据整理显然是不现实的。下面我们就一起看看python爬虫中scrapy处理项目数据的方法吧。

1、拉取项目

$ git clone https://github.com/jonbakerfish/TweetScraper.git

$ cd TweetScraper/

$ pip install -r requirements.txt #add '--user' if you are not root

$ scrapy list

$ #If the output is 'TweetScraper', then you are ready to go.

2、数据持久化

通过阅读文档,我们发现该项目有三种持久化数据的方式,第一种是保存在文件中,第二种是保存在Mongo中,第三种是保存在MySQL数据库中。因为我们抓取的数据需要做后期的分析,所以,需要将数据保存在MySQL中。

抓取到的数据默认是以Json格式保存在磁盘 ./Data/tweet/ 中的,所以,需要修改配置文件 TweetScraper/settings.py 。

ITEM_PIPELINES = {  # 'TweetScraper.pipelines.SaveToFilePipeline':100,
#'TweetScraper.pipelines.SaveToMongoPipeline':100, # replace `SaveToFilePipeline` with this to use MongoDB
  'TweetScraper.pipelines.SavetoMySQLPipeline':100, # replace `SaveToFilePipeline` with this to use MySQL
}
#settings for mysql
MYSQL_SERVER = "18.126.219.16"
MYSQL_DB   = "scraper"
MYSQL_TABLE = "tweets" # the table will be created automatically
MYSQL_USER  = "root"    # MySQL user to use (should have INSERT access granted to the Database/Table
MYSQL_PWD  = "admin123456"    # MySQL user's password

内容扩展:

scrapy.cfg是项目的配置文件

from scrapy.spider import BaseSpider
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
  "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
  "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
  filename = response.url.split("/")[-2]
  open(filename, 'wb').write(response.body)

到此这篇关于python中scrapy处理项目数据的实例分析的文章就介绍到这了,更多相关python爬虫中scrapy如何处理项目数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python解析json实例方法
Nov 19 Python
python中的内置函数getattr()介绍及示例
Jul 20 Python
Python实现根据指定端口探测服务器/模块部署的方法
Aug 25 Python
python实现在sqlite动态创建表的方法
May 08 Python
numpy自动生成数组详解
Dec 15 Python
Python星号*与**用法分析
Feb 02 Python
Python cookbook(数据结构与算法)将多个映射合并为单个映射的方法
Apr 19 Python
使用实现pandas读取csv文件指定的前几行
Apr 20 Python
Python 切分数组实例解析
Nov 07 Python
浅析Python 条件控制语句
Jul 15 Python
如何通过python计算圆周率PI
Nov 11 Python
Python爬虫之Selenium库的使用方法
Jan 03 Python
python eventlet绿化和patch原理
Nov 21 #Python
python 实用工具状态机transitions
Nov 21 #Python
python 实现表情识别
Nov 21 #Python
python 实现性别识别
Nov 21 #Python
python遍历路径破解表单的示例
Nov 21 #Python
Python如何批量生成和调用变量
Nov 21 #Python
在终端启动Python时报错的解决方案
Nov 20 #Python
You might like
Linux编译升级php的详细方法
2013/11/04 PHP
php使用mysqli向数据库添加数据的方法
2015/03/20 PHP
PHP使用trim函数去除字符串左右空格及特殊字符实例
2016/01/07 PHP
基于PHP实现用户登录注册功能的详细教程
2020/08/04 PHP
通过JavaScript使Div居中并随网页大小改变而改变
2013/06/24 Javascript
Jquery在指定DIV加载HTML示例代码
2014/02/17 Javascript
Jquery节点遍历next与nextAll方法使用示例
2014/07/22 Javascript
window.location.href的用法(动态输出跳转)
2014/08/09 Javascript
谈谈我对JavaScript原型和闭包系列理解(随手笔记8)
2015/12/24 Javascript
WordPress中利用AJAX技术进行评论提交的实现示例
2016/01/12 Javascript
AngularJS通过$http和服务器通信详解
2016/09/21 Javascript
React-redux实现小案例(todolist)的过程
2019/09/29 Javascript
VUE子组件向父组件传值详解(含传多值及添加额外参数场景)
2020/09/01 Javascript
详解Python中的__new__()方法的使用
2015/04/09 Python
使用beaker让Facebook的Bottle框架支持session功能
2015/04/23 Python
python控制台中实现进度条功能
2015/11/10 Python
Python学习入门之区块链详解
2017/07/25 Python
python分割一个文本为多个文本的方法
2019/07/22 Python
ubuntu 安装pyqt5和卸载pyQt5的方法
2020/03/24 Python
python 5个顶级异步框架推荐
2020/09/09 Python
详解python爬取弹幕与数据分析
2020/11/14 Python
用Python实现定时备份Mongodb数据并上传到FTP服务器
2021/01/27 Python
css3 伪元素和伪类选择器详解
2014/09/04 HTML / CSS
Html5如何唤起百度地图App的方法
2019/01/27 HTML / CSS
原生canvas制作画图小工具的踩坑和爬坑
2020/06/09 HTML / CSS
美国女性服饰销售网站:Nasty Gal(坏女孩)
2016/07/26 全球购物
美赞臣营养马来西亚旗舰店:Enfagrow马来西亚
2019/07/26 全球购物
如何打印出当前源文件的文件名以及源文件的当前行号
2015/04/05 面试题
乡村文明行动实施方案
2014/03/29 职场文书
疾病捐款倡议书
2014/05/13 职场文书
阅兵口号
2014/06/19 职场文书
本科毕业论文指导教师评语
2014/12/30 职场文书
酒店总经理岗位职责
2015/04/01 职场文书
入党积极分子党小组意见
2015/06/02 职场文书
心术观后感
2015/06/11 职场文书
治理商业贿赂工作总结
2015/08/10 职场文书