编程 Python

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

Posted in Python onJune 06, 2020

1. 目标

通过hadoop hive或spark等数据计算框架完成数据清洗后的数据在HDFS上

爬虫和机器学习在Python中容易实现

在Linux环境下编写Python没有pyCharm便利

需要建立Python与HDFS的读写通道

2. 实现

安装Python模块pyhdfs

版本:Python3.6, hadoop 2.9

读文件代码如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070')#hdfs地址
res=client.open('/sy.txt')#hdfs文件路径,根目录/
for r in res:
 line=str(r,encoding='utf8')#open后是二进制,str()转换为字符串并转码
 print(line)

写文件代码如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070',user_name='hadoop')#只有hadoop用户拥有写权限
str='hello world'
client.create('/py.txt',str)#创建新文件并写入字符串

上传本地文件到HDFS

from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070', user_name='hadoop')
client.copy_from_local('d:/pydemo.txt', '/pydemo')#本地文件绝对路径,HDFS目录必须不存在

3. 读取文本文件写入csv

Python安装pandas模块

确认文本文件的分隔符

# pyhdfs读取文本文件,分隔符为逗号,
from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070', user_name='hadoop')
inputfile=client.open('/int.txt')
# pandas调用读取方法read_table
import pandas as pd
df=pd.read_table(inputfile,encoding='gbk',sep=',')#参数为源文件,编码,分隔符
# 数据集to_csv方法转换为csv
df.to_csv('demo.csv',encoding='gbk',index=None)#参数为目标文件,编码,是否要索引

补充知识：记读取hdfs 转 pandas 再经由pandas转为csv的一个坑

工作流程是这样的：

读取 hdfs 的 csv 文件，采用的是 hdfs 客户端提供的 read 方法，该方法返回一个生成器。

将读取到的数据按逗号处理，变为一个二维数组。

将二维数组传给 pandas，生成 df。

经若干处理后，将 df 转为 csv 文件并写入hdfs。

问题是这样的：

正常的数据：

ZERO,MEAN,STD,CV,INC,OPP,CS,IS_OUTNET

0,9.233,2.445,0.265,1.202,241,1,0

0,8.667,1.882,0.217,1.049,179,1,0

三行数据，正常走流程，没有任何问题。

异常数据：

ZERO,MEAN,STD,CV,INC,OPP,CS,IS_OUTNET,probability,prediction

0,9.233,2.445,0.265,1.202,241,1,0,'[0.9653901649086855,0.03460983509131456]',0.0

0,8.667,1.882,0.217,1.049,179,1,0,'[0.9653901649086855,0.03460983509131456]',0.0

在每一行中都会有一个数组类似的数据，有一对引号包起来，中间存在逗号，不可以拆分。

为此，我的做法如下：

匹配逗号是被成对引号包围的字符串。

将匹配到的字符串中的逗号替换为特定字符。

将替换后的新字符串替换回原字符串。

在将原字符串中的特定字符串替换为逗号。

本来这样做没有什么问题，但是在经由pandas转为csv的时候，发现原来带引号的字符串变为了前后各带三个引号。

源数据：

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

处理后的数据：

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

方法如下：

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

仔细研究对比了下数据，发现数据里的引号其实只是在纯文本文件中用来标识其为字符串，并不应该存在于实际数据中。

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

而我每次匹配后都是原封不动替换回去，譬如：

源数据：

"[0.9653901649086855,0.03460983509131456]"

匹配替换后：

"[0.9653901649086855${dot}0.03460983509131456]"

这样传给pandas，它就会认为这个数据是带引号的，在重新转为csv的时候，就会进行转义等操作，导致多出很多引号。

所以解决办法就是在替换之前，将匹配时遇到的引号也去掉：

PATTERN = '(?<=(?P<quote>[\'\"]))([^,]+,[^,]+)+?(?=(?P=quote))'

中间 ([^,]+,[^,]+)+? 要用+？，因为必须确定是有这样的组合才可以，并且非贪婪模式，故不可？或者 *？

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

（ps：为了方便后面引用前面的匹配，我在环视匹配中创建了一个组）

再来个整体效果：

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

为了说明效果，引用pandas的自带读取csv方法：

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

可以看到pandas读取出的该位置数据也是字符串，引号正是作为一个字符串声明而存在。

再次修改正则：

def split_by_dot_escape_quote(string):
  """
  按逗号分隔字符串，若其中有引号，将引号内容视为整体
  """
  # 匹配引号中的内容，非贪婪，采用正向肯定环视，
  # 当左引号（无论单双引）被匹配到，放入组quote，
  # 中间的内容任意，但是要用+？，非贪婪，且至少有一次匹配到字符，
  # 若*？，则匹配0次也可，并不会匹配任意字符（环视只匹配位置不匹配字符），
  # 由于在任意字符后面又限定了前面匹配到的quote，故只会匹配到"，
  # +？则会限定前面必有字符被匹配，故""，或引号中任意值都可匹配到
  pattern = re.compile('(?=(?P<quote>[\'\"])).+?(?P=quote)')
  rs = re.finditer(pattern, string)
  for data in rs:
    # 匹配到的字符串
    old_str = data.group()
    # 将匹配到的字符串中的逗号替换为特定字符，
    # 以便还原到原字符串进行替换
    new_str = old_str.replace(',', '${dot}')
    # 由于匹配到的引号仅为字符串申明，并不具有实际意义，
    # 需要把匹配时遇到的引号都去掉，只替换掉当前匹配组的引号
    new_str = re.sub(data.group('quote'), '', new_str)
    string = string.replace(old_str, new_str)
  sps = string.split(',')
  return map(lambda x: x.replace('${dot}', ','), sps)
 
 
s = '"2011,603","3510006998","F","5","5","0",""'
print(list(split_by_dot_escape_quote(s)))

运行结果如下：

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

之前想的正则有些复杂，反而偏离了本意，还是对正则的认识不够深。

以上这篇Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

- Author -

翱翔的江鸟

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

详解Python的Flask框架中生成SECRET_KEY密钥的方法

Jun 07 Python

Python 3.x读写csv文件中数字的方法示例

Aug 29 Python

Python并发编程协程(Coroutine)之Gevent详解

Dec 27 Python

对dataframe进行列相加,行相加的实例

Jun 08 Python

python实现字符串完美拆分split()的方法

Jul 16 Python

详解使用PyInstaller将Pygame库编写的小游戏程序打包为exe文件

Aug 23 Python

关于pytorch中全连接神经网络搭建两种模式详解

Jan 14 Python

python读取配置文件方式(ini、yaml、xml)

Apr 09 Python

Jupyter打开图形界面并画出正弦函数图像实例

Apr 24 Python

python中def是做什么的

Jun 10 Python

keras.utils.to_categorical和one hot格式解析

Jul 02 Python

使用Python制作一盏 3D 花灯喜迎元宵佳节

Feb 26 Python

完美解决python针对hdfs上传和下载的问题

Jun 05 #Python

python读取hdfs并返回dataframe教程

Jun 05 #Python

python pymysql链接数据库查询结果转为Dataframe实例

Jun 05 #Python

python mysql中in参数化说明

Jun 05 #Python

JAVA SWT事件四种写法实例解析

Jun 05 #Python

pandas 像SQL一样使用WHERE IN查询条件说明

Jun 05 #Python

基于Python爬虫采集天气网实时信息

Jun 05 #Python

You might like

php数组使用规则分析

2015/02/27 PHP

php使用strip_tags()去除html标签仍有空白的解决方法

2016/07/28 PHP

PHP导出带样式的Excel示例代码

2016/08/28 PHP

PHP基于GD库的图像处理方法小结

2016/09/27 PHP

动态刷新 dorado树的js代码

2009/06/12 Javascript

js获取图片长和宽度的代码

2009/11/24 Javascript

Javascript数组的排序 sort()方法和reverse()方法

2012/06/04 Javascript

跨浏览器的事件对象介绍

2012/06/27 Javascript

JS获得QQ号码的昵称,头像,生日的简单实例

2013/12/04 Javascript

22点关于jquery性能优化的建议

2014/05/28 Javascript

详解addEventListener的三个参数之useCapture

2015/03/16 Javascript

深入解析jQuery中Deferred的deferred.promise()方法

2016/05/03 Javascript

jQuery Ajax 上传文件处理方式介绍(推荐)

2016/06/30 Javascript

vue2.0实现导航菜单切换效果

2017/05/08 Javascript

20行js代码实现的贪吃蛇小游戏

2017/06/20 Javascript

利用nvm管理多个版本的node.js与npm详解

2017/11/02 Javascript

jquery使用echarts实现有向图可视化功能示例

2019/11/25 jQuery

vue中音频wavesurfer.js的使用方法

2020/02/20 Vue.js

JavaScript中的Proxy对象

2020/11/27 Javascript

[36:54]Mineski vs Winstrike 2018国际邀请赛小组赛BO2 第一场 8.16

2018/08/17 DOTA

使用C语言来扩展Python程序和Zope服务器的教程

2015/04/14 Python

Python实现基本数据结构中队列的操作方法示例

2017/12/04 Python

Python 查找字符在字符串中的位置实例

2018/05/02 Python

python3 字符串/列表/元组（str/list/tuple）相互转换方法及join()函数的使用

2019/04/03 Python

jupyternotebook 撤销删除的操作方式

2020/04/17 Python

Python使用socket模块实现简单tcp通信

2020/08/18 Python

CSS 3.0 结合video视频实现的创意开幕效果

2020/06/01 HTML / CSS

英国最受信任的在线眼镜商之一：Fashion Eyewear

2019/10/31 全球购物

Prototype如何更新局部页面

2013/03/03 面试题

JAVA软件工程师测试题

2014/07/25 面试题

餐厅总经理岗位职责

2013/12/31 职场文书

趣味活动策划方案

2014/02/08 职场文书

给校长的一封检讨书

2014/09/20 职场文书

python基于机器学习预测股票交易信号

2021/05/25 Python

Anaconda安装pytorch及配置PyCharm 2021环境

2021/06/04 Python

解决WINDOWS电脑开机后桌面没有任何图标

2022/04/09 数码科技