编程 Python

对python .txt文件读取及数据处理方法总结

Posted in Python onApril 23, 2018

1、处理包含数据的文件

最近利用Python读取txt文件时遇到了一个小问题，就是在计算两个np.narray()类型的数组时，出现了以下错误：

TypeError: ufunc 'subtract' did not contain a loop with signature matching types dtype('<U3') dtype('<U3') dtype('<U3')

作为一个Python新手，遇到这个问题后花费了挺多时间，在网上找了许多大神们写的例子，最后终于解决了。

总结如下：

（1）出现此问题的原因是：目的是想计算两个数组间的差值，但数组中的元素不是数据类型（float或int等），而是str类型的。

（2）解决方法：在为空数组添加数据过程中，将每个数据强制转化为float型。

如将“character.append(dataSet[i][:-1])”修改为“ character.append([float(tk) for tk in dataSet[i][:-1]])”

现将利用Python读取txt文件的过程总结如下：

python版本为python3.6

（1）函数定义，存放于Function.py文件中：

from numpy import *
import random
#读取数据函数,返回list类型的训练数据集和测试数据集
def loadData(fileName): 
 trainingData=[]
 testData=[]
 with open(fileName) as txtData:
 lines=txtData.readlines()
 for line in lines:
  lineData=line.strip().split(',') #去除空白和逗号“,”
  if random.random()<0.7:  #数据集分割比例
  trainingData.append(lineData) #训练数据集
  else:
  testData.append(lineData) #测试数据集
 return trainingData,testData
#输入数据为list类型,分割数据集，分割为特征和标签两部分，返回数据为np.narray类型
def splitData(dataSet): 
 character=[]
 label=[]
 for i in range(len(dataSet)):
 character.append([float(tk) for tk in dataSet[i][:-1]])
 label.append(dataSet[i][-1])
 return array(character),array(label)

（2）实现两个数组间的减法，存放于main.py文件中：

#__author__=='qustl_000'
#-*- coding: utf-8 -*-
import numpy as np
import Function
fileName="1.txt"
trainingData,testData=Function.loadData(fileName)
trainingCharacter,trainingLabel=Function.splitData(trainingData)
testCharacter,testLabel=Function.splitData(testData)
diff1=np.tile(testCharacter[0],(len(trainingCharacter),1))-trainingCharacter
print('测试数据集的一条数据，扩充到与训练数据集同维：')
print(np.tile(testCharacter[0],(len(trainingCharacter),1)))
print('训练数据集：')
print(trainingCharacter)
print('作差后的结果：')
print(diff1)

（3）运行结果：

测试数据集的一条数据，扩充到与训练数据集同维：
[[ 1.5 60. ]
 [ 1.5 60. ]
 [ 1.5 60. ]
 [ 1.5 60. ]
 [ 1.5 60. ]
 [ 1.5 60. ]
 [ 1.5 60. ]
 [ 1.5 60. ]
 [ 1.5 60. ]
 [ 1.5 60. ]
 [ 1.5 60. ]
 [ 1.5 60. ]
 [ 1.5 60. ]]
训练数据集：
[[ 1.5 40. ]
 [ 1.5 50. ]
 [ 1.6 40. ]
 [ 1.6 50. ]
 [ 1.6 60. ]
 [ 1.6 70. ]
 [ 1.7 60. ]
 [ 1.7 70. ]
 [ 1.7 80. ]
 [ 1.8 60. ]
 [ 1.8 80. ]
 [ 1.8 90. ]
 [ 1.9 90. ]]
作差后的结果：
[[ 0. 20. ]
 [ 0. 10. ]
 [ -0.1 20. ]
 [ -0.1 10. ]
 [ -0.1 0. ]
 [ -0.1 -10. ]
 [ -0.2 0. ]
 [ -0.2 -10. ]
 [ -0.2 -20. ]
 [ -0.3 0. ]
 [ -0.3 -20. ]
 [ -0.3 -30. ]
 [ -0.4 -30. ]]

数据集如下：

1.5,40,thin
1.5,50,fat
1.5,60,fat
1.6,40,thin
1.6,50,thin
1.6,60,fat
1.6,70,fat
1.7,50,thin
1.7,60,thin
1.7,70,fat
1.7,80,fat
1.8,60,thin
1.8,70,thin
1.8,80,fat
1.8,90,fat
1.9,80,thin
1.9,90,fat

2、处理文本文件，如情感识别类的文件

在进行文本的情感分类时，从电影评论数据集网站上下载数据集后，发现数据集中存在许多不需要的符号。截取部分包含多余字符的数据如下：

对python .txt文件读取及数据处理方法总结

下载数据集后，所有txt文件存放在两个文件夹：“neg”(包含消极评论)和“pos”(包含积极地评论)中。

两者的存放目录如下：“F:\Self_Learning\机器学习\python\Bayes\review_polarity\txt_sentoken”。后面需要用到文件路径，此路径可根据自己存放目录修改。

主要涉及到的python操作有：多余字符的删除、文件夹中多文件的操作。

2.1 多余字符的删除

首先，我们要删除多余的符号，获得干净的数据。

经过查找资料，知道删除一条文本数据中不需要的符号，可以通过re.sub(chara,newChara,data)函数实现，其中chara是需要删除的字符，newChara是删除字符后相应位置的替换字符，data是需要操作的数据。比如下面的代码，指的是删除lines中包含的前面列出的字符，并用空白替换：

lineString = re.sub("[\n\.\!\/_\-$%^*(+\"\')]+|[+—()?【】“”！:,;.？、~@#￥%…&*（）0123456789]+", " ", lines)

2.2 python对多文件的操作

下面的程序中，pathDirPos指的是所有积极评论的txt文件所在的目录，在此指的是“F:\Self_Learning\机器学习\python\Bayes\review_polarity\txt_sentoken\pos”。child就是获得的每个txt文件全名。

for allDir in pathDirPos:
 child = os.path.join('%s' % allDir)

2.3 电影评论数据集预处理

下面给出对于电影评论数据集的预处理程序（python3.6）.

'''获取数据，并去除数据中的多余符号,返回list类型的数据集'''
def loadData(pathDirPos,pathDirNeg):
 posAllData = [] # 积极评论
 negAllData = [] # 消极评论
 # 积极评论
 for allDir in pathDirPos:
 lineDataPos = []
 child = os.path.join('%s' % allDir)
 filename = r"review_polarity/txt_sentoken/pos/" + child
 with open(filename) as childFile:
  for lines in childFile:
  lineString = re.sub("[\n\.\!\/_\-$%^*(+\"\')]+|[+—()?【】“”！:,;.？、~@#￥%…&*（）0123456789]+", " ", lines)
  line = lineString.split(' ') #用空白分割每个文件中的数据集（此时还包含许多空白字符）
  for strc in line:
   if strc != "" and len(strc) > 1: #删除空白字符，并筛选出长度大于1的单词
   lineDataPos.append(strc)
  posAllData.append(lineDataPos)
 # 消极评论
 for allDir in pathDirNeg:
 lineDataNeg = []
 child = os.path.join('%s' % allDir)
 filename = r"review_polarity/txt_sentoken/neg/" + child
 with open(filename) as childFile:
  for lines in childFile:
  lineString = re.sub("[\n\.\!\/_\-$%^*(+\"\')]+|[+—()?【】“”！:,;.？、~@#￥%…&*（）0123456789]+", " ", lines)
  line = lineString.split(' ') #用空白分割每个文件中的数据集（此时还包含许多空白字符）
  for strc in line:
   if strc != "" and len(strc) > 1: #删除空白字符，并筛选出长度大于1的单词
   lineDataNeg.append(strc)
  negAllData.append(lineDataNeg)
 return posAllData,negAllData
'''划分数据集，将数据集划分为训练数据和测试数据,参数splitPara为分割比例'''
def splitDataSet(pathDirPos,pathDirNeg,splitPara):
 trainingData=[]
 testData=[]
 traingLabel=[]
 testLabel=[]
 posData,negData=loadData(pathDirPos,pathDirNeg)
 pos_len=len(posData)
 neg_len=len(negData)
 #操作积极评论数据
 for i in range(pos_len):
 if(random.random()<splitPara):
  trainingData.append(posData[i])
  traingLabel.append(1)
 else:
  testData.append(posData[i])
  testLabel.append(1)
 for j in range(neg_len):
 if(random.random()<splitPara):
  trainingData.append(negData[j])
  traingLabel.append(0)
 else:
  testData.append(negData[j])
  testLabel.append(0)
 return trainingData,traingLabel,testData,testLabel

以上这篇对python .txt文件读取及数据处理方法总结就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

对python .txt文件读取及数据处理方法总结

- Author -

007lizhen

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python 解析XML文件

Apr 15 Python

python使用calendar输出指定年份全年日历的方法

Apr 04 Python

Python 装饰器深入理解

Mar 16 Python

Python3中关于cookie的创建与保存

Oct 21 Python

Python编程深度学习计算库之numpy

Dec 28 Python

PyTorch中topk函数的用法详解

Jan 02 Python

python GUI框架pyqt5 对图片进行流式布局的方法（瀑布流flowlayout）

Mar 12 Python

Pytorch十九种损失函数的使用详解

Apr 29 Python

Python StringIO及BytesIO包使用方法解析

Jun 15 Python

python在CMD界面读取excel所有数据的示例

Sep 28 Python

python生成word合同的实例方法

Jan 12 Python

Python爬取某拍短视频

Jun 11 Python

python 读文件,然后转化为矩阵的实例

Apr 23 #Python

python读文件保存到字典,修改字典并写入新文件的实例

Apr 23 #Python

Python 将pdf转成图片的方法

Apr 23 #Python

利用python将pdf输出为txt的实例讲解

Apr 23 #Python

Go/Python/Erlang编程语言对比分析及示例代码

Apr 23 #Python

Python 3.6 读取并操作文件内容的实例

Apr 23 #Python

Python 循环语句之 while，for语句详解

Apr 23 #Python

You might like

初探PHP5

2006/10/09 PHP

浅谈PHP语法(1)

2006/10/09 PHP

linux中cd命令使用详解

2015/01/08 PHP

PHP文件及文件夹操作之创建、删除、移动、复制

2016/07/13 PHP

PHP简单实现正则匹配省市区的方法

2018/04/13 PHP

查看图片(前进后退)功能实现js代码

2013/04/24 Javascript

showModalDialog在谷歌浏览器下会返回Null的解决方法

2013/11/27 Javascript

js实现数组去重、判断数组以及对象中的内容是否相同

2013/11/29 Javascript

JS批量操作CSS属性详细解析

2013/12/16 Javascript

js实现input框文字动态变换显示效果

2015/08/19 Javascript

js实现简单折叠、展开菜单的方法

2015/08/28 Javascript

javascript 中的 delete及delete运算符

2015/11/15 Javascript

js组件SlotMachine实现图片切换效果制作抽奖系统

2016/04/17 Javascript

jQuery实现的超链接提示效果示例【附demo源码下载】

2016/09/09 Javascript

浅谈react.js 之批量添加与删除功能

2017/04/17 Javascript

谈谈对vue响应式数据更新的误解

2017/08/01 Javascript

mui 打开新窗口的方式总结及注意事项

2017/08/20 Javascript

详解EasyUi控件中的Datagrid

2017/08/23 Javascript

jQuery实现对网页节点的增删改查功能示例

2017/09/18 jQuery

微信小程序列表渲染功能之列表下拉刷新及上拉加载的实现方法分析

2017/11/27 Javascript

vue头部导航动态点击处理方法

2018/11/02 Javascript

用Python编写简单的定时器的方法

2015/05/02 Python

python创建学生管理系统

2019/11/22 Python

如何在django中添加日志功能

2020/02/06 Python

Python unittest discover批量执行代码实例

2020/09/08 Python

Html5实现首页动态视频背景的示例代码

2019/09/25 HTML / CSS

美国生日蛋糕店：Bake Me A Wish!

2017/02/08 全球购物

莫斯科高科技在线商店：KremlinStore

2019/03/13 全球购物

测试时代收集的软件测试面试题

2013/09/25 面试题

房屋转让协议书

2014/04/11 职场文书

出纳岗位职责

2015/01/31 职场文书

中学生勤俭节约倡议书

2015/04/29 职场文书

2016年情人节问候语

2015/11/11 职场文书

描述鲁迅的名言整理，一生受用

2019/08/08 职场文书

python 进阶学习之python装饰器小结

2021/09/04 Python

如何在Python中妥善使用进度条详解

2022/04/05 Python