Python读取数据集并消除数据中的空行方法


Posted in Python onJuly 12, 2018

如下所示:

# -*- coding: utf-8 -*-
# @ author hulei 2016-5-3
from numpy import *
import operator
from os import listdir
 
import sys
reload(sys)
sys.setdefaultencoding('utf8')
 
# x,y=getDataSet_dz('iris.data.txt',4)
 
def getDataSet(filename,numberOfFeature):  #将数据集读入内存 
 fr = open(filename)
 numberOfLines = len(fr.readlines())   #get the number of lines in the file file.readlines()是把文件的全部内容读到内存,并解析成一个list
 returnMat = zeros((numberOfLines,numberOfFeature))  #prepare matrix to return 3代表数据集中特征数目###
 classLabelVector = []      #prepare labels return 
 fr = open(filename)
 index = 0
 for line in fr.readlines():
  line = line.strip()     #strip() 参数为空时,默认删除空白符(包括'\n', '\r', '\t', ' ')
  listFromLine = line.split(',')   #split 以什么为标准分割一次 分成数组中的每个元素
  returnMat[index,:] = listFromLine[0:numberOfFeature] 
  #classLabelVector.append(int(listFromLine[-1])) #append() 方法向列表的尾部添加一个新的元素
  if listFromLine[-1] == 'Iris-setosa' :
   classLabelVector.append(1)
  elif listFromLine[-1] == 'Iris-versicolor' :
   classLabelVector.append(2)
  else:
  #elif listFromLine[-1] == 'Iris-virginica' :
   classLabelVector.append(3)
  index += 1
 return returnMat,classLabelVector
 
def getDataSet_dz(filename,numberOfFeature): #改进版,可以消除数据中的空白行
 numberOfLines = 0
 mx = []  #将数据集 去除空行后存入
 fr = open(filename)
 for line in fr.readlines():  
  line = line.strip() 
  if line != '' : #去除空白行 
   numberOfLines+=1
   mx.append( line.split(',') )
 returnMat = zeros((numberOfLines,numberOfFeature))
 classLabelVector = [] 
 for index in range(numberOfLines) :
  returnMat[index,:] = mx[index][0:numberOfFeature] 
  if mx[index][-1] == 'Iris-setosa' :
   classLabelVector.append(1)
  elif mx[index][-1] == 'Iris-versicolor' :
   classLabelVector.append(2)
  else:
  #elif listFromLine[-1] == 'Iris-virginica' :
   classLabelVector.append(3)
 return returnMat,classLabelVector

以上这篇Python读取数据集并消除数据中的空行方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python self,cls,decorator的理解
Jul 13 Python
零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版
Nov 06 Python
Python实现1-9数组形成的结果为100的所有运算式的示例
Nov 03 Python
用tensorflow搭建CNN的方法
Mar 05 Python
python3.6的venv模块使用详解
Aug 01 Python
利用Pyhton中的requests包进行网页访问测试的方法
Dec 26 Python
Python实现去除图片中指定颜色的像素功能示例
Apr 13 Python
python笔记之mean()函数实现求取均值的功能代码
Jul 05 Python
python获取栅格点和面值的实现
Mar 10 Python
Django实现将views.py中的数据传递到前端html页面,并展示
Mar 16 Python
浅谈tensorflow中dataset.shuffle和dataset.batch dataset.repeat注意点
Jun 08 Python
python解决OpenCV在读取显示图片的时候闪退的问题
Feb 23 Python
Python实现曲线拟合操作示例【基于numpy,scipy,matplotlib库】
Jul 12 #Python
python跳过第一行快速读取文件内容的实例
Jul 12 #Python
python 读取文本文件的行数据,文件.splitlines()的方法
Jul 12 #Python
Python实现的简单读写csv文件操作示例
Jul 12 #Python
用Python分析3天破10亿的《我不是药神》到底神在哪?
Jul 12 #Python
python之文件读取一行一行的方法
Jul 12 #Python
python 读取文件并替换字段的实例
Jul 12 #Python
You might like
浅谈PDO的rowCount函数
2015/06/18 PHP
不能再简单的无闪刷新验证码原理很简单
2007/11/05 Javascript
javascript 异常处理使用总结
2009/06/21 Javascript
js Date自定义函数 延迟脚本执行
2010/03/10 Javascript
预加载css或javascript的js代码
2010/04/23 Javascript
js中使用DOM复制(克隆)指定节点名数据到新的XML文件中的代码
2011/07/27 Javascript
各情景下元素宽高的获取实现代码
2011/09/13 Javascript
父节点获取子节点的字符串示例代码
2014/02/26 Javascript
jquery text()方法取标签中的文本
2014/07/25 Javascript
javascript实现画不相交的圆
2015/04/07 Javascript
jQuery+CSS实现滑动的标签分栏切换效果
2015/12/17 Javascript
JS中Array数组学习总结
2017/01/18 Javascript
js中Object.defineProperty()方法的不详解
2018/07/09 Javascript
利用Electron简单撸一个Markdown编辑器的方法
2019/06/10 Javascript
使用Python脚本将绝对url替换为相对url的教程
2015/04/24 Python
详解Python的Django框架中的templates设置
2015/05/11 Python
python中argparse模块用法实例详解
2015/06/03 Python
Windows下搭建python开发环境详细步骤
2020/07/20 Python
利用python实现命令行有道词典的方法示例
2017/01/31 Python
Python实现Smtplib发送带有各种附件的邮件实例
2017/06/05 Python
K-means聚类算法介绍与利用python实现的代码示例
2017/11/13 Python
Python设计模式之观察者模式简单示例
2018/01/10 Python
Python 读取某个目录下所有的文件实例
2018/06/23 Python
python中将两组数据放在一起按照某一固定顺序shuffle的实例
2019/07/15 Python
简单了解Django ContentType内置组件
2019/07/23 Python
Python GUI编程学习笔记之tkinter中messagebox、filedialog控件用法详解
2020/03/30 Python
实例讲解CSS3中Transform的perspective属性的用法
2016/04/22 HTML / CSS
HTML5 canvas画矩形时出现边框样式不一致的解决方法
2013/10/14 HTML / CSS
法国珠宝店:CLEOR
2017/01/29 全球购物
生物化工工艺专业应届生求职信
2013/10/08 职场文书
职员竞岗演讲稿
2014/05/14 职场文书
酒店管理毕业生自荐信
2014/05/25 职场文书
环境卫生工作汇报材料
2014/10/28 职场文书
2015年七一建党节慰问信
2015/03/23 职场文书
党小组意见范文
2015/06/08 职场文书
使用Nginx的访问日志统计PV与UV
2022/05/06 Servers