Python读取数据集并消除数据中的空行方法


Posted in Python onJuly 12, 2018

如下所示:

# -*- coding: utf-8 -*-
# @ author hulei 2016-5-3
from numpy import *
import operator
from os import listdir
 
import sys
reload(sys)
sys.setdefaultencoding('utf8')
 
# x,y=getDataSet_dz('iris.data.txt',4)
 
def getDataSet(filename,numberOfFeature):  #将数据集读入内存 
 fr = open(filename)
 numberOfLines = len(fr.readlines())   #get the number of lines in the file file.readlines()是把文件的全部内容读到内存,并解析成一个list
 returnMat = zeros((numberOfLines,numberOfFeature))  #prepare matrix to return 3代表数据集中特征数目###
 classLabelVector = []      #prepare labels return 
 fr = open(filename)
 index = 0
 for line in fr.readlines():
  line = line.strip()     #strip() 参数为空时,默认删除空白符(包括'\n', '\r', '\t', ' ')
  listFromLine = line.split(',')   #split 以什么为标准分割一次 分成数组中的每个元素
  returnMat[index,:] = listFromLine[0:numberOfFeature] 
  #classLabelVector.append(int(listFromLine[-1])) #append() 方法向列表的尾部添加一个新的元素
  if listFromLine[-1] == 'Iris-setosa' :
   classLabelVector.append(1)
  elif listFromLine[-1] == 'Iris-versicolor' :
   classLabelVector.append(2)
  else:
  #elif listFromLine[-1] == 'Iris-virginica' :
   classLabelVector.append(3)
  index += 1
 return returnMat,classLabelVector
 
def getDataSet_dz(filename,numberOfFeature): #改进版,可以消除数据中的空白行
 numberOfLines = 0
 mx = []  #将数据集 去除空行后存入
 fr = open(filename)
 for line in fr.readlines():  
  line = line.strip() 
  if line != '' : #去除空白行 
   numberOfLines+=1
   mx.append( line.split(',') )
 returnMat = zeros((numberOfLines,numberOfFeature))
 classLabelVector = [] 
 for index in range(numberOfLines) :
  returnMat[index,:] = mx[index][0:numberOfFeature] 
  if mx[index][-1] == 'Iris-setosa' :
   classLabelVector.append(1)
  elif mx[index][-1] == 'Iris-versicolor' :
   classLabelVector.append(2)
  else:
  #elif listFromLine[-1] == 'Iris-virginica' :
   classLabelVector.append(3)
 return returnMat,classLabelVector

以上这篇Python读取数据集并消除数据中的空行方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python最长公共子串算法实例
Mar 07 Python
Python装饰器用法实例总结
Feb 07 Python
Python实现的redis分布式锁功能示例
May 29 Python
python 3.6.2 安装配置方法图文教程
Sep 18 Python
基于sklearn实现Bagging算法(python)
Jul 11 Python
Django ValuesQuerySet转json方式
Mar 16 Python
PyQt5 控件字体样式等设置的实现
May 13 Python
Python模拟登入的N种方式(建议收藏)
May 31 Python
Python Request类源码实现方法及原理解析
Aug 17 Python
python递归函数用法详解
Oct 26 Python
利用Opencv实现图片的油画特效实例
Feb 28 Python
pytorch中的 .view()函数的用法介绍
Mar 17 Python
Python实现曲线拟合操作示例【基于numpy,scipy,matplotlib库】
Jul 12 #Python
python跳过第一行快速读取文件内容的实例
Jul 12 #Python
python 读取文本文件的行数据,文件.splitlines()的方法
Jul 12 #Python
Python实现的简单读写csv文件操作示例
Jul 12 #Python
用Python分析3天破10亿的《我不是药神》到底神在哪?
Jul 12 #Python
python之文件读取一行一行的方法
Jul 12 #Python
python 读取文件并替换字段的实例
Jul 12 #Python
You might like
PHP实现CSV文件的导入和导出类
2015/03/24 PHP
javascript 函数调用的对象和方法
2010/07/01 Javascript
asp.net中System.Timers.Timer的使用方法
2013/03/20 Javascript
jQuery中innerWidth()方法用法实例
2015/01/19 Javascript
JavaScript使用ActiveXObject访问Access和SQL Server数据库
2015/04/02 Javascript
canvas绘制的直线动画
2017/01/23 Javascript
JS动态生成年份和月份实例代码
2017/02/04 Javascript
详解使用uni-app开发微信小程序之登录模块
2019/05/09 Javascript
vue组件传值的实现方式小结【三种方式】
2020/02/05 Javascript
JS前后端实现身份证号验证代码解析
2020/07/23 Javascript
[48:41]VP vs VG Supermajor小组赛 B组胜者组决赛 BO3 第二场 6.2
2018/06/03 DOTA
[51:14]LGD vs VP 2018国际邀请赛淘汰赛BO3 第一场 8.21
2018/08/22 DOTA
Python 2.7.x 和 3.x 版本的重要区别小结
2014/11/28 Python
微信跳一跳小游戏python脚本
2018/01/05 Python
tensorflow中next_batch的具体使用
2018/02/02 Python
基于DATAFRAME中元素的读取与修改方法
2018/06/08 Python
基于Python检测动态物体颜色过程解析
2019/12/04 Python
Python 3.10 的首个 PEP 诞生,内置类型 zip() 迎来新特性(推荐)
2020/07/03 Python
在pycharm中使用pipenv创建虚拟环境和安装django的详细教程
2020/11/30 Python
解决pycharm修改代码后第一次运行不生效的问题
2021/02/06 Python
使用css3绘制出各种几何图形
2016/08/17 HTML / CSS
美国家具网站:Cymax
2016/09/17 全球购物
卡骆驰英国官网:Crocs英国
2019/08/22 全球购物
毕业生动漫设计求职信
2013/10/11 职场文书
团队激励口号
2014/06/06 职场文书
大学生第一学年自我鉴定
2014/09/12 职场文书
领导班子三严三实对照检查材料
2014/09/25 职场文书
2014年纪检工作总结
2014/11/12 职场文书
医生个人年终总结
2015/02/28 职场文书
原料仓管员岗位职责
2015/04/01 职场文书
机修车间主任岗位职责
2015/04/08 职场文书
如何写好竞聘报告
2019/04/03 职场文书
《风不能把阳光打败》读后感3篇
2020/01/06 职场文书
Django开发RESTful API实现增删改查(入门级)
2021/05/10 Python
HTML+css盒子模型案例(圆,半圆等)“border-radius” 简单易上手
2021/05/10 HTML / CSS
MySql统计函数COUNT的具体使用详解
2022/08/14 MySQL