编程 Python

python文本数据处理学习笔记详解

Posted in Python onJune 17, 2019

最近越发感觉到限制我对Python运用、以及读懂别人代码的地方，大多是在于对数据的处理能力。

其实编程本质上就是数据处理，怎么把文本数据、图像数据，通过python读入、切分等，变成一个N维矩阵，然后再带入别人的模型，bingo~跑出来一个结果。结果当然也是一个矩阵或向量的形式。

所以说，之所以对很多模型、代码束手无策，其实还是没有掌握好数据处理的“屠龙宝刀”，无法对海量数据进行“庖丁解牛”般的处理。因此，我想以一个别人代码中的一段为例，仔细琢磨文本数据处理的精妙之处，争取能够加深对这方面的运用与理解。

1）问题描述

数据：某个区域181天内的访客数据，格式如下，第一列代表访客的名称，第二列代表这位访客在181天内到达这片区域的时刻：

python文本数据处理学习笔记详解

目的：将访客数据进行统计，并时间离散化，按照天 /周/小时处理为72624的三维矩阵。
也就是说，矩阵中的每一个值，代表该区域周X、第几周、几点的到访人数，如
[1,5,19]=100,代表第5周的周一晚上7点的人数为100。

2）难点

当然是对我的难点。

2.1）怎么按行统计

2.2）怎么进行时间离散化（存为天、周、时刻的矩阵）

3）代码

import time
import numpy as np
import sys
import datetime
import pandas as pd
import os
#用字典查询代替类型转换，可以减少一部分计算时间
date2position = {}
datestr2dateint = {}
str2int = {}
for i in range(182):
 date = datetime.date(day=1, month=10, year=2018)+datetime.timedelta(days=i)
 #print(i,":",date)
 date_int = int(date.__str__().replace("-", ""))
 date2position[date_int] = [i%7, i//7]
 datestr2dateint[str(date_int)] = date_int
#print(datestr2dateint)
#
for i in range(24):
 str2int[str(i).zfill(2)] = i
f=open("D:\BaiDuBigData19-URFC-master\\UrbanRegionFunctionClassification-master\data\\train_visit\\000000_008.txt")
#table = pd.read_csv(f, header=None,error_bad_lines=False)
table = pd.read_csv(f, header=None,sep='\t')

#print(table.shape)
#print(table.ix[1])
strings = table[1]
#print(strings)
init = np.zeros((7, 26, 24))
for string in strings:
 temp = []
 for item in string.split(','):
 temp.append([item[0:8], item[9:].split("|")])
 for date, visit_lst in temp:
 # x - 第几周
 # y - 第几天
 # z - 几点钟
 # value - 到访的总人数
 # print(visit_lst)
 print(date)
 x, y = date2position[datestr2dateint[date]]
 for visit in visit_lst: # 统计到访的总人数
  init[x][y][str2int[visit]] += 1
 #print(init[x][y][str2int[visit]])```

3.1）创建字典，时间离散化，节省时间

此处创建了三个字典，让我们看一下代码实现以及打印结果：

date2position = {}
datestr2dateint = {}
str2int = {}
for i in range(182):
 date = datetime.date(day=1, month=10, year=2018)+datetime.timedelta(days=i)
 #print(i,":",date)
 date_int = int(date.__str__().replace("-", ""))
 date2position[date_int] = [i%7, i//7]
 datestr2dateint[str(date_int)] = date_int
for i in range(24):
 str2int[str(i).zfill(2)] = i

打印一下 date2position：

python文本数据处理学习笔记详解

打印一下 datestr2dateint：

python文本数据处理学习笔记详解

打印str2int：

python文本数据处理学习笔记详解

可以看出，datestr2dateint是将str的日期，转换为了int的日期。
而date2position 才是计算出的每一个具体的日期，代表了第几周、第几天。
str2int代表了一天中的24个时刻。

3.2）读取文件，按行获取字符串

注意到文本的分隔符为\t（区分用户名与到访信息的分割），于是采用

f=open("D:\BaiDuBigData19-URFC-master\\UrbanRegionFunctionClassification-master\data\\train_visit\\000000_008.txt")
#table = pd.read_csv(f, header=None,error_bad_lines=False)
table = pd.read_csv(f, header=None,sep='\t')

然后用strings读取到访信息，也就是table的第二列：

strings = table[1]

3.3）切分字符串

首先，strings为：

python文本数据处理学习笔记详解

可以看到每一行string,为一个用户的到访记录，循环读取。其中，不同日期的到访是用“，”隔开，故要使用：

for string in strings:
 temp = []
 for item in string.split(','):

item就可以分开每一个日期的到访记录了：

python文本数据处理学习笔记详解

其后，使用temp列表，每一行存储日期和时刻。
如第一个item为 20181221&09|10|11|12|13|14|15
日期为 item[0:8],
时刻之间使用分隔符“|”隔开，故可以通过item[9:].split("|")得到。

temp.append([item[0:8], item[9:].split("|")])

打印一下temp为：

python文本数据处理学习笔记详解

所以需要用两个数据分别存储日期，以及时刻。
首先用来转换成周、天、时刻的72624矩阵（根据前面的转换函数）
其后根据这个矩阵，统计每一个位置的访客数量

for date, visit_lst in temp:
 # x - 第几周
 # y - 第几天
 # z - 几点钟
 # value - 到访的总人数
 # print(visit_lst)
 #print(date)
 x, y = date2position[datestr2dateint[date]]
 for visit in visit_lst: # 统计到访的总人数
  init[x][y][str2int[visit]] += 1

这一段代码很短，但着实是整个时间离散化实现的精髓所在。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python文本数据处理学习笔记详解

- Author -

菜鸡的自我拯救

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

深入学习Python中的装饰器使用

Jun 20 Python

Python用threading实现多线程详解

Feb 03 Python

python万年历实现代码含运行结果

May 20 Python

Python 实现简单的shell sed替换功能(实例讲解)

Sep 29 Python

Python线程创建和终止实例代码

Jan 20 Python

matlab中实现矩阵删除一行或一列的方法

Apr 04 Python

Python3实现转换Image图片格式

Jun 21 Python

Python告诉你木马程序的键盘记录原理

Feb 02 Python

python实现倒计时小工具

Jul 29 Python

Pandas 缺失数据处理的实现

Nov 04 Python

浅谈opencv自动光学检测、目标分割和检测(连通区域和findContours)

Jun 04 Python

Python selenium模块实现定位过程解析

Jul 09 Python

python3+PyQt5 实现Rich文本的行编辑方法

Jun 17 #Python

Appium+python自动化之连接模拟器并启动淘宝APP（超详解）

Jun 17 #Python

python3+PyQt5 数据库编程--增删改实例

Jun 17 #Python

python3+PyQt5 创建多线程网络应用-TCP客户端和TCP服务器实例

Jun 17 #Python

python 应用之Pycharm 新建模板默认添加编码格式-作者-时间等信息【推荐】

Jun 17 #Python

python3+PyQt5 使用三种不同的简便项窗口部件显示数据的方法

Jun 17 #Python

对PyQt5中树结构的实现方法详解

Jun 17 #Python

You might like

全国FM电台频率大全 - 14 江西省

2020/03/11 无线电

Oracle 常见问题解答

2006/10/09 PHP

通过html表格发电子邮件

2006/10/09 PHP

PHP随机数生成代码与使用实例分析

2011/04/08 PHP

Ajax+PHP实现的删除数据功能示例

2019/02/12 PHP

js限制文本框只能输入数字(正则表达式)

2012/07/15 Javascript

2012年开发人员的16款新鲜的jquery插件体验分享

2012/12/28 Javascript

一个js导致的jquery失效问题的解决方法

2013/11/27 Javascript

JavaScript中Math对象方法使用概述

2014/01/02 Javascript

javascript搜索框点击文字消失失焦时文本出现

2014/09/18 Javascript

让javascript加载速度倍增的方法(解决JS加载速度慢的问题)

2014/12/12 Javascript

javascript使用prototype完成单继承

2014/12/24 Javascript

Bootstrap使用基础教程详解

2016/09/05 Javascript

jQuery根据ID、CLASS、等获取对象的实例

2016/12/04 Javascript

JS Testing Properties 判断属性是否在对象里的方法

2017/10/01 Javascript

JS中使用textPath实现线条上的文字

2017/12/25 Javascript

Vue2.0+Vux搭建一个完整的移动webApp项目的示例

2019/03/19 Javascript

基于AngularJS拖拽插件ngDraggable.js实现拖拽排序功能

2019/04/02 Javascript

Python中的列表知识点汇总

2015/04/14 Python

Python的字典和列表的使用中一些需要注意的地方

2015/04/24 Python

shelve 用来持久化任意的Python对象实例代码

2016/10/12 Python

Python facenet进行人脸识别测试过程解析

2019/08/16 Python

Python imutils 填充图片周边为黑色的实现

2020/01/19 Python

Python使用tkinter制作在线翻译软件

2021/02/22 Python

英国在线玫瑰专家：InterRose

2019/12/01 全球购物

Pandora德国官网：购买潘多拉手链、戒指、项链和耳环

2020/02/20 全球购物

世界上最大的铁人三项商店：Tri UK

2020/11/04 全球购物

汽车制造与装配专业自荐信范文

2014/01/02 职场文书

企业管理毕业生求职信范文

2014/03/07 职场文书

汽车促销活动方案

2014/03/31 职场文书

学生打架检讨书

2014/10/20 职场文书

2015年学校关工委工作总结

2015/04/03 职场文书

消防安全月活动总结

2015/05/08 职场文书

2019年朋友圈经典励志语录50条

2019/07/05 职场文书

详解MySQL事务的隔离级别与MVCC

2021/04/22 MySQL

详解Redis的三种常用的缓存读写策略步骤

2022/05/06 Redis