编程 Python

分析Python中解析构建数据知识

Posted in Python onJanuary 20, 2018

Python 可以通过各种库去解析我们常见的数据。其中 csv 文件以纯文本形式存储表格数据，以某字符作为分隔值，通常为逗号；xml 可拓展标记语言，很像超文本标记语言 Html ，但主要对文档和数据进行结构化处理，被用来传输数据；json 作为一种轻量级数据交换格式，比 xml 更小巧但描述能力却不差，其本质是特定格式的字符串；Microsoft Excel 是电子表格，可进行各种数据的处理、统计分析和辅助决策操作，其数据格式为 xls、xlsx。接下来主要介绍通过 Python 简单解析构建上述数据，完成数据的“珍珠翡翠白玉汤”。

Python 解析构建 csv

通过标准库中的 csv 模块，使用函数 reader()、writer() 完成 csv 数据基本读写。

import csv
with open('readtest.csv', newline='') as csvfile:
reader = csv.reader(csvfile)
for row in reader:
print(row)
with open('writetest.csv', 'w', newline='') as csvfile:
writer = csv.writer(csvfile)
writer.writerrow("onetest")
writer.writerows("someiterable")

其中 reader() 返回迭代器， writer() 通过 writerrow() 或 writerrows() 写入一行或多行数据。两者还可通过参数 dialect 指定编码方式，默认以 excel 方式，即以逗号分隔，通过参数 delimiter 指定分隔字段的单字符，默认为逗号。

在 Python3 中，打开文件对象 csvfile ，需要通过 newline='' 指定换行处理，这样读取文件时，新行才能被正确地解释；而在 Python2 中，文件对象 csvfile 必须以二进制的方式 'b' 读写，否则会将某些字节（0x1A）读写为文档结束符（EOF），导致文档读取不全。

除此之外，还可使用 csv 模块中的类 DictReader()、DictWriter() 进行字典方式读写。

import csv
with open('readtest.csv', newline='') as csvfile:
  reader = csv.DictReader(csvfile)
  for row in reader:
    print(row['first_test'], row['last_test'])
with open('writetest.csv', 'w', newline='') as csvfile:
  fieldnames = ['first_test', 'last_test']
  writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
  writer.writeheader()
  writer.writerow({'first_test': 'hello', 'last_test': 'wrold'})
  writer.writerow({'first_test': 'Hello', 'last_test': 'World'})
  #writer.writerows([{'first_test': 'hello', 'last_test': 'wrold'}, {'first_test': 'Hello', 'last_test': 'World'}])

其中 DictReader() 返回有序字典，使得数据可通过字典的形式访问，键名由参数 fieldnames 指定，默认为读取的第一行。

DictWriter() 必须指定参数 fieldnames 说明键名，通过 writeheader() 将键名写入，通过 writerrow() 或 writerrows() 写入一行或多行字典数据。

Python 解析构建 xml

通过标准库中的 xml.etree.ElementTree 模块，使用 Element、ElementTree 完成 xml 数据的读写。

from xml.etree.ElementTree import Element, ElementTree
root = Element('language')
root.set('name', 'python')
direction1 = Element('direction')
direction2 = Element('direction')
direction3 = Element('direction')
direction4 = Element('direction')
direction1.text = 'Web'
direction2.text = 'Spider'
direction3.text = 'BigData'
direction4.text = 'AI'
root.append(direction1)
root.append(direction2)
root.append(direction3)
root.append(direction4)
#import itertools
#root.extend(chain(direction1, direction2, direction3, direction4))
tree = ElementTree(root)
tree.write('xmltest.xml')

写 xml 文件时，通过 Element() 构建节点，set() 设置属性和相应值，append() 添加子节点，extend() 结合循环器中的 chain() 合成列表添加一组节点，text 属性设置文本值，ElementTree() 传入根节点构建树，write() 写入 xml 文件。

import xml.etree.ElementTree as ET
tree = ET.parse('xmltest.xml')
#from xml.etree.ElementTree import ElementTree
#tree = ElementTree().parse('xmltest.xml')
root = tree.getroot()
tag = root.tag
attrib = root.attrib
text = root.text
direction1 = root.find('direction')
direction2 = root[1]
directions = root.findall('.//direction')
for direction in root.findall('direction'):
  print(direction.text)
for direction in root.iter('direction'):
  print(direction.text)
root.remove(direction2)

读 xml 文件时，通过 ElementTree() 构建空树，parse() 读入 xml 文件，解析映射到空树；getroot() 获取根节点，通过下标可访问相应的节点；tag 获取节点名，attrib 获取节点属性字典，text 获取节点文本；find() 返回匹配到节点名的第一个节点，findall() 返回匹配到节点名的所有节点，find()、findall() 两者都仅限当前节点的一级子节点，都支持 xpath 路径提取节点；iter() 创建树迭代器，遍历当前节点的所有子节点，返回匹配到节点名的所有节点；remove() 移除相应的节点。

除此之外，还可通过 xml.sax、xml.dom.minidom 去解析构建 xml 数据。其中 sax 是基于事件处理的；dom 是将 xml 数据在内存中解析成一个树，通过对树的操作来操作 xml；而 ElementTree 是轻量级的 dom ，具有简单而高效的API，可用性好，速度快，消耗内存少，但生成的数据格式不美观，需要手动格式化。

Python 解析构建 json

通过标准库中的 json 模块，使用函数 dumps()、loads() 完成 json 数据基本读写。

>>> import json
>>> json.dumps(['foo', {'bar': ('baz', None, 1.0, 2)}])
'["foo", {"bar": ["baz", null, 1.0, 2]}]'
>>> json.loads('["foo", {"bar":["baz", null, 1.0, 2]}]')
['foo', {'bar': ['baz', None, 1.0, 2]}]

json.dumps() 是将 obj 序列化为 json 格式的 str，而 json.loads() 是反向操作。其中 dumps() 可通过参数 ensure_ascii 指定是否使用 ascii 编码，默认为 True；通过参数 separators=(',', ':') 指定 json 数据格式中的两种分隔符；通过参数 sort_keys 指定是否使用排序，默认为 False。

除此之外，还可使用 json 模块中的函数 dump()、load() 进行 json 数据读写。

import json
with open('jsontest.json', 'w') as jsonfile:
json.dump(['foo', {'bar': ('baz', None, 1.0, 2)}], jsonfile)
with open('jsontest.json') as jsonfile:
json.load(jsonfile)

功能与 dumps()、loads() 相同，但接口不同，需要与文件操作结合，多传入一个文件对象。

Python 解析构建 excel

通过 pip 安装第三方库 xlwt、xlrd 模块，完成 excel 数据的读写。

import xlwt
wbook = xlwt.Workbook(encoding='utf-8')
wsheet = wbook.add_sheet('sheet1')
wsheet.write(0, 0, 'Hello World')
wbook.save('exceltest.xls')

写 excel 数据时，通过 xlwt.Workbook() 指定编码格式参数 encoding 创建工作表，add_sheet() 添加表单，write() 在相应的行列单元格中写入数据，save() 保存工作表。

import xlrd
rbook = xlrd.open_workbook('exceltest.xls')
rsheet = book.sheets()[0]
#rsheet = book.sheet_by_index(0)
#rsheet = book.sheet_by_name('sheet1')
nr = rsheet.nrows
nc = rsheet.ncols
rv = rsheet.row_values(0)
cv = rsheet.col_values(0)
cell = rsheet.cell_value(0, 0)

读 excel 数据时，通过 xlrd.open_workbook() 打开相应的工作表，可使用列表下标、表索引 sheet_by_index()、表单名 sheet_by_name() 三种方式获取表单名，nrows 获取行数，ncols 获取列数，row_values() 返回相应行的值列表，col_values() 返回相应列的值列表，cell_value() 返回相应行列的单元格值。

分析Python中解析构建数据知识

- Author -

sherlockChen

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

用Python代码来解图片迷宫的方法整理

Apr 02 Python

python获取一组数据里最大值max函数用法实例

May 26 Python

Python中使用插入排序算法的简单分析与代码示例

May 04 Python

python模拟Django框架实例

May 17 Python

Python 详解基本语法_函数_返回值

Jan 22 Python

flask + pymysql操作Mysql数据库的实例

Nov 13 Python

基于Python中capitalize()与title()的区别详解

Dec 09 Python

在NumPy中创建空数组/矩阵的方法

Jun 15 Python

通过python实现随机交换礼物程序详解

Jul 10 Python

Python+OpenCV实现将图像转换为二进制格式

Jan 09 Python

python用Tkinter做自己的中文代码编辑器

Sep 07 Python

利用Python将list列表写入文件并读取的方法汇总

Mar 25 Python

学习Python selenium自动化网页抓取器

Jan 20 #Python

python使用pil库实现图片合成实例代码

Jan 20 #Python

python方向键控制上下左右代码

Jan 20 #Python

Python线程创建和终止实例代码

Jan 20 #Python

python+matplotlib实现动态绘制图片实例代码（交互式绘图）

Jan 20 #Python

Python实现PS滤镜的旋转模糊功能示例

Jan 20 #Python

浅谈flask中的before_request与after_request

Jan 20 #Python

You might like

一个php作的文本留言本的例子(六)

2006/10/09 PHP

PHP函数utf8转gb2312编码

2006/12/21 PHP

php PDO中文乱码解决办法

2009/07/20 PHP

PHP 开发环境配置（Zend Studio）

2010/04/28 PHP

PHP 金额数字转换成英文

2010/05/06 PHP

php实现仿写CodeIgniter的购物车类

2015/07/29 PHP

yii2 页面底部加载css和js的技巧

2016/04/21 PHP

通过PHP的Wrapper无缝迁移原有项目到新服务的实现方法

2020/04/02 PHP

input的focus方法使用

2010/03/13 Javascript

JavaScript字符串对象charAt方法入门实例（用于取得指定位置的字符）

2014/10/17 Javascript

重写document.write实现无阻塞加载js广告(补充)

2014/12/12 Javascript

贴近用户体验的Jquery日期、时间选择插件

2015/08/19 Javascript

JavaScript将base64图片转换成formData并通过AJAX提交的实现方法

2016/10/24 Javascript

JavaScript 实现 Tab 点击切换实例代码

2017/03/25 Javascript

判断颜色是否合法的正则表达式(详解)

2017/05/03 Javascript

vue 实现 ios 原生picker 效果及实现思路解析

2017/12/06 Javascript

前端MVVM框架解析之双向绑定

2018/01/24 Javascript

jquery 给动态生成的标签绑定事件的几种方法总结

2018/02/24 jQuery

JavaScript折半查找（二分查找）算法原理与实现方法示例

2018/08/06 Javascript

微信小程序下拉框组件使用方法详解

2018/12/28 Javascript

Layui实现数据表格中鼠标悬浮图片放大效果,离开时恢复原图的方法

2019/09/11 Javascript

[55:45]LGD vs OG 2019国际邀请赛淘汰赛胜者组 BO3 第三场 8.24

2019/09/10 DOTA

Linux下使用python自动修改本机网关代码分享

2015/05/21 Python

Python中多个数组行合并及列合并的方法总结

2018/04/12 Python

Django rest framework实现分页的示例

2018/05/24 Python

从django的中间件直接返回请求的方法

2018/05/30 Python

python tkinter组件使用详解

2019/09/16 Python

python将unicode和str互相转化的实现

2020/05/11 Python

Python random模块的使用示例

2020/10/10 Python

python3.9.1环境安装的方法(图文)

2021/02/02 Python

python压包的概念及实例详解

2021/02/17 Python

trivago美国：全球最大的酒店价格比较网站

2018/01/18 全球购物

秋季婚礼证婚词

2014/01/11 职场文书

2015年企业员工工作总结范文

2015/05/21 职场文书

单位同意报考证明

2015/06/17 职场文书

分享MySQL常用内核 Debug 几种常见方法

2022/03/17 MySQL