利用Python如何将数据写到CSV文件中


Posted in Python onJune 05, 2018

前言

我们从网上爬取数据,最后一步会考虑如何存储数据。如果数据量不大,往往不会选择存储到数据库,而是选择存储到文件中,例如文本文件、CSV 文件、xls 文件等。因为文件具备携带方便、查阅直观。

Python 作为胶水语言,搞定这些当然不在话下。但在写数据过程中,经常因数据源中带有中文汉字而报错。最让人头皮发麻的编码问题。

我先说下编码相关的知识。编码方式有很多种:UTF-8, GBK, ASCII 等。

ASCII 码是美国在上个世纪 60 年代制定的一套字符编码。主要是规范英语字符和二进制位之间的关系。英语词汇组成简单,由 26 个字母构成。使用一个字节就能表示一个字母符号。外加各种符号,使用 128 个字符就满足编码要求。

不同国家有不同语言文字。同时,文字组成部分的数量相比英语字母要多很多。根据不完全统计,汉字的数量大约将近 10 万个,日常所使用的汉字有 3000 个。显然,ASCII 编码无法满足需求。所以汉字采用 GBK 编码,使用两个字节表示一个汉字。简体中文的编码方式是 GBK2312。

那 UTF-8 又是什么编码?这要先说 Unicode 了。Unicode 目的是为了统一各种编码。因为各国都各自的编码方式。如果使用一种编码编码,使用另一种编码解码。这会造成出现乱码的情况。但 Unicode 只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。UTF-8 就是在互联网上使用最广的一种 Unicode 的实现方式。

因此,如果我们要写数据到文件中,最好指定编码形式为 UTF-8。

Python 标准库中,有个名为 csv 的库,专门处理 csv 的读写操作。

Python csv模块封装了常用的功能,使用的简单例子如下:

# 读取csv文件
import csv
with open('some.csv', 'rb') as f: # 采用b的方式处理可以省去很多问题
reader = csv.reader(f)
for row in reader:
# do something with row, such as row[0],row[1]


import csv
with open('some.csv', 'wb') as f: # 采用b的方式处理可以省去很多问题
writer = csv.writer(f)
writer.writerows(someiterable)

具体使用实例如下:

import csv
import codecs
# codecs 是自然语言编码转换模块

fileName = 'PythonBook.csv'

# 指定编码为 utf-8, 避免写 csv 文件出现中文乱码
with codecs.open(fileName, 'w', 'utf-8') as csvfile:
 # 指定 csv 文件的头部显示项
 filednames = ['书名', '作者']
 writer = csv.DictWriter(csvfile, fieldnames=filednames)

 books = []
 book = {
 'title': '笑傲江湖',
 'author': '金庸',
 }
 books.append(book)

 writer.writeheader()
 for book in books:
 try:
 writer.writerow({'书名':book['title'], '作者':book['author']})
 except UnicodeEncodeError:
 print("编码错误, 该数据无法写到文件中, 直接忽略该数据")

这种方式是逐行往 CSV 文件中写数据, 所以效率会比较低。如果想批量将数据写到 CSV 文件中,需要用到 pandas 库。

pandas 是第三方库,所以使用之前需要安装。通过 pip 方式安装是最简单、最方便的。
pip install pandas

使用 pandas 批量写数据的用法如下:

import pandas as pd

fileName = 'PythonBook.csv'
number = 1

books = []
book = {
 'title': '笑傲江湖',
 'author': '金庸',
}
# 如果 book 条数足够多的话,pandas 会每次往文件中写 50 条数据。
books.append(book)

data = pd.DataFrame(books)
# 写入csv文件,'a+'是追加模式
try:
 if number == 1:
 csv_headers = ['书名', '作者']
 data.to_csv(fileName, header=csv_headers, index=False, mode='a+', encoding='utf-8')
 else:
 data.to_csv('fileName, header=False, index=False, mode='a+', encoding='utf-8')
 number = number + 1
except UnicodeEncodeError:
 print("编码错误, 该数据无法写到文件中, 直接忽略该数据")

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
Python使用设计模式中的责任链模式与迭代器模式的示例
Mar 02 Python
python实现简单socket通信的方法
Apr 19 Python
基于Python数据可视化利器Matplotlib,绘图入门篇,Pyplot详解
Oct 13 Python
Python实现XML文件解析的示例代码
Feb 05 Python
浅谈Python中的zip()与*zip()函数详解
Feb 24 Python
从DataFrame中提取出Series或DataFrame对象的方法
Nov 10 Python
django-rest-swagger对API接口注释的方法
Aug 29 Python
浅谈pycharm使用及设置方法
Sep 09 Python
python判断无向图环是否存在的示例
Nov 22 Python
pytorch自定义二值化网络层方式
Jan 07 Python
python numpy实现多次循环读取文件 等间隔过滤数据示例
Mar 14 Python
Python pyecharts案例超市4年数据可视化分析
Aug 14 Python
Python之dict(或对象)与json之间的互相转化实例
Jun 05 #Python
对pandas中to_dict的用法详解
Jun 05 #Python
pandas.DataFrame.to_json按行转json的方法
Jun 05 #Python
读取json格式为DataFrame(可转为.csv)的实例讲解
Jun 05 #Python
Python实现迭代时使用索引的方法示例
Jun 05 #Python
Numpy 将二维图像矩阵转换为一维向量的方法
Jun 05 #Python
django反向解析和正向解析的方式
Jun 05 #Python
You might like
PHP 简易输出CSV表格文件的方法详解
2013/06/20 PHP
php对数组排序的简单实例
2013/12/25 PHP
PHP中addcslashes与stripcslashes函数用法分析
2016/01/07 PHP
JavaScript中使用构造函数实现继承的代码
2010/08/12 Javascript
JavaScript入门之事件、cookie、定时等
2011/10/21 Javascript
A标签触发onclick事件而不跳转的多种解决方法
2013/06/27 Javascript
jquery组件使用中遇到的问题整理及解决
2014/02/21 Javascript
分享9点个人认为比较重要的javascript 编程技巧
2015/04/27 Javascript
jquery 遍历数组 each 方法详解
2016/05/25 Javascript
JS生成不重复的随机数组的简单实例
2016/07/10 Javascript
javascript实现的全国省市县无刷新多级关联菜单效果代码
2016/08/01 Javascript
bootstrap datetimepicker 日期插件在火狐下出现一条报错信息的原因分析及解决办法
2017/03/08 Javascript
node.js平台下的mysql数据库配置及连接
2017/03/31 Javascript
小程序实现选择题选择效果
2018/11/04 Javascript
记一次vue去除#问题处理经过小结
2019/01/24 Javascript
使用vue-cli3新建一个项目并写好基本配置(推荐)
2019/04/24 Javascript
Jquery异步上传文件代码实例
2019/11/13 jQuery
vue-resourc发起异步请求的方法
2020/02/11 Javascript
jQuery开发仿QQ版音乐播放器
2020/07/10 jQuery
vue-router 控制路由权限的实现
2020/09/24 Javascript
python uuid模块使用实例
2015/04/08 Python
Python实现的简单读写csv文件操作示例
2018/07/12 Python
opencv python 2D直方图的示例代码
2018/07/20 Python
Django contenttypes 框架详解(小结)
2018/08/13 Python
解决python写入带有中文的字符到文件错误的问题
2019/01/31 Python
python3中numpy函数tile的用法详解
2019/12/04 Python
Python selenium 加载并保存QQ群成员,去除其群主、管理员信息的示例代码
2020/05/28 Python
html5跨域通讯之postMessage的用法总结
2013/11/07 HTML / CSS
用HTML5制作一个简单的桌球游戏的教程
2015/05/12 HTML / CSS
详解Canvas 跨域脱坑实践
2018/11/07 HTML / CSS
介绍一下linux的文件系统
2012/03/20 面试题
岗位职责的含义
2013/11/17 职场文书
简历里的自我评价范文
2014/02/24 职场文书
岗位说明书怎么写
2014/07/30 职场文书
“鬼灭之刃”热度不减,其成功背后的原因是什么?
2022/03/22 日漫
pandas时间序列之pd.to_datetime()的实现
2022/06/16 Python