编程 Ruby

Ruby处理CSV数据方法详解

Posted in Ruby onApril 18, 2022

CSV格式的数据默认是以逗号分隔各个字段的一条一条记录,默认用换行符分隔每一条记录。此外,有的CSV有标题行，有的没有。还有其他一些格式，它们都有默认值，但都可以在读、写CSV数据时修改默认设置。后文大多数时候故意忽略这些设置，因为绝大多数读写操作都使用同样的参数**options进行格式设置。例如，在读取csv文件中的数据时想要忽略标题行，可以在参数中设置headers: true

可设置的项及其默认值包括：

col_sep: ",",                #=> 字段分隔符
row_sep: :auto,              #=> 记录分隔符
quote_char: '"',             #=> 包围字段的符号
field_size_limit: nil,       #=> 限制字段的字符数量
converters: nil,             #=> 
unconverted_fields: nil,
headers: false,              #=> 读取时忽略标题行，具体参考官方手册
return_headers: false,
write_headers: nil,
header_converters: nil,
skip_blanks: false,          #=> 忽略空行
force_quotes: false,         #=> 设置为true时，所有字段都将使用被包围
skip_lines: nil,             #=> 指定一个正则(str也会转换为正则)，
                             #=> 匹配的行将被当作注释行而忽略
liberal_parsing: false,
internal_encoding: nil,
external_encoding: nil,
encoding: nil,
nil_value: nil,             #=> 使用此处设置的值替换所有nil字段
empty_value: "",            #=> 使用此处设置的值替换所有空字符串字段
quote_empty: true,          #=> 设置为false时，空字符串字段将转换为空字段
write_converters: nil,
write_nil_value: nil,      #=> 将以此处的值替换nil字段写入文件
write_empty_value: "",
strip: false

CSV类方法处理CSV数据

以CSV格式写入文件

要向文件中写入CSV格式的数据：

require 'csv'

writer = CSV.open('/tmp/file.csv', 'w')
writer << ["junmajinlong", 29, 170, true]
writer << ["junma", 24, 176, false]
writer << ["jinlong", 25, 172, nil]
writer << ["majinlong", 23, 173, false]
writer.close

写入完成后，查看：

junmajinlong,29,170,true
junma,24,176,false
jinlong,25,172,
majinlong,23,173,false

注意其中的nil对应的写入内容为空。

可以直接在语句块中写入，这样的话可以自动关闭CSV.open()打开的IO流：

require 'csv'

CSV.open('/tmp/file.csv', 'w') do |writer|
  writer << ["junmajinlong", 29, 170, true]
  writer << ["junma", 24, 176, false]
  writer << ["jinlong", 25, 172, nil]
  writer << ["majinlong", 23, 173, false]
end

CSV.open()打开的是一个封装后的IO流对象，它除了可以使用CSV单独为其提供的一些方法(比如这里的<<)外，还可以使用很多IO流对象的方法，比如seek()、tell()、flush()、eof?()、fsync()等等。

这里使用的<<方法是单独为其提供的，它涉及两个执行过程：

将数组中各元素全部转换成字符串类型并使用逗号连接
按行写入到csv打开的文件中

转换为CSV格式的字符串

如果只是想执行第一个过程，即将数据转换成CSV格式的字符串而不写入，可使用类方法generate_line()：

p CSV.generate_line ["junmajinlong", 29, 170, true]
p CSV.generate_line ["jun ma", 24, 176, false]
p CSV.generate_line ["jinlong", 25, 172, nil]
p CSV.generate_line ["jin, long", 23, 173, false]
=begin
"junmajinlong,29,170,true\n"
"jun ma,24,176,false\n"
"jinlong,25,172,\n"
"\"jin, long\",23,173,false\n"
=end

从CSV格式的文件中读数据

如果想要读取CSV文件，可使用类方法read()或别名readlines()：

pp CSV.readlines('/tmp/file.csv')
=begin
[["junmajinlong", "29", "170", "true"],
 ["junma", "24", "176", "false"],
 ["jinlong", "25", "172", nil],
 ["majinlong", "23", "173", "false"]]
=end

注意：

读取CSV文件内容时，每行保存为一个数组，每个字段是这个数组中的一个元素
读取CSV文件内容时，除了不存在的字段转换为nil外，其它所有的数据都转换成了字符串类型。所以有时候可能需要去转换读取时的数据类型。关于类型转换，见后文

如果要按行读取CSV文件的内容，使用类方法foreach()：

CSV.foreach('/tmp/file.csv') do |row|
  p row
end
=begin
["junmajinlong", "29", "170", "true"]
["junma", "24", "176", "false"]
["jinlong", "25", "172", nil]
["majinlong", "23", "173", "false"]
=end

从CSV格式的字符串中读数据

如果想要从字符串中读取CSV格式的数据，使用parse()和parse_line()，分别用于解析多行字符串和解析单行字符串(超出一行的自动被忽略)。

parse()不指定语句块时，返回包含解析每一行得到的数组，即一个数组的数组，它是一个csv table类型，有很多自己的方法
指定语句块时，每一行对应的数组传递给语句块控制变量

str1=<<-eof
junmajinlong,29,170,true
jun ma,24,176,false
jinlong,25,172,
"jin, long",23,173,false
eof

# 不指定语句块时，parse返回数组
pp CSV.parse str1
=begin
[["junmajinlong", "29", "170", "true"],
 ["jun ma", "24", "176", "false"],
 ["jinlong", "25", "172", nil],
 ["jin, long", "23", "173", "false"]]
=end

# 指定语句块时，parse将每行对应的数组传递给语句块
CSV.parse(str1) {|row| p row}
=begin
["junmajinlong", "29", "170", "true"]
["jun ma", "24", "176", "false"]
["jinlong", "25", "172", nil]
["jin, long", "23", "173", "false"]
=end

str2="junmajinlong,29,170,true"
p CSV.parse_line str2
["junmajinlong", "29", "170", "true"]

CSV实例方法处理CSV数据

CSV.new()、CSV.open()可以创建csv对象(即一行一行csv格式的数据)
CSV.generate()可将字符串转换成csv对象并将该对象传递给语句块
<<、puts()或add_row()可向CSV目标中(字符串格式的CSV或CSV IO流)写入行，它们是别名关系
gets()、shift()、readline()可从csv对象中读取一行数据
read()、readlines()可以读取csv对象中的所有数据
each()可以从csv对象中迭代每一行
eof()或eof?()可以判断是否读完所有数据
rewind()可以重置当前csv对象的偏移指针
line()可以获取最近一次读取的一行数据
lineno()可以获取当前已读取的行数
path()可以获取当前读取的csv文件名

CSV table

CSV.parse()、CSV.read()、CSV.table()等方法返回的都是数组的数组(二维数组)，它们是CSV Table。

CSV table按照表的方式来处理csv数据，比如关注于行、关注于字段的一些操作可以采用csv table相关的方法来处理。

# Headers are part of data
data = CSV.parse(<<~ROWS, headers: true)
  Name,Department,Salary
  Bob,Engineering,1000
  Jane,Sales,2000
  John,Management,5000
ROWS

data.class      #=> CSV::Table
data.first      #=> #<CSV::Row "Name":"Bob" "Department":"Engineering" "Salary":"1000">
data.first.to_h #=> {"Name"=>"Bob", "Department"=>"Engineering", "Salary"=>"1000"}

# Headers provided by developer
data = CSV.parse('Bob,Engineering,1000', headers: %i[name department salary])
data.first      #=> #<CSV::Row name:"Bob" department:"Engineering" salary:"1000">

CSV字段类型转换

读取CSV数据时，所有的数据都会转换为字符串格式。

# Without any converters:
CSV.parse('Bob,2018-03-01,100')
#=> [["Bob", "2018-03-01", "100"]]

可以在迭代每一行的语句块中对字段做必要的类型转换。

但如果类型转换方式比较简单，可以在读取数据时指定converters属性进行转换。该属性的值要么是CSV的内置类型符号，要么是符号数组，要么是一个lambda表达式。有如下内置类型：

Integer
Float
Numeric (Float + Integer)
Date
DateTime
All

当指定了类型转换后，每个字段将针对converters的值尝试做转换，转换失败则保留字段的值不变，所以如果通过lambda自定义类型转换时也一定要保证这一点。

CSV.parse("1,2,3,4,5", converters: :numeric)
#=> [[1, 2, 3, 4, 5]]

# With built-in converters:
ct = CSV.parse('Bob,2018-03-01,100', converters: %i[numeric date])
#=> [["Bob", #<Date: 2018-03-01>, 100]]
ct.first[1] + 1  # 日期对象，加1天
#=> #<Date: 2018-03-02 ((2458180j,0s,0n),+0s,2299161j)>

# With custom converters:
CSV.parse('Bob,2018-03-01,100', converters: [->(v) { Time.parse(v) rescue v }])
#=> [["Bob", 2018-03-01 00:00:00 +0200, "100"]]

Ruby处理CSV数据方法详解

- Author -

骏马金龙

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Ruby 相关文章推荐

Ruby处理CSV数据方法详解

Apr 18 Ruby

Ruby序列化和持久化存储 Marshal和Pstore介绍

Apr 18 Ruby

Ruby使用Mysql2连接操作MySQL

Apr 19 Ruby

Ruby GDBM操作简介及数据存储原理

Apr 19 Ruby

安装Ruby和 Rails的详细步骤

Apr 19 Ruby

Python如何将list中的string转换为int

Jul 15 Ruby

Ruby处理YAML和json数据

Apr 18 #Ruby

Ruby序列化和持久化存储 Marshal和Pstore介绍

Apr 18 #Ruby

Ruby使用Mysql2连接操作MySQL

Apr 19 #Ruby

Ruby GDBM操作简介及数据存储原理

Apr 19 #Ruby

安装Ruby和 Rails的详细步骤

Python如何将list中的string转换为int

Jul 15 #Ruby

You might like

随机广告显示(PHP函数)

2006/10/09 PHP

php中批量修改文件后缀名的函数代码

2011/10/23 PHP

php把session写入数据库示例

2014/02/26 PHP

php中二维数组排序问题方法详解

2015/08/28 PHP

php使用环形链表解决约瑟夫问题完整示例

2018/08/07 PHP

PHP sdk实现在线打包代码示例

2020/12/09 PHP

js下用gb2312编码解码实现方法

2009/12/31 Javascript

jquery打开直接跳到网页最下面、最低端实现代码

2013/04/22 Javascript

Node.js中安全调用系统命令的方法（避免注入安全漏洞）

2014/12/05 Javascript

javascript的日期对象、数组对象、二维数组使用说明

2014/12/22 Javascript

js实现简单div拖拽功能实例

2015/05/12 Javascript

vue+swiper实现侧滑菜单效果

2017/12/28 Javascript

vue-prop父组件向子组件进行传值的方法

2018/03/01 Javascript

浅谈在Vue.js中如何实现时间转换指令

2019/01/06 Javascript

javascript异步编程的六种方式总结

2019/05/17 Javascript

jQuery内容选择器与表单选择器实例分析

2019/06/28 jQuery

详细教你微信公众号正文页SVG交互开发技巧

2019/07/25 Javascript

mpvue 页面预加载新增preLoad生命周期的两种方式

2019/10/17 Javascript

vue中英文切换实例代码

2020/01/21 Javascript

js实现单元格拖拽效果

2020/02/10 Javascript

vue-preview动态获取图片宽高并增加旋转功能的实现

2020/07/29 Javascript

Python删除指定目录下过期文件的2个脚本分享

2014/04/10 Python

Python3实现从指定路径查找文件的方法

2015/05/22 Python

Python中的Numpy矩阵操作

2018/08/12 Python

pycharm执行python时,填写参数的方法

2018/10/29 Python

详解Python 4.0 预计推出的新功能

2019/07/26 Python

Python识别html主要文本框过程解析

2020/02/18 Python

Python利用 utf-8-sig 编码格式解决写入 csv 文件乱码问题

2020/02/21 Python

String和StringBuffer的区别

2015/08/13 面试题

毕业生求职简历中的自我评价

2013/10/18 职场文书

应用数学自荐书范文

2013/11/24 职场文书

小学毕业感言150字

2014/02/05 职场文书

党员读书活动心得体会

2016/01/14 职场文书

祝福语集锦：送给毕业同学祝福语

2019/11/21 职场文书

SQLServer 错误: 15404，无法获取有关 Windows NT 组/用户 WIN-8IVSNAQS8T7\Administrator 的信息

2021/06/30 SQL Server

python使用matplotlib绘制图片时x轴的刻度处理

2021/08/30 Python