编程 Python

python数据清洗系列之字符串处理详解

Posted in Python onFebruary 12, 2017

前言

数据清洗是一项复杂且繁琐(kubi)的工作，同时也是整个数据分析过程中最为重要的环节。有人说一个分析项目80%的时间都是在清洗数据，这听起来有些匪夷所思，但在实际的工作中确实如此。数据清洗的目的有两个，第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。换句话说就是有”脏”数据要洗，干净的数据也要洗。

在数据分析中，特别是文本分析中，字符处理需要耗费极大的精力，因而了解字符处理对于数据分析而言，也是一项很重要的能力。

字符串处理方法

首先我们先了解下都有哪些基础方法

python数据清洗系列之字符串处理详解

首先我们了解下字符串的拆分split方法

str='i like apple,i like bananer'
print(str.split(','))

对字符str用逗号进行拆分的结果：

['i like apple', 'i like bananer']

print(str.split(' '))

根据空格拆分的结果：

['i', 'like', 'apple,i', 'like', 'bananer']

print(str.index(','))
print(str.find(','))

两个查找结果都为：

找不到的情况下index返回错误，find返回-1

print(str.count('i'))

结果为：

connt用于统计目标字符串的频率

print(str.replace(',', ' ').split(' '))

结果为：

['i', 'like', 'apple', 'i', 'like', 'bananer']

这里replace把逗号替换为空格后，在用空格对字符串进行分割，刚好能把每个单词取出来。

除了常规的方法以外，更强大的字符处理工具费正则表达式莫属了。

正则表达式

在使用正则表达式前我们还要先了解下，正则表达式中的诸多方法。

python数据清洗系列之字符串处理详解

下面我来看下个方法的使用，首先了解下match和search方法的区别

str = "Cats are smarter than dogs"
pattern=re.compile(r'(.*) are (.*?) .*')
result=re.match(pattern,str)

for i in range(len(result.groups())+1):
 print(result.group(i))

结果为：

Cats are smarter than dogs
Cats
smarter

这种形式的pettern匹配规则下，match和search方法的的返回结果是一样的

此时如果把pattern改为

pattern=re.compile(r'are (.*?) .*')

match则返回none，search返回结果为：

are smarter than dogs
smarter

接下来我们了解下其他方法的使用

str = "138-9592-5592 # number"
pattern=re.compile(r'#.*$')
number=re.sub(pattern,'',str)
print(number)

结果为：

138-9592-5592

以上是通过把#号后面的内容替换为空实现提取号码的目的。

我们还可以进一步对号码的横杆进行替换

print(re.sub(r'-*','',number))

结果为：

13895925592

我们还可以用find的方法把找到的字符串打印出来

str = "138-9592-5592 # number"
pattern=re.compile(r'5')
print(pattern.findall(str))

结果为：

['5', '5', '5']

正则表达式的整体内容比较多，需要我们对匹配的字符串的规则有足够的了解，下面是具体的匹配规则。

python数据清洗系列之字符串处理详解

矢量化字符串函数

清理待分析的散乱数据时，常常需要做一些字符串规整化工作。

data = pd.Series({'li': '120@qq.com','wang':'5632@qq.com',
 'chen': '8622@xinlang.com','zhao':np.nan,'sun':'5243@gmail.com'})
print(data)

结果为：

python数据清洗系列之字符串处理详解

可以通过规整合的一些方法对数据做初步的判断，比如用contains 判断每个数据中是否含有关键词

print(data.str.contains('@'))

结果为：

python数据清洗系列之字符串处理详解

也可以对字符串进行分拆，把需要的字符串提取出来

data = pd.Series({'li': '120@qq.com','wang':'5632@qq.com',
     'chen': '8622@xinlang.com','zhao':np.nan,'sun':'5243@gmail.com'})
pattern=re.compile(r'(\d*)@([a-z]+)\.([a-z]{2,4})')
result=data.str.match(pattern) #这里用fillall的方法也可以result=data.str.findall(pattern)
print(result)

结果为：

chen [(8622, xinlang, com)]
li [(120, qq, com)]
sun [(5243, gmail, com)]
wang [(5632, qq, com)]
zhao NaN
dtype: object

此时加入我们需要提取邮箱前面的名称

print(result.str.get(0))

结果为：

python数据清洗系列之字符串处理详解

或者需要邮箱所属的域名

print(result.str.get(1))

结果为：

python数据清洗系列之字符串处理详解

当然也可以用切片的方式进行提取，不过提取的数据准确性不高

data = pd.Series({'li': '120@qq.com','wang':'5632@qq.com',
    'chen': '8622@xinlang.com','zhao':np.nan,'sun':'5243@gmail.com'})
print(data.str[:6])

结果为：

python数据清洗系列之字符串处理详解

最后我们了解下矢量化的字符串方法

python数据清洗系列之字符串处理详解

总结

以上就是python数据清洗之字符串处理的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流。

python数据清洗系列之字符串处理详解

- Author -

molearner

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python读取TXT到数组及列表去重后按原来顺序排序的方法

Jun 26 Python

python字符串中的单双引

Feb 16 Python

Python网络爬虫中的同步与异步示例详解

Feb 03 Python

Python利用openpyxl库遍历Sheet的实例

May 03 Python

python绘制直线的方法

Jun 30 Python

完美解决python中ndarray 默认用科学计数法显示的问题

Jul 14 Python

Python编程中类与类的关系详解

Aug 08 Python

python爬虫库scrapy简单使用实例详解

Feb 10 Python

Django-xadmin后台导入json数据及后台显示信息图标和主题更改方式

Mar 11 Python

Python爬虫工具requests-html使用解析

Apr 29 Python

Pycharm如何自动生成头文件注释

Nov 14 Python

Python中全局变量和局部变量的理解与区别

Feb 07 Python

python中numpy基础学习及进行数组和矢量计算

Feb 12 #Python

python 数据清洗之数据合并、转换、过滤、排序

Feb 12 #Python

python3制作捧腹网段子页爬虫

Feb 12 #Python

python日志记录模块实例及改进

Feb 12 #Python

Windows下Python2与Python3两个版本共存的方法详解

Feb 12 #Python

使用Python绘制图表大全总结

Feb 11 #Python

Python 绘图和可视化详细介绍

Feb 11 #Python

You might like

用在PHP里的JS打印函数

2006/10/09 PHP

解析PHP中的unset究竟会不会释放内存

2013/07/18 PHP

兼容各大浏览器带关闭按钮的漂浮多组图片广告代码

2014/06/05 PHP

浅谈php自定义错误日志

2015/02/13 PHP

PHP分页初探一个最简单的PHP分页代码的简单实现

2016/06/21 PHP

使用mini-define实现前端代码的模块化管理

2014/12/25 Javascript

jQuery带时间的日期控件代码分享

2015/08/26 Javascript

利用jQuery设计一个简单的web音乐播放器的实例分享

2016/03/08 Javascript

Javascript自执行匿名函数(function() { })()的原理浅析

2016/05/15 Javascript

详解react-router 4.0 下服务器如何配合BrowserRouter

2017/12/29 Javascript

AngularJS 应用模块化的使用

2018/04/04 Javascript

浅谈Vue数据响应思路之数组

2018/11/06 Javascript

详解Python中的装饰器、闭包和functools的教程

2015/04/02 Python

Python实现的多项式拟合功能示例【基于matplotlib】

2018/05/15 Python

python生成多个只含0,1元素的随机数组或列表的实例

2018/11/12 Python

解决Python selenium get页面很慢时的问题

2019/01/30 Python

在Python中过滤Windows文件名中的非法字符方法

2019/06/10 Python

python3.7 利用函数os pandas利用excel对文件名进行归类

2019/09/29 Python

python 两个数据库postgresql对比

2019/10/21 Python

Python爬虫库BeautifulSoup的介绍与简单使用实例

2020/01/25 Python

Casadei卡萨蒂官网：意大利奢侈鞋履品牌

2017/10/28 全球购物

盖尔斯工厂店：GUESS Factory

2020/01/21 全球购物

介绍一下Java的事务处理

2012/12/07 面试题

英语专业毕业个人求职自荐信

2013/09/21 职场文书

人力资源经理的岗位职责范本

2014/02/28 职场文书

继承公证书

2014/04/09 职场文书

大学生翘课检讨书范文

2014/10/06 职场文书

二年级上册数学教学计划

2015/01/20 职场文书

六一儿童节开幕词

2015/01/29 职场文书

2015年安全生产工作总结范文

2015/04/02 职场文书

党员转正申请报告

2015/05/15 职场文书

文艺晚会开场白

2015/05/29 职场文书

毕业晚宴祝酒词

2015/08/11 职场文书

Python中22个万用公式的小结

2021/07/21 Python

Winsows11性能如何? win11性能测评多核竟比Win10差了10%

2021/11/21 数码科技

我们认为中短波广播场强仪的最佳组合

2022/04/05 无线电