使用python对excel表格处理的一些小功能


Posted in Python onJanuary 25, 2021

python对excel表格处理的一些小功能 功能概览pandas库的一些应用文件读入计算表格中每一行的英文单词数简单用textblob进行自然语言情感分析判断一行中是不是有两列值都与其他行重复(可推广至多列)对表格中的两列自定义函数运算判断表格中某列中是否有空对表格某列中时间格式的修正运用matplotlib画时间序列图,重叠图

功能概览

做数模模拟赛时学到的一些对表格处理的知识,为了方便自己以后查找,遂写成一篇文章,也希望能帮助大家:)

pandas库的一些应用

文件读入

代码如下,每一句后面都有注释
包括知识点:
1.excel文件的写入和输出;
2.检验表格中是否有NaN,有即删除一行;
3.把表格某列中所有某字母替换成另一字母,所有某数字替换成另一数字;
4.检验表格某列中每一格是Y还是N,是Y就在新列中对应输出1,反之则为0;
5.对表格中多列进行运算
(首先要配置pandas库,如果需要读取和写入文件,要配置xlsxwriter库)

import pandas as pd
import xlsxwriter 
word=pd.read_excel('C:/math/Problem_C_Data/my_pacifier.xlsx') #excel表格文件读入,括号里面写文件地址
word=word.replace(['n','y'],['N','Y'])  #把excel表里的所有n替换成N,y替换成Y
word=word.dropna(axis=0)    #如果表格里有一行中有NaN,即删除这一行
word['m'] = word['a'].str.contains('Y').astype(int)   #如果列索引为a的这一列中有Y则对应新列中取值为1
word['n']=word['vine'].str.contains('Y').astype(int)
word['n']=word['n'].replace(1,2)      #把列索引为n的这一列中所有为1的值转换为2
s = word.apply(lambda word: word['a'] *(word['m']+word['n']) , axis=1)    #s列是由表格中其他列的计算得到
word['Si']=(s - s.min())/(s.max() - s.min()) #对s列中的值进行归一化处理
print(word['Si'])                             //打印索引为Si的列
#print(s)
#print(word['n'])
word.to_excel('C:/math/Problem_C_Data/SVVp.xlsx',engine='xlsxwriter')      //输出excel文件到电脑中
print('finished')

计算表格中每一行的英文单词数

包含知识点:
1.dataframe和字典、列表的转换;
2.如何遍历字典;
3.计算dataframe中每一列的英文句子中的单词数

import pandas as pd
import xlsxwriter 
word=pd.read_excel('C:/math/Problem_C_Data/reviewh.xlsx')  #里面只有一列数据
c=[]      #列表,用来统计每一行的英文句子的英文单词个数
word=word.set_index(word.index).T.to_dict('list') #把这一列数据按dataframe的索引转换成字典     
for key,value in word.items():    #遍历字典
  s=str(value)           #先把表格里当前行的内容转换成字符串
  a=s.split(' ')          #把英文句子按空格分割
  num_s=len(a)            #计算出单词个数
  c.append(num_s)          #添加到c中
c=pd.DataFrame(c)           #由列表转换为dataframe
c.to_excel('C:/math/Problem_C_Data/counth.xlsx',engine='xlsxwriter')  //输出成新的文件
print('finished')

简单用textblob进行自然语言情感分析

用NLP简单分析表格中每一格的英文句子的情感极性和主观性

import pandas as pd
from textblob import TextBlob
import xlsxwriter 
word=pd.read_excel('C:/math/Problem_C_Data/reviewh.xlsx')
c=[]
word=word.set_index(word.index).T.to_dict('list')
for key,value in word.items(): 
  s=str(value)
  blob = TextBlob(s)     #把s转化成textblob对象
  blob = blob.sentences   #利用TextBlob句子标记化句子
  first = blob[0].sentiment   #对标记化后的句子进行情感分析(我这里只有一个句子,如果有很多句就添加second=blob[1].sentiment)
  c.append(first.polarity)    #这里只添加了情感极性,如果还需要主观性,就直接用first
c=pd.DataFrame(c)
c.to_excel('C:/math/Problem_C_Data/NLPh.xlsx',engine='xlsxwriter')
print('finished')

判断一行中是不是有两列值都与其他行重复(可推广至多列)

判断表中是不是有在同一行中a列和b列值都相同的情况。如第一行中a=1,b=2,第4行中a=1,b=2,则这两行相同;如果第8行中a=1,b=3,则它和第一行不重复

import pandas as pd
import xlsxwriter
word=pd.read_excel('C:/math/Problem_C_Data/my_hair_dryer.xlsx')
x=word['a']     
y=word['b']
z=pd.concat([x,y],axis=1)#对axis=1即把两列按行对齐,即左右拼接成一张表       
z['repeat']=z.duplicated()  #判断表中有没有重复的,如果有则输出为true
ll = z['repeat'].values.tolist()   #把这一列转变成列表   
if 'True' in ll:   #遍历列表,如果里面有true,就说明有重复,就输出yes
  print('yes')
print('finished')

对表格中的两列自定义函数运算

(此处定义的是除法运算)

import pandas as pd
import xlsxwriter 
word=pd.read_excel('C:/math/Problem_C_Data/my_hair_dryer.xlsx')
def chu(x,y):
  if y==0:   #分母为0,则不运算,结果直接为0
    result=0
  else:
    result=x/y
  return result
s = word.apply(lambda word:chu(word['helpful_votes'],word['total_votes']), axis=1)
s.to_excel('C:/math/Problem_C_Data/voteh.xlsx',engine='xlsxwriter')
print('finished')

判断表格中某列中是否有空

import numpy as np
import pandas as pd
import xlsxwriter 
word=pd.read_excel('C:/math/Problem_C_Data/my_hair_dryer.xlsx')
train=word['review_date']
print(train.isnull().any())   #有空即输出true

对表格某列中时间格式的修正

原格式是月/日/年,如1/11/2014,改为标准datetime格式2014-01-11(此处还要舍去后面的00:00:00),方便之后画图,也方便排序等

import pandas as pd
import datetime  #引入库

#导入数据集
data =pd.read_excel('C:/math/Problem_C_Data/Exx.xlsx')

data = data.loc[:, ['review_date']] # 获取数据集中列名为review_date
#s= pd.to_datetime(data['review_date'], format='%m/%d/%Y')

# 标准化日期,获取时间的“年、月、日”
def change_date(s):
  s = datetime.datetime.strptime(s, "%m/%d/%Y") #这里是原格式的形式,俺是月/日/年,可根据实际情况修改 
  # 把日期标准化,如把1/11/2014变成2014-01-011 00:00:00
  s = str(s) # 上一步把date转化为了时间格式,此处把date转回str格式
  return s[:10] #只获取年月日的方法,即“位置10”之前的字符串
  #字符串的切片

data['review_date'] = data['review_date'].map(change_date) 
# 用change_date函数处理列表中date这一列,如把“1/11/2014”转化为“2014-01-11”
#data = data.sort_values(by='review_date') # 按date这一列进行排序,根据需要采用
data.to_excel('C:/math/Problem_C_Data/Exxx.xlsx',engine='xlsxwriter')
print('finished')

运用matplotlib画时间序列图,重叠图

画时间序列图
(如果要画重叠图,记得x要一样,y可以不一样,然后用plt.plot(x,y0,x,y1,x,y2)即可画出重叠图)

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import matplotlib
import datetime
from statsmodels.graphics.factorplots import interaction_plot
import xlsxwriter 
data=pd.read_excel('C:/math/Problem_C_Data/Exx.xlsx')
# # create data 
s=data['E']      #y轴
e0=s[2907:5043]
t=data['review_date'] 
t0=t[2907:5043]
y0 =e0.values.tolist()
x0 = pd.to_datetime(t0)     #x轴
# # plot
plt.plot(x0,y0)        
plt.gcf().autofmt_xdate()
plt.grid(ls = '--')      #设置背后的网格线
plt.show()  #最后一定要show()

到此这篇关于使用python对excel表格处理的一些小功能的文章就介绍到这了,更多相关python对excel表格处理内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python使用urllib模块的urlopen超时问题解决方法
Nov 08 Python
Python 中开发pattern的string模板(template) 实例详解
Apr 01 Python
Python实现删除列表中满足一定条件的元素示例
Jun 12 Python
Windows系统下PhantomJS的安装和基本用法
Oct 21 Python
在Python中过滤Windows文件名中的非法字符方法
Jun 10 Python
pandas DataFrame的修改方法(值、列、索引)
Aug 02 Python
Django自定义列表 models字段显示方式
Apr 03 Python
最新PyCharm从安装到PyCharm永久激活再到PyCharm官方中文汉化详细教程
Nov 17 Python
Python实现微信表情包炸群功能
Jan 28 Python
Pytorch DataLoader shuffle验证方式
Jun 02 Python
详解MindSpore自定义模型损失函数
Jun 30 Python
python神经网络 tf.name_scope 和 tf.variable_scope 的区别
May 04 Python
全网最详细的PyCharm+Anaconda的安装过程图解
Jan 25 #Python
python 数据类型强制转换的总结
Jan 25 #Python
如何用Python徒手写线性回归
Jan 25 #Python
Python try except finally资源回收的实现
Jan 25 #Python
Python中lru_cache的使用和实现详解
Jan 25 #Python
详解Python之Scrapy爬虫教程NBA球员数据存放到Mysql数据库
Jan 24 #Python
Ubuntu20下的Django安装的方法步骤
Jan 24 #Python
You might like
PHP新手上路(四)
2006/10/09 PHP
一周让你学会PHP 不错的学习资料
2009/02/06 PHP
php 正则表达式小结
2009/08/31 PHP
PHP与SQL注入攻击防范小技巧
2011/09/16 PHP
PHP递归创建多级目录
2015/11/05 PHP
PHP简单实现文本计数器的方法
2016/04/28 PHP
php中的登陆login实例代码
2016/06/20 PHP
php ajax confirm 删除实例详解
2019/03/06 PHP
巧用局部变量提升javascript性能
2014/02/24 Javascript
Javascript学习笔记之 函数篇(一) : 函数声明和函数表达式
2014/06/24 Javascript
jquery.cookie.js使用指南
2015/01/05 Javascript
JSON与XML的区别对比及案例应用
2016/11/11 Javascript
JS实现焦点图轮播效果的方法详解
2016/12/19 Javascript
BootStrop前端框架入门教程详解
2016/12/25 Javascript
Vue.js系列之项目结构说明(2)
2017/01/03 Javascript
input获取焦点时底部菜单被顶上来问题的解决办法
2017/01/24 Javascript
ES6新特性五:Set与Map的数据结构实例分析
2017/04/21 Javascript
Node.js环境下Koa2添加travis ci持续集成工具的方法
2017/06/19 Javascript
Vue工程模板文件 webpack打包配置方法
2017/12/26 Javascript
深入理解JS的事件绑定、事件流模型
2018/05/13 Javascript
vue router带参数页面刷新或回退参数消失的解决方法
2019/02/27 Javascript
js常用正则表达式集锦
2019/05/17 Javascript
微信小程序实现拍照画布指定区域生成图片
2019/07/18 Javascript
python实现通过shelve修改对象实例
2014/09/26 Python
Python单例模式实例分析
2015/01/14 Python
Python代码缩进和测试模块示例详解
2018/05/07 Python
python读取文件名并改名字的实例
2019/01/07 Python
django-rest-framework解析请求参数过程详解
2019/07/18 Python
python实现人脸签到系统
2020/04/13 Python
python软件都是免费的吗
2020/06/18 Python
美国按摩椅批发网站:Titan Chair
2018/12/27 全球购物
新西兰最大的天然保健及护肤品网站:HealthPost(直邮中国)
2021/02/13 全球购物
大学生最新职业生涯规划书范文
2014/01/12 职场文书
公安学专业求职信
2014/07/27 职场文书
惹女朋友生气检讨书
2015/05/06 职场文书
2019年大学生职业生涯规划书
2019/03/25 职场文书