编程 Python

Python学习笔记之pandas索引列、过滤、分组、求和功能示例

Posted in Python onJune 03, 2019

本文实例讲述了Python学习笔记之pandas索引列、过滤、分组、求和功能。分享给大家供大家参考，具体如下：

解析html内容，保存为csv文件
//3water.com/article/162401.htm

前面我们已经把519961（基金编码）这种基金的历史净值明细表html内容抓取到了本地，现在我们还是需要解析html，取出相关的值，然后保存为csv文件以便pandas来统计分析。

from bs4 import BeautifulSoup
import os
import csv
# 使用 BeautifulSoup 解析html内容
def getFundDetailData(html):
  soup = BeautifulSoup(html,"html.parser")
  rows = soup.find("table").tbody.find_all("tr")
  result = []
  for row in rows:
    tds=row.find_all('td')
    result.append({"fcode": '519961'
            ,"fdate": tds[0].get_text()
           , "NAV": tds[1].get_text()
           , "ACCNAV": tds[2].get_text()
           , "DGR": tds[3].get_text()
           , "pstate":tds[4].get_text()
           , "rstate": tds[5].get_text()
           }
         )
  return result
# 把解析之后的数据写入到csv文件
def writeToCSV():
  data_dir = "../htmls/details"
  all_path = os.listdir(data_dir)
  all_result = []
  for path in all_path:
    if os.path.isfile(os.path.join(data_dir,path)):
      with open(os.path.join(data_dir,path),"rb") as f:
        content = f.read().decode("utf-8")
        f.close()
        all_result = all_result + getFundDetailData(content)
  with open("../csv/519961.csv","w",encoding="utf-8",newline="") as f:
    writer = csv.writer(f)
    writer.writerow(['fcode', 'fdate', 'NAV', "ACCNAV", 'DGR', 'pstate', "rstate"])
    for r in all_result:
      writer.writerow([r["fcode"], r["fdate"], r["NAV"], r["ACCNAV"], r["DGR"], r["pstate"], r["rstate"]])
    f.close()

# 执行
writeToCSV()

pandas 排序、索引列

# coding: utf-8
import pandas
if __name__ == "__main__" :
  # 读取csv文件 创建pandas对象
  pd = pandas.read_csv("./csv/519961.csv", dtype={"fcode":pandas.np.str_}, index_col="fdate") # 把 fdate 这列设置为 索引列
  # 根据索引列 倒序
  print(pd.sort_index(ascending=False))

既然fdate列设置为了索引列，那么如果根据索引获取呢？

# 读取csv文件 创建pandas对象
pd = pandas.read_csv("./csv/519961.csv", dtype={"fcode":pandas.np.str_}, index_col="fdate") # 把 fdate 这列设置为 索引列
pd.index = pandas.to_datetime(pd.index)
print(pd["2017-11-29 "]) # 2017-11-29 519961 1.189  1.189 -1.00% 限制大额申购  开放赎回

2、直接指定fdate列就是日期类型

# 读取csv文件 创建pandas对象
pd = pandas.read_csv("./csv/519961.csv", dtype={"fcode":pandas.np.str_}, index_col="fdate", parse_dates=["fdate"]) # 指明fdate是日期类型
print(pd["2017-11-29 "]) # 2017-11-29 519961 1.189  1.189 -1.00% 限制大额申购  开放赎回

打印索引：

print(pd.index) # 打印 索引

可以看出是DatetimeIndex的索引：

DatetimeIndex(['2015-08-13', '2015-08-12', '2015-08-11', '2015-08-10',
        '2015-08-07', '2015-08-06', '2015-08-05', '2015-08-04',
        '2015-08-03', '2015-07-31',
        ...
        '2015-07-02', '2015-07-01', '2015-06-30', '2015-06-29',
        '2015-06-26', '2015-06-25', '2015-06-24', '2015-06-23',
        '2015-06-19', '2015-06-18'],
       dtype='datetime64[ns]', name='fdate', length=603, freq=None)

3、索引的高级用法

# 取出 2017年7月的 全部数据
print(pd["2017-07"])
# 取出 2017年7月到9月的 数据
print(pd["2017-07":"2017-09"])
# 到2015-07的数据
print(pd[:"2015-07"])
# 取出截至到2015-07的数据
# 然后 倒序
print(pd[:"2015-7"].sort_index(ascending=False))

获取基金日增长率下跌次数最多的月份

result = pd[pd["DGR"].notnull()] # DGR一定要有值
# 过滤掉DGR值里的%号,最后取出小于0的值（负数就表示增长率下跌了 ）
result = result[result['DGR'].str.strip("%").astype(pandas.np.float)<0]
# 按照月份 统计DGR跌的次数
result = result.groupby(lambda d:d.strftime("%Y-%m")).size()
# 对DGR跌的次数 倒序,然后取出前面第一个
result = result.sort_values(ascending=False).head(1)
print(result) # 2016-04  12 意思就是2016年4月份 是该基金DGR下跌次数最多的月份

希望本文所述对大家Python程序设计有所帮助。

Python学习笔记之pandas索引列、过滤、分组、求和功能示例

- Author -

学习笔记666

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python3中的md5加密实例

May 29 Python

Python Grid使用和布局详解

Jun 30 Python

Python 实现某个功能每隔一段时间被执行一次的功能方法

Oct 14 Python

python pandas消除空值和空格以及 Nan数据替换方法

Oct 30 Python

python实现控制台打印的方法

Jan 12 Python

Python 支付整合开发包的实现

Jan 23 Python

Python提取特定时间段内数据的方法实例

Apr 01 Python

如何利用Anaconda配置简单的Python环境

Jun 24 Python

对django2.0 关联表的必填on_delete参数的含义解析

Aug 09 Python

python matplotlib imshow热图坐标替换/映射实例

Mar 14 Python

解决numpy矩阵相减出现的负值自动转正值的问题

Jun 03 Python

详解Python流程控制语句

Oct 28 Python

Python学习笔记之抓取某只基金历史净值数据实战案例

Jun 03 #Python

python自制包并用pip免提交到pypi仅安装到本机【推荐】

Jun 03 #Python

Python3 实现文件批量重命名示例代码

Jun 03 #Python

我就是这样学习Python中的列表

Jun 02 #Python

Python3内置模块pprint让打印比print更美观详解

Jun 02 #Python

python实现感知机线性分类模型示例代码

Jun 02 #Python

python调用摄像头拍摄数据集

Jun 01 #Python

You might like

php 信息采集程序代码

2009/03/17 PHP

PHP基于GD库的缩略图生成代码（支持jpg,gif,png格式）

2014/06/19 PHP

详解PHP+AJAX无刷新分页实现方法

2015/11/03 PHP

phpStorm2020 注册码

2020/09/17 PHP

jQuery下通过$.browser来判断浏览器.

2011/04/05 Javascript

最简单的js图片切换效果实现代码

2011/09/24 Javascript

如何使用Javascript获取距今n天前的日期

2013/07/08 Javascript

node.js操作mongoDB数据库示例分享

2014/11/26 Javascript

js面向对象之公有、私有、静态属性和方法详解

2015/04/17 Javascript

javascript多物体运动实现方法分析

2016/01/08 Javascript

jsTree使用记录实例

2016/12/01 Javascript

Centos6.8下Node.js安装教程

2017/05/12 Javascript

JS自动生成动态HTML验证码页面

2017/06/14 Javascript

ReactNative页面跳转Navigator实现的示例代码

2017/08/02 Javascript

Vue中封装input组件的实例详解

2017/10/17 Javascript

nodeJs实现基于连接池连接mysql的方法示例

2018/02/10 NodeJs

vue input 输入校验字母数字组合且长度小于30的实现代码

2018/05/16 Javascript

Vue引用Swiper4插件无法重写分页器样式的解决方法

2018/09/27 Javascript

微信小程序实现留言板

2018/10/31 Javascript

jQuery实现input输入框获取焦点与失去焦点时提示的消失与显示功能示例

2019/05/27 jQuery

vue中v-model对select的绑定操作

2020/08/31 Javascript

详解JavaScript中的链式调用

2020/11/27 Javascript

[04:28]2014DOTA2国际邀请赛采访小兔子LGD挺进钥匙体育馆

2014/07/14 DOTA

[03:40]DOTA2亚洲邀请赛小组赛第二日赛事回顾

2015/01/31 DOTA

初步认识Python中的列表与位运算符

2015/10/12 Python

Python中遍历字典过程中更改元素导致异常的解决方法

2016/05/12 Python

Python3调用百度AI识别图片中的文字功能示例【测试可用】

2019/03/13 Python

python字典的常用方法总结

2019/07/31 Python

深入浅出CSS3 background-clip,background-origin和border-image教程

2011/01/27 HTML / CSS

纯html5+css3下拉导航菜单实现代码

2013/03/18 HTML / CSS

AmazeUI中各种的导航式菜单与解决方法

2020/08/19 HTML / CSS

加拿大领先的时尚和体育零售商：Sporting Life

2019/12/15 全球购物

初中生期末考试的自我评价

2013/12/17 职场文书

企业消防安全责任书

2014/07/23 职场文书

pytorch 带batch的tensor类型图像显示操作

2021/05/20 Python

浅谈MySQL user权限表

2021/06/18 MySQL