深入理解NumPy简明教程---数组1


Posted in Python onDecember 17, 2016

目前我的工作是将NumPy引入到Pyston中(一款Dropbox实现的Python编译器/解释器)。在工作过程中,我深入接触了NumPy源码,了解其实现并提交了PR修复NumPy的bug。在与NumPy源码以及NumPy开发者打交道的过程中,我发现当今中文NumPy教程大部分都是翻译或参考英文文档,因此导致了许多疏漏。比如NumPy数组中的broadcast功能,几乎所有中文文档都翻译为“广播”。而NumPy的开发者之一,回复到“broadcast is a compound -- native English speakers can see that it's " broad" + "cast" = "cast (scatter, distribute) broadly, I guess "cast (scatter, distribute) broadly" probably is closer to the meaning(NumPy中的含义)"。有鉴于此,我打算启动一个项目,以我对NumPy使用以及源码层面的了解编写一个系列的教程。

NumPy数组

NumPy数组是一个多维数组对象,称为ndarray。其由两部分组成:

  • 实际的数据
  • 描述这些数据的元数据

大部分操作仅针对于元数据,而不改变底层实际的数据。

关于NumPy数组有几点必需了解的:

  • NumPy数组的下标从0开始。
  • 同一个NumPy数组中所有元素的类型必须是相同的。

NumPy数组属性

在详细介绍NumPy数组之前。先详细介绍下NumPy数组的基本属性。NumPy数组的维数称为秩(rank),一维数组的秩为1,二维数组的秩为2,以此类推。在NumPy中,每一个线性的数组称为是一个轴(axes),秩其实是描述轴的数量。比如说,二维数组相当于是两个一维数组,其中第一个一维数组中每个元素又是一个一维数组。所以一维数组就是NumPy中的轴(axes),第一个轴相当于是底层数组,第二个轴是底层数组里的数组。而轴的数量——秩,就是数组的维数。

NumPy的数组中比较重要ndarray对象属性有:

  • ndarray.ndim:数组的维数(即数组轴的个数),等于秩。最常见的为二维数组(矩阵)。
  • ndarray.shape:数组的维度。为一个表示数组在每个维度上大小的整数元组。例如二维数组中,表示数组的“行数”和“列数”。ndarray.shape返回一个元组,这个元组的长度就是维度的数目,即ndim属性。
  • ndarray.size:数组元素的总个数,等于shape属性中元组元素的乘积。
  • ndarray.dtype:表示数组中元素类型的对象,可使用标准的Python类型创建或指定dtype。另外也可使用前一篇文章中介绍的NumPy提供的数据类型。
  • ndarray.itemsize:数组中每个元素的字节大小。例如,一个元素类型为float64的数组itemsiz属性值为8(float64占用64个bits,每个字节长度为8,所以64/8,占用8个字节),又如,一个元素类型为complex32的数组item属性为4(32/8)。
  • ndarray.data:包含实际数组元素的缓冲区,由于一般通过数组的索引获取元素,所以通常不需要使用这个属性。

创建数组

先来介绍创建数组。创建数组的方法有很多。如可以使用array函数从常规的Python列表和元组创造数组。所创建的数组类型由原序列中的元素类型推导而来。

  

>>> from numpy import *   
>>> a = array( [2,3,4] )
  
>>> a 
  array([2, 3, 4]) 
>>> a.dtype 
  dtype('int32') 
>>> b = array([1.2, 3.5, 5.1])
  
>>> b.dtype 
  dtype('float64')

使用array函数创建时,参数必须是由方括号括起来的列表,而不能使用多个数值作为参数调用array。

 

>>> a = array(1,2,3,4)  # 错误 
>>> a = array([1,2,3,4]) # 正确

可使用双重序列来表示二维的数组,三重序列表示三维数组,以此类推。

>>> b = array( [ (1.5,2,3), (4,5,6) ] ) 
>>> b 
  array([[ 1.5, 2. , 3. ], 

    [ 4. , 5. , 6. ]])

可以在创建时显式指定数组中元素的类型

>>> c = array( [ [1,2], [3,4] ], dtype=complex) 
>>> c 
  array([[ 1.+0.j, 2.+0.j], 
   [ 3.+0.j, 4.+0.j]])

通常,刚开始时数组的元素未知,而数组的大小已知。因此,NumPy提供了一些使用占位符创建数组的函数。这些函数有助于满足除了数组扩展的需要,同时降低了高昂的运算开销。

用函数zeros可创建一个全是0的数组,用函数ones可创建一个全为1的数组,函数empty创建一个内容随机并且依赖与内存状态的数组。默认创建的数组类型(dtype)都是float64。

可以哟娜特d.dtype.itemsize来查看数组中元素占用的字节数目。

>>> d = zeros((3,4)) 
>>> d.dtype 
dtype('float64') 
>>> d 
array([[ 0., 0., 0., 0.], 
  [ 0., 0., 0., 0.], 

  [ 0., 0., 0., 0.]]) 
>>> d.dtype.itemsize 
8

也可以自己制定数组中元素的类型

>>> ones( (2,3,4), dtype=int16 ) #手动指定数组中元素类型 
   array([[[1, 1, 1, 1], 
     [1, 1, 1, 1], 

     [1, 1, 1, 1]], 

  

     [[1, 1, 1, 1], 

     [1, 1, 1, 1], 

     [1, 1, 1, 1]]], dtype=int16) 
>>> empty((2,3)) 

 array([[ 2.65565858e-316,  0.00000000e+000,  0.00000000e+000], 

     [ 0.00000000e+000,  0.00000000e+000,  0.00000000e+000]])

NumPy提供一个类似arange的函数返回一个数列形式的数组:

>>> arange(10, 30, 5) 
  array([10, 15, 20, 25])

以10开始,差值为5的等差数列。该函数不仅接受整数,还接受浮点参数: 

>>> arange(0,2,0.5) 
  array([ 0. , 0.5, 1. , 1.5])

当arange使用浮点数参数时,由于浮点数精度有限,通常无法预测获得的元素个数。因此,最好使用函数linspace去接收我们想要的元素个数来代替用range来指定步长。linespace用法如下,将在通用函数一节中详细介绍。

>>> numpy.linspace(-1, 0, 5) 
    array([-1. , -0.75, -0.5 , -0.25, 0. ])

数组中的元素是通过下标来访问的,可以通过方括号括起一个下标来访问数组中单一一个元素,也可以以切片的形式访问数组中多个元素。关于切片访问,将在切片一节介绍。

知识点:NumPy中的数据类型

对于科学计算来说,Python中自带的整型、浮点型和复数类型远远不够,因此NumPy中添加了许多数据类型。如下:

NumPy中的基本数据类型

NumPy中的基本数据类型
名称 描述
bool 用一个字节存储的布尔类型(True或False)
inti 由所在平台决定其大小的整数(一般为int32或int64)
int8 一个字节大小,-128 至 127
int16 整数,-32768 至 32767
int32 整数,-2 ** 31 至 2 ** 32 -1
int64 整数,-2 ** 63 至 2 ** 63 - 1
uint8 无符号整数,0 至 255
uint16 无符号整数,0 至 65535
uint32 无符号整数,0 至 2 ** 32 - 1
uint64 无符号整数,0 至 2 ** 64 - 1
float16 半精度浮点数:16位,正负号1位,指数5位,精度10位
float32 单精度浮点数:32位,正负号1位,指数8位,精度23位
float64或float 双精度浮点数:64位,正负号1位,指数11位,精度52位
complex64 复数,分别用两个32位浮点数表示实部和虚部
complex128或complex 复数,分别用两个64位浮点数表示实部和虚部

NumPy类型转换方式如下:

>>> float64(42) 
  42.0 
>>> int8(42.0) 
  42 
>>> bool(42) 
  True 
>>> bool(42.0) 
  True 
>>> float(True) 
  1.0

许多函数的参数中可以指定参数的类型,当然,这个类型参数是可选的。如下:

>>> arange(7, dtype=uint16) 
  array([0, 1, 2, 3, 4, 5, 6], dtype=uint16)

输出数组

当输出一个数组时,NumPy以特定的布局用类似嵌套列表的形式显示:

  • 第一行从左到右输出
  • 每行依次自上而下输出
  • 每个切片通过一个空行与下一个隔开
  • 一维数组被打印成行,二维数组成矩阵,三维数组成矩阵列表。 
>>> a = arange(6)             # 1d array 
>>> print a 
  [0 1 2 3 4 5] 
  
>>> b = arange(12).reshape(4,3)      # 2d array 
>>> print b 
  [[ 0 1 2] 
  [ 3 4 5] 
  [ 6 7 8] 
  [ 9 10 11]]
  
>>> c = arange(24).reshape(2,3,4)     # 3d array 
>>> print c 
  [[[ 0 1 2 3] 
  [ 4 5 6 7] 
  [ 8 9 10 11]] 

  
  [[12 13 14 15] 
  [16 17 18 19] 
  [20 21 22 23]]]

 reshape将在下一篇文章中介绍 

如果一个数组太长,则NumPy自动省略中间部分而只打印两端的数据:

 

>>> print arange(10000) 
 [  0  1  2 ..., 9997 9998 9999] 

  
>>> print arange(10000).reshape(100,100) 

 [[  0  1  2 ...,  97  98  99] 

  [ 100 101 102 ..., 197 198 199] 

  [ 200 201 202 ..., 297 298 299] 

  ..., 

  [9700 9701 9702 ..., 9797 9798 9799] 

  [9800 9801 9802 ..., 9897 9898 9899] 

  [9900 9901 9902 ..., 9997 9998 9999]]

可通过设置printoptions参数来禁用NumPy的这种行为并强制打印整个数组。

set_printoptions(threshold='nan')

这样,输出时数组的所有元素都会显示出来。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python发腾讯微博代码分享
Jan 10 Python
Python求两个list的差集、交集与并集的方法
Nov 01 Python
Python多线程编程(八):使用Event实现线程间通信
Apr 05 Python
在Python中marshal对象序列化的相关知识
Jul 01 Python
Python二叉树的定义及常用遍历算法分析
Nov 24 Python
Python基于plotly模块实现的画图操作示例
Jan 23 Python
Python学习笔记之错误和异常及访问错误消息详解
Aug 08 Python
python Event事件、进程池与线程池、协程解析
Oct 25 Python
python离线安装外部依赖包的实现
Feb 13 Python
Django认证系统user对象实现过程解析
Mar 02 Python
django从后台返回html代码的实例
Mar 11 Python
Python绘制散点图之可视化神器pyecharts
Jul 07 Python
Python脚本获取操作系统版本信息
Dec 17 #Python
详解python中xlrd包的安装与处理Excel表格
Dec 16 #Python
详解python开发环境搭建
Dec 16 #Python
python制作爬虫爬取京东商品评论教程
Dec 16 #Python
python用模块zlib压缩与解压字符串和文件的方法
Dec 16 #Python
Python用UUID库生成唯一ID的方法示例
Dec 15 #Python
python常见的格式化输出小结
Dec 15 #Python
You might like
PHP setcookie指定domain参数后,在IE下设置cookie失效的解决方法
2011/09/09 PHP
WordPress主题中添加文章列表页页码导航的PHP代码实例
2015/12/22 PHP
PHP连接数据库实现注册页面的增删改查操作
2016/03/27 PHP
js跑步算法的实现代码
2013/12/04 Javascript
js控制浏览器全屏示例代码
2014/02/20 Javascript
查找Oracle高消耗语句的方法
2014/03/22 Javascript
JavaScript实现简单的二级导航菜单实例
2015/04/15 Javascript
javascript等号运算符使用详解
2015/04/16 Javascript
ECMAScript5(ES5)中bind方法使用小结
2015/05/07 Javascript
纯js模拟div层弹性运动的方法
2015/07/27 Javascript
Bootstrap组件(一)之菜单
2016/05/11 Javascript
基于Require.js使用方法(总结)
2017/10/26 Javascript
解决Layui选择全部,换页checkbox复选框重新勾选的问题方法
2018/08/14 Javascript
vue项目部署到nginx/tomcat服务器的实现
2019/08/26 Javascript
JavaScript多种滤镜算法实现代码实例
2019/12/10 Javascript
jquery+ajax实现异步上传文件显示进度条
2020/08/17 jQuery
Python爬虫框架Scrapy实战之批量抓取招聘信息
2015/08/07 Python
基于python的图片修复程序(实现水印去除)
2018/06/04 Python
python中pika模块问题的深入探究
2018/10/13 Python
Python实现一个带权无回置随机抽选函数的方法
2019/07/24 Python
python中eval与int的区别浅析
2019/08/11 Python
通过实例解析Python return运行原理
2020/03/04 Python
Tensorflow中的dropout的使用方法
2020/03/13 Python
html5的画布canvas——画出弧线、旋转的图形实例代码+效果图
2013/06/09 HTML / CSS
JAVA和C++的区别
2013/10/06 面试题
厨师岗位职责
2013/11/12 职场文书
承认错误的检讨书
2014/01/30 职场文书
春节联欢晚会主持词范文
2014/03/24 职场文书
新品发布会策划方案
2014/06/08 职场文书
企业环保标语
2014/06/10 职场文书
2014年帮扶工作总结
2014/11/26 职场文书
十月围城观后感
2015/06/08 职场文书
读《钢铁是怎样炼成的》有感:百炼方成钢
2019/11/05 职场文书
vue点击弹窗自动触发点击事件的解决办法(模拟场景)
2021/05/25 Vue.js
德劲DE1105机评
2022/04/05 无线电
zabbix 代理服务器的部署与 zabbix-snmp 监控问题
2022/07/15 Servers