深入理解NumPy简明教程---数组1


Posted in Python onDecember 17, 2016

目前我的工作是将NumPy引入到Pyston中(一款Dropbox实现的Python编译器/解释器)。在工作过程中,我深入接触了NumPy源码,了解其实现并提交了PR修复NumPy的bug。在与NumPy源码以及NumPy开发者打交道的过程中,我发现当今中文NumPy教程大部分都是翻译或参考英文文档,因此导致了许多疏漏。比如NumPy数组中的broadcast功能,几乎所有中文文档都翻译为“广播”。而NumPy的开发者之一,回复到“broadcast is a compound -- native English speakers can see that it's " broad" + "cast" = "cast (scatter, distribute) broadly, I guess "cast (scatter, distribute) broadly" probably is closer to the meaning(NumPy中的含义)"。有鉴于此,我打算启动一个项目,以我对NumPy使用以及源码层面的了解编写一个系列的教程。

NumPy数组

NumPy数组是一个多维数组对象,称为ndarray。其由两部分组成:

  • 实际的数据
  • 描述这些数据的元数据

大部分操作仅针对于元数据,而不改变底层实际的数据。

关于NumPy数组有几点必需了解的:

  • NumPy数组的下标从0开始。
  • 同一个NumPy数组中所有元素的类型必须是相同的。

NumPy数组属性

在详细介绍NumPy数组之前。先详细介绍下NumPy数组的基本属性。NumPy数组的维数称为秩(rank),一维数组的秩为1,二维数组的秩为2,以此类推。在NumPy中,每一个线性的数组称为是一个轴(axes),秩其实是描述轴的数量。比如说,二维数组相当于是两个一维数组,其中第一个一维数组中每个元素又是一个一维数组。所以一维数组就是NumPy中的轴(axes),第一个轴相当于是底层数组,第二个轴是底层数组里的数组。而轴的数量——秩,就是数组的维数。

NumPy的数组中比较重要ndarray对象属性有:

  • ndarray.ndim:数组的维数(即数组轴的个数),等于秩。最常见的为二维数组(矩阵)。
  • ndarray.shape:数组的维度。为一个表示数组在每个维度上大小的整数元组。例如二维数组中,表示数组的“行数”和“列数”。ndarray.shape返回一个元组,这个元组的长度就是维度的数目,即ndim属性。
  • ndarray.size:数组元素的总个数,等于shape属性中元组元素的乘积。
  • ndarray.dtype:表示数组中元素类型的对象,可使用标准的Python类型创建或指定dtype。另外也可使用前一篇文章中介绍的NumPy提供的数据类型。
  • ndarray.itemsize:数组中每个元素的字节大小。例如,一个元素类型为float64的数组itemsiz属性值为8(float64占用64个bits,每个字节长度为8,所以64/8,占用8个字节),又如,一个元素类型为complex32的数组item属性为4(32/8)。
  • ndarray.data:包含实际数组元素的缓冲区,由于一般通过数组的索引获取元素,所以通常不需要使用这个属性。

创建数组

先来介绍创建数组。创建数组的方法有很多。如可以使用array函数从常规的Python列表和元组创造数组。所创建的数组类型由原序列中的元素类型推导而来。

  

>>> from numpy import *   
>>> a = array( [2,3,4] )
  
>>> a 
  array([2, 3, 4]) 
>>> a.dtype 
  dtype('int32') 
>>> b = array([1.2, 3.5, 5.1])
  
>>> b.dtype 
  dtype('float64')

使用array函数创建时,参数必须是由方括号括起来的列表,而不能使用多个数值作为参数调用array。

 

>>> a = array(1,2,3,4)  # 错误 
>>> a = array([1,2,3,4]) # 正确

可使用双重序列来表示二维的数组,三重序列表示三维数组,以此类推。

>>> b = array( [ (1.5,2,3), (4,5,6) ] ) 
>>> b 
  array([[ 1.5, 2. , 3. ], 

    [ 4. , 5. , 6. ]])

可以在创建时显式指定数组中元素的类型

>>> c = array( [ [1,2], [3,4] ], dtype=complex) 
>>> c 
  array([[ 1.+0.j, 2.+0.j], 
   [ 3.+0.j, 4.+0.j]])

通常,刚开始时数组的元素未知,而数组的大小已知。因此,NumPy提供了一些使用占位符创建数组的函数。这些函数有助于满足除了数组扩展的需要,同时降低了高昂的运算开销。

用函数zeros可创建一个全是0的数组,用函数ones可创建一个全为1的数组,函数empty创建一个内容随机并且依赖与内存状态的数组。默认创建的数组类型(dtype)都是float64。

可以哟娜特d.dtype.itemsize来查看数组中元素占用的字节数目。

>>> d = zeros((3,4)) 
>>> d.dtype 
dtype('float64') 
>>> d 
array([[ 0., 0., 0., 0.], 
  [ 0., 0., 0., 0.], 

  [ 0., 0., 0., 0.]]) 
>>> d.dtype.itemsize 
8

也可以自己制定数组中元素的类型

>>> ones( (2,3,4), dtype=int16 ) #手动指定数组中元素类型 
   array([[[1, 1, 1, 1], 
     [1, 1, 1, 1], 

     [1, 1, 1, 1]], 

  

     [[1, 1, 1, 1], 

     [1, 1, 1, 1], 

     [1, 1, 1, 1]]], dtype=int16) 
>>> empty((2,3)) 

 array([[ 2.65565858e-316,  0.00000000e+000,  0.00000000e+000], 

     [ 0.00000000e+000,  0.00000000e+000,  0.00000000e+000]])

NumPy提供一个类似arange的函数返回一个数列形式的数组:

>>> arange(10, 30, 5) 
  array([10, 15, 20, 25])

以10开始,差值为5的等差数列。该函数不仅接受整数,还接受浮点参数: 

>>> arange(0,2,0.5) 
  array([ 0. , 0.5, 1. , 1.5])

当arange使用浮点数参数时,由于浮点数精度有限,通常无法预测获得的元素个数。因此,最好使用函数linspace去接收我们想要的元素个数来代替用range来指定步长。linespace用法如下,将在通用函数一节中详细介绍。

>>> numpy.linspace(-1, 0, 5) 
    array([-1. , -0.75, -0.5 , -0.25, 0. ])

数组中的元素是通过下标来访问的,可以通过方括号括起一个下标来访问数组中单一一个元素,也可以以切片的形式访问数组中多个元素。关于切片访问,将在切片一节介绍。

知识点:NumPy中的数据类型

对于科学计算来说,Python中自带的整型、浮点型和复数类型远远不够,因此NumPy中添加了许多数据类型。如下:

NumPy中的基本数据类型

NumPy中的基本数据类型
名称 描述
bool 用一个字节存储的布尔类型(True或False)
inti 由所在平台决定其大小的整数(一般为int32或int64)
int8 一个字节大小,-128 至 127
int16 整数,-32768 至 32767
int32 整数,-2 ** 31 至 2 ** 32 -1
int64 整数,-2 ** 63 至 2 ** 63 - 1
uint8 无符号整数,0 至 255
uint16 无符号整数,0 至 65535
uint32 无符号整数,0 至 2 ** 32 - 1
uint64 无符号整数,0 至 2 ** 64 - 1
float16 半精度浮点数:16位,正负号1位,指数5位,精度10位
float32 单精度浮点数:32位,正负号1位,指数8位,精度23位
float64或float 双精度浮点数:64位,正负号1位,指数11位,精度52位
complex64 复数,分别用两个32位浮点数表示实部和虚部
complex128或complex 复数,分别用两个64位浮点数表示实部和虚部

NumPy类型转换方式如下:

>>> float64(42) 
  42.0 
>>> int8(42.0) 
  42 
>>> bool(42) 
  True 
>>> bool(42.0) 
  True 
>>> float(True) 
  1.0

许多函数的参数中可以指定参数的类型,当然,这个类型参数是可选的。如下:

>>> arange(7, dtype=uint16) 
  array([0, 1, 2, 3, 4, 5, 6], dtype=uint16)

输出数组

当输出一个数组时,NumPy以特定的布局用类似嵌套列表的形式显示:

  • 第一行从左到右输出
  • 每行依次自上而下输出
  • 每个切片通过一个空行与下一个隔开
  • 一维数组被打印成行,二维数组成矩阵,三维数组成矩阵列表。 
>>> a = arange(6)             # 1d array 
>>> print a 
  [0 1 2 3 4 5] 
  
>>> b = arange(12).reshape(4,3)      # 2d array 
>>> print b 
  [[ 0 1 2] 
  [ 3 4 5] 
  [ 6 7 8] 
  [ 9 10 11]]
  
>>> c = arange(24).reshape(2,3,4)     # 3d array 
>>> print c 
  [[[ 0 1 2 3] 
  [ 4 5 6 7] 
  [ 8 9 10 11]] 

  
  [[12 13 14 15] 
  [16 17 18 19] 
  [20 21 22 23]]]

 reshape将在下一篇文章中介绍 

如果一个数组太长,则NumPy自动省略中间部分而只打印两端的数据:

 

>>> print arange(10000) 
 [  0  1  2 ..., 9997 9998 9999] 

  
>>> print arange(10000).reshape(100,100) 

 [[  0  1  2 ...,  97  98  99] 

  [ 100 101 102 ..., 197 198 199] 

  [ 200 201 202 ..., 297 298 299] 

  ..., 

  [9700 9701 9702 ..., 9797 9798 9799] 

  [9800 9801 9802 ..., 9897 9898 9899] 

  [9900 9901 9902 ..., 9997 9998 9999]]

可通过设置printoptions参数来禁用NumPy的这种行为并强制打印整个数组。

set_printoptions(threshold='nan')

这样,输出时数组的所有元素都会显示出来。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
基于Python的身份证号码自动生成程序
Aug 15 Python
python使用calendar输出指定年份全年日历的方法
Apr 04 Python
使用Python编写一个简单的tic-tac-toe游戏的教程
Apr 16 Python
Python request设置HTTPS代理代码解析
Feb 12 Python
Pandas之排序函数sort_values()的实现
Jul 09 Python
python 通过视频url获取视频的宽高方式
Dec 10 Python
python剪切视频与合并视频的实现
Mar 03 Python
浅谈python3 构造函数和析构函数
Mar 12 Python
keras自定义回调函数查看训练的loss和accuracy方式
May 23 Python
python爬虫可以爬什么
Jun 16 Python
用python获取txt文件中关键字的数量
Dec 24 Python
Python使用openpyxl批量处理数据
Jun 23 Python
Python脚本获取操作系统版本信息
Dec 17 #Python
详解python中xlrd包的安装与处理Excel表格
Dec 16 #Python
详解python开发环境搭建
Dec 16 #Python
python制作爬虫爬取京东商品评论教程
Dec 16 #Python
python用模块zlib压缩与解压字符串和文件的方法
Dec 16 #Python
Python用UUID库生成唯一ID的方法示例
Dec 15 #Python
python常见的格式化输出小结
Dec 15 #Python
You might like
一个没有MYSQL数据库支持的简易留言本的编写
2006/10/09 PHP
php实现的仿阿里巴巴实现同类产品翻页
2009/12/11 PHP
如何实现JS函数的重载
2006/09/22 Javascript
JSON 和 JavaScript eval使用说明
2010/06/13 Javascript
JS构建页面的DOM节点结构的实现代码
2011/12/09 Javascript
EasyUI的treegrid组件动态加载数据问题的解决办法
2011/12/11 Javascript
用jQuery获取IE9下拉框默认值问题探讨
2013/07/22 Javascript
利用javascript判断文件是否存在
2013/12/31 Javascript
改变隐藏的input中value值的方法
2014/03/19 Javascript
jQuery中parentsUntil()方法用法实例
2015/01/07 Javascript
js树插件zTree获取所有选中节点数据的方法
2015/01/28 Javascript
JS组件Bootstrap按钮组与下拉按钮详解
2016/05/10 Javascript
利用node.js实现反向代理的方法详解
2017/07/24 Javascript
JavaScript实现无刷新上传预览图片功能
2017/08/02 Javascript
[47:22]Mineski vs Winstrike 2018国际邀请赛小组赛BO2 第二场 8.16
2018/08/17 DOTA
Python脚本实现DNSPod DNS动态解析域名
2015/02/14 Python
python修改操作系统时间的方法
2015/05/18 Python
python3对拉勾数据进行可视化分析的方法详解
2019/04/03 Python
python实现在函数图像上添加文字和标注的方法
2019/07/08 Python
Python pandas.DataFrame 找出有空值的行
2019/09/09 Python
Python生成器常见问题及解决方案
2020/03/21 Python
Softmax函数原理及Python实现过程解析
2020/05/22 Python
基于Tensorflow读取MNIST数据集时网络超时的解决方式
2020/06/22 Python
详解HTML5中的元素与元素
2015/08/17 HTML / CSS
使用layui实现左侧菜单栏及动态操作tab项的方法
2020/11/10 HTML / CSS
佐卡伊官网:中国知名珠宝品牌
2017/02/05 全球购物
英国探险旅游专家:Explore
2018/12/20 全球购物
是否有自动比较结构的方法
2015/06/03 面试题
为什么会有内存对齐
2016/10/10 面试题
教师年终个人自我评价
2013/10/04 职场文书
药学专业大学生个人的自我评价
2013/11/04 职场文书
大学生创业感言
2014/01/25 职场文书
农村婚礼主持词
2014/03/13 职场文书
个人承诺书怎么写
2014/05/24 职场文书
刑事辩护授权委托书
2014/09/13 职场文书
一文彻底理解js原生语法prototype,__proto__和constructor
2021/10/24 Javascript