当前位置:   article > 正文

Python金融大数据分析——NumPy

python金融大数据分析

一、数据数组

由于金融应用往往具有在特定数据结构上进行高性能操作的要求,因此掌握重要的数据结构之一——数组十分重要。数组通常在行和列中存放相同数据类型的其他对象,在学习NumPy等库之前,我们先了解数组的两种替代方法。

  1. data=[0.1,2,5,23,12] #创建简单数组
  2. data2=[data,data,data] #用已有列表对象嵌套构造高维数组
  3. data3=[data2,data2]
  4. data[1] #数组行索引
  5. data[1][2] #数组元素索引
  6. data[0]=3
  7. data2 #在改变对象元素时整体也会改变
  8. >[[3,2,5,23,12],
  9. [3,2,5,23,12],
  10. [3,2,5,23,12]]
  11. #为避免上述现象可使用copy模块的deepcopy函数
  12. from copy import deepcopy
  13. data=[0.1,2,5,23,12]
  14. data4=3*[deepcopy(data),]
  15. #此时用物理副本代替引用指针,从而改变data的值不影响data4

1.1 array类

array模块定义一个以紧凑的方式表示基本值的数组,如字符、整数、浮点数的对象类型。数组(array)是顺序类型,其表现和列表相似。

  1. data=[0.1,2,5,23,12]
  2. import array
  3. data1=array.array('f',data) #用类型代码f(浮点数)实例化数组对象
  4. data1.append(0.5) #增加元素和数组于尾部的方式和列表一致
  5. data1.extend([8,11])
  6. 2*data1
  7. data1.tolist() #将数组对象转换为列表对象

 值得注意的是,在已经申明数据类型后该数组就只能附加相应的对象,否则会导致出错。

array类的优点之一是具有内建存储和检索功能

  1. f=open('array.apy','wb')#打开磁盘文件写入二进制数据
  2. data1.tofile(f) #写入数据
  3. f.close()
  4. with open('array.apy','wb')as f:
  5. data1.tofile(f) #方法二:用with完成相同操作
  6. !ls -n arr* #显示写入磁盘的文件
  7. b=array.array('f') #类型代码float初始化新的数组对象
  8. with open('array.apy','rb')as f:
  9. b.fromfile(f,5) #打开文件读取数据后,将5个元素读入b对象

从上述例子不难看出,从磁盘读取数据时array对象的数据类型很重要。例如,若用其他类型码初始化数组对象在从文件中读取元素,就会导致数字错误。

二、常规NumPy数组

numpy.ndarray是一种能够高性能处理n维数组的专用类。首先介绍其基本的操作。

  1. import numpy as np
  2. data1=np.array([1,2,3,4,5])
  3. type(data)
  4. > numpy.ndarray
  5. data2=np.array(['a','b','c'])
  6. data3=np.arange(2,20,2)

以上操作较为基础,故不展开说明。有两点说明:首先,np.arange()可以增加输入参数dtype从而指定生成元素的数据类型;其次,对于一维ndarray对象,索引方式不变。

接下来介绍numpy.ndarray类的几个主要特征

  1. #多种内建方法
  2. data.sum()
  3. data.std()
  4. data.cumsum()
  5. data.min()
  6. data.argmin()
  7. #向量化数字运算
  8. 2*data
  9. data**2
  10. 2**data
  11. a**a
  12. #通用函数示例
  13. np.exp(data)
  14. np.sqrt(data)
  15. np.abs()
  16. np.sign()
  17. np.isnan()

这里补充说明:通用函数指的是既可以作用在ndarray对象也可以用于其他基本数据类型上的函数,但当通用函数应用在具体对象的时候,其性能不如math模块中可实现相同目标的性能。

2.1多维数组

初始化ndarray对象的方法有多种,我们这里介绍一种先实例化对象,然后在代码执行期间生成的结果填充数组的方法

  1. data=np.zeros((2,3),dtype='i',order='C')
  2. data1=np.ones((2,3,4),dtype='i',order='C')
  3. data2=np.zeros_like(data1,dtype='f16',order='C')#借用data1的size
  4. data3=np.empty((2,3,4))#无预先填充数值
  5. data4=np.empty_like(data3)
  6. data5=np.eye(5)
  7. data6=np.linspace(2,20,2)#有均匀间隔的数值

用ndarray类构建数组的方式特点在于:对象有内建的维度;对象不可变,长度固定;数组只有一种数据类型。

在初始化ndarray对象时,我们为内存布局提供可选的参数,指定数组中那些元素在相邻的内存中存储。当数组很大时,内存呢布局对性能的影响也会增加。计算所有元素总和的时候,内存布局不重要;加总行优先的对象不管按行还是按列的速度都更快,其中按行加总相对快于按列加总;对于按列存储的对象,按列加总相较快于按行加总。

2.2元信息

  1. data.size
  2. data.itemsize
  3. data.ndim
  4. data.shape
  5. data.dtype
  6. data.nbytes

2.3改变组成和大小

改变组成通常是指提供对同意数组的另一种视图,改变大小通常是创建一个临时对象

  1. data=[1,2,4,5,6,7]
  2. data.shape
  3. np.shape(data)
  4. data.reshape((2,3))
  5. data.T
  6. data.transpose()

以上是在不改变数组元素个数的前提下改变数组的格式

  1. data=np.arange(10)
  2. np.resize(data,(3,1))
  3. np.resize(data,(2,6))

以上是在改变数组元素的前提下改变数组格式的方法,接下来我们来了解堆叠方法。堆叠是一种

将两个ndarray对象从水平或者垂直方法组合起来的方法,注意两个数组的维度大小必须相同。与之相对应的是对位对象的扁平化操作,使其成为一维对象,一下为实例。

  1. data=np.arange(10)
  2. data=data.reshape((2,5))
  3. data1=np.hstack(data,2*data)
  4. data2=np.vstack(data,0.5*data)
  5. data1.flatten()
  6. data2.ravel()

2.4布尔数组

指的是对条件进行求值的默认结果是布尔型对象,可以用于索引和数组选择。

  1. data=array[[0,1,2],[3,4,5]]
  2. data>3
  3. >array([[False,False,False],
  4. [False,True,True]])
  5. data[data>3]
  6. >array([4,5])
  7. data[data<4]
  8. >array([0,1,2,3])

进一步,可以利用特定的函数根据某个条件是否取真值定义操作,如 np.where() 函数

三、 NumPy结构数组

结构数组是常规ndarray对象类型的推广,其中每列的数据类型必须相同,但其优势是某列中元素可以使另一多维对象。以下是构建一个结构数组的实例。

  1. dt=np.dtype([('Number','f'),('Name','S10'),('Math/English','i4',2)])
  2. data=np.array([111,'Smith',(80,88),
  3. 112,'Jones',(90,77)],dtype=dt)
  4. type(data)
  5. > numpy.ndarray
  6. data['Number']
  7. >array([111,112])
  8. #可对该数组进行上文提及的其他操作

四、代码向量化

代码向量化的目的是更快的执行速度,基本思路是单次在一个复杂对象上进行操作。

  1. np.random.seed(100)
  2. data1=np.arange(10) #包含随机数的ndarray对象
  3. data=2np.arange(20).reshape((4,5))*0.5
  4. data1+data2
  5. 2*data1+4

最后一行代码中对数组进行了线性变化,此时标量被广播并且作用在每个元素上。在 NumPy 级别上,原本在ndarray对象上进行的循环操作经由高度优化的代码负责,因此远快于另设函数的Python方法。

本文为笔者个人学习《Python金融大数据分析》一书所得,若有不妥谬误之处,还望温和批评指正。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/360660
推荐阅读
相关标签
  

闽ICP备14008679号