Python金融大数据分析——NumPy

作者：从前慢现在也慢 | 2024-04-04 19:31:22

踩

python金融大数据分析

一、数据数组

由于金融应用往往具有在特定数据结构上进行高性能操作的要求，因此掌握重要的数据结构之一——数组十分重要。数组通常在行和列中存放相同数据类型的其他对象，在学习NumPy等库之前，我们先了解数组的两种替代方法。


data=[0.1,2,5,23,12] #创建简单数组
data2=[data,data,data] #用已有列表对象嵌套构造高维数组
data3=[data2,data2]
 
data[1] #数组行索引
data[1][2] #数组元素索引
 
data[0]=3
data2 #在改变对象元素时整体也会改变
>[[3,2,5,23,12],
  [3,2,5,23,12],
  [3,2,5,23,12]]
#为避免上述现象可使用copy模块的deepcopy函数
from copy import deepcopy
data=[0.1,2,5,23,12]
data4=3*[deepcopy(data),] 
#此时用物理副本代替引用指针，从而改变data的值不影响data4

1.1 array类

array模块定义一个以紧凑的方式表示基本值的数组，如字符、整数、浮点数的对象类型。数组（array）是顺序类型，其表现和列表相似。


data=[0.1,2,5,23,12]
import array
 
data1=array.array('f',data) #用类型代码f（浮点数）实例化数组对象
data1.append(0.5) #增加元素和数组于尾部的方式和列表一致
data1.extend([8,11])
2*data1
data1.tolist() #将数组对象转换为列表对象

值得注意的是，在已经申明数据类型后该数组就只能附加相应的对象，否则会导致出错。

array类的优点之一是具有内建存储和检索功能


f=open('array.apy','wb')#打开磁盘文件写入二进制数据
data1.tofile(f) #写入数据
f.close()
 
with open('array.apy','wb')as f:
data1.tofile(f) #方法二：用with完成相同操作
 
!ls -n arr* #显示写入磁盘的文件
 
 
b=array.array('f') #类型代码float初始化新的数组对象
 
with open('array.apy','rb')as f:
 b.fromfile(f,5) #打开文件读取数据后，将5个元素读入b对象

从上述例子不难看出，从磁盘读取数据时array对象的数据类型很重要。例如，若用其他类型码初始化数组对象在从文件中读取元素，就会导致数字错误。

二、常规NumPy数组

numpy.ndarray是一种能够高性能处理n维数组的专用类。首先介绍其基本的操作。


import numpy as np
data1=np.array([1,2,3,4,5])
type(data)
> numpy.ndarray
data2=np.array(['a','b','c'])
data3=np.arange(2,20,2)

以上操作较为基础，故不展开说明。有两点说明：首先，np.arange()可以增加输入参数dtype从而指定生成元素的数据类型；其次，对于一维ndarray对象，索引方式不变。

接下来介绍numpy.ndarray类的几个主要特征


#多种内建方法
data.sum()
data.std()
data.cumsum()
data.min()
data.argmin()
 
#向量化数字运算
2*data
data**2
2**data
a**a
 
#通用函数示例
np.exp(data)
np.sqrt(data)
np.abs()
np.sign()
np.isnan()

这里补充说明：通用函数指的是既可以作用在ndarray对象也可以用于其他基本数据类型上的函数，但当通用函数应用在具体对象的时候，其性能不如math模块中可实现相同目标的性能。

2.1多维数组

初始化ndarray对象的方法有多种，我们这里介绍一种先实例化对象，然后在代码执行期间生成的结果填充数组的方法


data=np.zeros((2,3),dtype='i',order='C')
data1=np.ones((2,3,4),dtype='i',order='C')
data2=np.zeros_like(data1,dtype='f16',order='C')#借用data1的size
 
data3=np.empty((2,3,4))#无预先填充数值
data4=np.empty_like(data3)
 
data5=np.eye(5)
data6=np.linspace(2,20,2)#有均匀间隔的数值

用ndarray类构建数组的方式特点在于：对象有内建的维度；对象不可变，长度固定；数组只有一种数据类型。

在初始化ndarray对象时，我们为内存布局提供可选的参数，指定数组中那些元素在相邻的内存中存储。当数组很大时，内存呢布局对性能的影响也会增加。计算所有元素总和的时候，内存布局不重要；加总行优先的对象不管按行还是按列的速度都更快，其中按行加总相对快于按列加总；对于按列存储的对象，按列加总相较快于按行加总。

2.2元信息


data.size
data.itemsize
data.ndim
data.shape
data.dtype
data.nbytes

2.3改变组成和大小

改变组成通常是指提供对同意数组的另一种视图，改变大小通常是创建一个临时对象


data=[1,2,4,5,6,7]
data.shape
np.shape(data)
 
data.reshape((2,3))
 
data.T
data.transpose()

以上是在不改变数组元素个数的前提下改变数组的格式


data=np.arange(10)
np.resize(data,(3,1))
np.resize(data,(2,6))

以上是在改变数组元素的前提下改变数组格式的方法，接下来我们来了解堆叠方法。堆叠是一种

将两个ndarray对象从水平或者垂直方法组合起来的方法，注意两个数组的维度大小必须相同。与之相对应的是对位对象的扁平化操作，使其成为一维对象，一下为实例。


data=np.arange(10)
data=data.reshape((2,5))
 
data1=np.hstack(data,2*data)
data2=np.vstack(data,0.5*data)
 
data1.flatten()
data2.ravel()

2.4布尔数组

指的是对条件进行求值的默认结果是布尔型对象，可以用于索引和数组选择。


data=array[[0,1,2],[3,4,5]]
 
data>3
>array([[False,False,False],
        [False,True,True]])
 
data[data>3]
>array([4,5])
 
data[data<4]
>array([0,1,2,3])

进一步，可以利用特定的函数根据某个条件是否取真值定义操作，如 np.where() 函数

三、 NumPy结构数组

结构数组是常规ndarray对象类型的推广，其中每列的数据类型必须相同，但其优势是某列中元素可以使另一多维对象。以下是构建一个结构数组的实例。


dt=np.dtype([('Number','f'),('Name','S10'),('Math/English','i4',2)])
data=np.array([111,'Smith',(80,88),
               112,'Jones',(90,77)],dtype=dt)
type(data)
> numpy.ndarray
 
data['Number']
>array([111,112])
#可对该数组进行上文提及的其他操作

四、代码向量化

代码向量化的目的是更快的执行速度，基本思路是单次在一个复杂对象上进行操作。


np.random.seed(100)
data1=np.arange(10) #包含随机数的ndarray对象
data=2np.arange(20).reshape((4,5))*0.5
 
data1+data2
 
2*data1+4

最后一行代码中对数组进行了线性变化，此时标量被广播并且作用在每个元素上。在 NumPy 级别上，原本在ndarray对象上进行的循环操作经由高度优化的代码负责，因此远快于另设函数的Python方法。

本文为笔者个人学习《Python金融大数据分析》一书所得，若有不妥谬误之处，还望温和批评指正。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/360660