当前位置:   article > 正文

SPSS用多元逐步回归模型对上证指数预测、描述统计和相关分析可视化研究

SPSS用多元逐步回归模型对上证指数预测、描述统计和相关分析可视化研究

全文链接:https://tecdat.cn/?p=34885

本文主要思路为了准确的估计股票价格,了解股票的一般规律,更好的为资本市场提供参考意见和帮助股民进行投资股票作出正确的决策,本文从股票价格指数与整个经济环境角度出发,使用SPSS软件采用多元回归分析方法,应用月度时间序列数据,通过选取综合反映股票市场上所有公司股票价格整体水平的指标建立了线性回归模型,得出了股票价格趋势变动的影响因素点击文末“阅读原文”获取完整代码数据)。

相关视频

为大致了解股票价格与诸因素之间的关系,先分别绘制股票价格与各个因素之间的散点图,并分析它们之间的关系.股价用上证A股指数来表示,这样可以减少人为因素对股票价格的影响,尽量将注意力集中在我们假设选用的自变量上。

描述统计和相关分析

获取上证指数数据,货币供应量,消费价格指数人民币美元汇率和存款利率数据。

从下面的表格中可以看到,各个变量的最大最小值平均值以及标准差。

3c02fe205a90367c2b5d153472c9233e.png

从上面的描述统计分析结果,我们可以看到所有变量有效值都是43个,存在两个缺失。因此我们在后续的分析中可以将其剔除。同时我们可以看到它们的标准差均值、中位数的信息。接下来我们看一下每个变量的分布情况。

cc97fc5333885b9279730f61dbe72be8.png

41c80c2ae4af87cbcea6597731779b0e.png

4d8bb056b7cb196582c2559be74e8c93.png

996f1566a0b96a7d694f7242e070c05b.png

07db56de25e653ec0323a52f7b4b223e.png

从上面的图中我们可以看到美元汇率、人民币存款利率变量分布符合正态分布,而其他变量的分布近似于正态分布。

然后我们可以通过绘制变量之间的散点图来分析各个变量之间的相关关系。

4d0108e54a3dc96b714b388e90ac2f24.png

595492527c48496dde6110a1fb5cebe2.png

83f841be263dd6a5e73373933dee72c0.png

9df8f5dccc94e46977d0c0f19f679208.png

5011b6f6e8d36223b0392adbb101bd95.png

从各个变量之间的散点图和相关系数矩阵的结果来看之间的散点图和相关系数矩阵的结果来看美元汇率和货币供应量数据之间存在着显著的负相关关系,人民币存款利率和货币供应量数据之间存在着显著的正相关关系,货币供应量数据和消费价格指数之间也存在着显著的正相关关系。


点击标题查阅往期内容

9b0e551fbb18c9e81a26636dcb906637.png

PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像

outside_default.png

左右滑动查看更多

outside_default.png

01

9e5fa4e3f45738777ca2452d3d4b0030.png

02

c0c60c81c492fada0566fb6b7e9c4db2.png

03

fdcf17460d5cf5985994763d9e604991.png

04

b63428a3daf1deb5ceaaee36dbbcb06b.png

进行多元回归模型并进行分析

回归指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常前者是因变量,后者是自变量。

fe1ca2f39961619778eebb3677b0c22f.png

546df62a815af73f1f0f4fceb582ca41.png

回归结果分析

从输出结果可以看出,回归方程为:上证指数=-34570.5+0.003货币供应量+13.407居民消费价格指数+47.867美元汇率+786.95人民币存款, 除了居民消费价格指以外由对应的值都比显著性水平0.05小,可得两个偏回归系p数在显著性水平0.05下均显著不为零。可决系数R,修正的可决系数R为0.48左右说明方程的拟合效果较好。

从各个变量的回归系数,我们可以判断,货币供应量每增加一个单位上证指数会增加0.003个单位,同样的居民消费指数增加一个单位上证指数会增加13.407个单位。因此,他们对上证指数都有正向影响,同样的,我们可以看到美元汇率和人民币存款上证指数都有正向的影响。因此可以认为他们对上证指数有显著的正向影响。

同时我们看到R方在0.963左右,因此可以认为该模型大部分已经被自变量解释了。但仍存在提高的空间,因此我们后续对该模型进行逐步回归分析。

拟合效果图形展示

以上证指数的原始数据作为x轴,回归拟合值为轴作图。

fe61ab7f3db3d5112b210448c15250f7.png

残差分析

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。显示结果如下:

98699b4cca5962bae9976527354b4bf1.png

0344019f9ad1b51b90e2168d7884da73.png

2c08f8f86721ed7bcb2b5d5899b0fbc5.png

从拟合值与残差的散点图上可以发现,除去离群点外,所有点基本上是随机地分散在纵坐标值为-1和+1的两条平行线之间,这说明随机误差项具有同方差性;拟合值与残差的标准差的散点图,其意义与上面类似;图表明随机误差项是服从正态分布的,其原因是正态Q-Q图近似地可以看成一条直线;右下图的CooK距离图进一步证实有一个离群点,它对回归方程的影响是比较大的,要根据具体问题,讨论出现这一观测值的实际背景。

逐步回归优化

使用逐步回归法建立“最优”的回归方程:

d68534a2b5737bcba14bae61cc22197d.png

02bc35af9035a4a296a95a201278a8cf.png

82363facb70bdd51b3e140a29602a3d8.png

上面用“逐步向前向后回归法”,通过软件分析建立“最优”回归方程。向后回归法就是建立包含全部因子的回归方程,通过回归系数的检验,从回归方程中逐个剔除不显著的因子,直到留在方程中的因子都是显著的。同时可以看到可判别系数的值0.62,因此模型拟合程度较好。

同时可以得到回归方程为:上证指数=-11799.13+12.039美元汇率+63.13居民消费价格指数。

最后我们得到了下面结果文件:

2a64c6cb167a1f9abc86620079136fc5.png

fcf79f46e77054ad75a35eda930ac8ed.png

结论

本文首先通过绘制上证指数与诸影响因素(货币供应量,居民消费价格指数,人民币兑美元汇率,人民币短期存款利率)之间的散点图和计算它们之间的相关系数,可知上证指数与诸因素之间存在比较明显的非线性关系,因此,为简化问题,通过SPSS软件,采用逐步进入法剔除了不显著的自变量—居民消费价格指数、人民币短期存款利率和人民币兑美元汇率,并建立了多元回归模型.利用所得模型可对股票价格的因素进行探讨。


3e7f6b114dfb235cbc4d84df5c43a02f.jpeg

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《SPSS用多元回归模型对上证指数预测、描述统计和相关分析可视化研究》。

5cce90b44b196360f80f8d355079843f.jpeg

0e903d50e3badf4a01e081ec438e9353.png

点击标题查阅往期内容

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

R语言基于树的方法:决策树,随机森林,Bagging,增强树

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

spss modeler用决策树神经网络预测ST的股票

R语言中使用线性模型、回归决策树自动组合特征因子水平

R语言中自编基尼系数的CART回归决策树的实现

R语言用rle,svm和rpart决策树进行时间序列预测

python在Scikit-learn中用决策树和随机森林预测NBA获胜者

python中使用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和交叉验证

R语言里的非线性模型:多项式回归、局部样条、平滑样条、 广义相加模型GAM分析

R语言用标准最小二乘OLS,广义相加模型GAM ,样条函数进行逻辑回归LOGISTIC分类

R语言ISLR工资数据进行多项式回归和样条回归分析

R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型

R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量

R语言分位数回归、GAM样条曲线、指数平滑和SARIMA对电力负荷时间序列预测

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

如何用R语言在机器学习中建立集成模型?

R语言ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测

在python 深度学习Keras中计算神经网络集成模型

R语言ARIMA集成模型预测时间序列分析

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

R语言基于树的方法:决策树,随机森林,Bagging,增强树

R语言基于Bootstrap的线性回归预测置信区间估计方法

R语言使用bootstrap和增量法计算广义线性模型(GLM)预测置信区间

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

Matlab建立SVM,KNN和朴素贝叶斯模型分类绘制ROC曲线

matlab使用分位数随机森林(QRF)回归树检测异常值

14a03f98e0f1ed802d0c30d09f24d2c4.png

cacf9a65faab9032c8f1f1e6a6e2614c.jpeg

41d057978243e78f669be23cf218751e.png

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/article/detail/44571
推荐阅读
相关标签
  

闽ICP备14008679号