当前位置:   article > 正文

2024年第三届钉钉杯大学生大数据挑战赛B题第1问_python中查询data 中 当日病房收入对应科室 列值为“康复医学科一病房”的第 1-6

python中查询data 中 当日病房收入对应科室 列值为“康复医学科一病房”的第 1-6

赛题:

问题1:

针对康复医学科一病房,以日期、患者人数、药品总收入、当日病房收入为基础输入数据,构建2个不同类型的时间序列预测模型,分别预测对应的门诊收入数据,目标为表中这个科室空白的数据。

为了完成第一小问的任务,即构建两个不同类型的预测模型来预测康复医学科一病房的门诊收入,我们将按照以下步骤进行:

  1. 数据预处理:清洗数据、填充缺失值、创建有用的特征。
  2. 探索性数据分析:可视化数据,理解数据分布和趋势。
  3. 模型构建:选择两种不同的模型,例如 ARIMA 和随机森林。
  4. 模型训练与评估:使用训练数据训练模型,并在测试数据上评估模型性能。

解题思路

首先,我们需要从 Excel 文件中读取数据,并选择康复医学科一病房的相关数据进行分析。我们需要关注的列包括:

  • 日期
  • 门诊患者人次数
  • 门诊收入 OBS_T01_MZSR68
  • 药品总收入
  • 当日病房收入

接下来,我们进行数据预处理,确保数据格式正确,填充缺失值,创建有用的特征(例如提取日期中的月份、周几等信息)。

之后,我们构建两种不同类型的预测模型。一种可以是时间序列模型,例如 ARIMA,另一种可以是非时间序列模型,例如随机森林。

最后,我们将通过训练数据集训练这两个模型,并在测试数据集上评估它们的性能。

具体步骤

  1. 导入必要的库:Pandas、Numpy、Matplotlib、Seaborn、Statsmodels、Scikit-Learn 等。
  2. 加载数据:从 Excel 文件中读取数据。
  3. 数据预处理:清洗数据、处理缺失值、创建有用的特征。
  4. 探索性数据分析:绘制时间序列图,观察门诊收入的趋势。
  5. 模型构建:
  6. 构建 ARIMA 模型。
  7. 构建随机森林模型。
  8. 模型训练与评估:使用训练数据训练模型,并在测试数据上评估模型性能。

代码:

  1. import pandas as pd
  2. import numpy as np
  3. import matplotlib.pyplot as plt
  4. from statsmodels.tsa.arima.model import ARIMA
  5. from sklearn.ensemble import RandomForestRegressor
  6. from sklearn.model_selection import train_test_split
  7. from sklearn.metrics import mean_squared_error
  8. from sklearn.preprocessing import StandardScaler
  9. # 1. 加载数据
  10. data = pd.read_excel('数据.xlsx')
  11. # 2. 数据预处理
  12. # 选择康复医学科一病房的数据
  13. ward_data = data[data['当日病房收入对应科室'] == '康复医学科一病房']
  14. # 填充缺失值
  15. ward_data.fillna(method='ffill', inplace=True)
  16. # 创建有用的特征
  17. ward_data['日期'] = pd.to_datetime(ward_data['日期'])
  18. ward_data['Month'] = ward_data['日期'].dt.month
  19. ward_data['DayOfWeek'] = ward_data['日期'].dt.dayofweek
  20. # 准备训练和测试数据
  21. X = ward_data[['门诊患者人次数', '药品总收入', '当日病房收入', 'Month', 'DayOfWeek']]
  22. y = ward_data['门诊收入OBS_T01_MZSR68']
  23. # 3. 探索性数据分析
  24. plt.figure(figsize=(14, 7))
  25. plt.plot(ward_data['日期'], ward_data['门诊收入OBS_T01_MZSR68'])
  26. plt.title('门诊收入随时间的变化')
  27. plt.xlabel('日期')
  28. plt.ylabel('门诊收入')
  29. plt.show()
  30. # 4. 模型构建
  31. # 4.1 ARIMA 模型
  32. # 选择 p, d, q 参数
  33. p = 1
  34. d = 1
  35. q = 1
  36. # 4.2 随机森林模型
  37. rf = RandomForestRegressor(n_estimators=100, random_state=42)
  38. # 5. 模型训练与评估
  39. # 划分训练集和测试集
  40. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
  41. # ARIMA 模型训练
  42. # 需要将时间序列数据转换为监督学习格式
  43. def series_to_supervised(data, n_in=1):
  44. df = pd.DataFrame(data)
  45. cols = list()
  46. for i in range(n_in, 0, -1):
  47. cols.append(df.shift(i))
  48. cols.append(df)
  49. agg = pd.concat(cols, axis=1)
  50. agg.dropna(inplace=True)
  51. return agg.values
  52. values = ward_data['门诊收入OBS_T01_MZSR68'].values
  53. supervised_data = series_to_supervised(values, 1)
  54. train = supervised_data[:int(len(supervised_data)*0.8)]
  55. test = supervised_data[int(len(supervised_data)*0.8):]
  56. history = [x for x in train]
  57. predictions = list()
  58. for t in range(len(test)):
  59. model = ARIMA(history, order=(p,d,q))
  60. model_fit = model.fit()
  61. output = model_fit.forecast()
  62. yhat = output[0]
  63. predictions.append(yhat)
  64. obs = test[t]
  65. history.append(obs)
  66. print('predicted=%f, expected=%f' % (yhat, obs))
  67. # 计算 MSE
  68. mse = mean_squared_error(test[:, 0], predictions)
  69. print('Test MSE: %.3f' % mse)
  70. # 随机森林模型训练
  71. scaler = StandardScaler()
  72. X_train_scaled = scaler.fit_transform(X_train)
  73. X_test_scaled = scaler.transform(X_test)
  74. rf.fit(X_train_scaled, y_train)
  75. # 6. 评估模型性能
  76. y_pred_arima = predictions
  77. y_pred_rf = rf.predict(X_test_scaled)
  78. # 计算 MSE
  79. mse_arima = mean_squared_error(y_test, y_pred_arima)
  80. mse_rf = mean_squared_error(y_test, y_pred_rf)
  81. print('ARIMA Test MSE: %.3f' % mse_arima)
  82. print('Random Forest Test MSE: %.3f' % mse_rf)

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号