赞
踩
记录使用Titanic数据进行分析的过程(新手一个)
- 简单介绍Logistic回归
-简单介绍SVM(支持向量机)
SVM是解决二分类问题的一个分类器,通过寻找一个超平面(如下图所示)将两个类别的样本分开来。通过计算损失函数:所有误分类的点到超平面的距离之和最小,进行计算分类。(改图来自搜狗百科)
SVM分为线性可分(linearseparability)SVM,线性可分也就如上图所示,直接使用一个超平面可直接将样本点分为两类;线性不可分(nonlinear)SVM,下图为线性不可分情形,将其映射到高维空间进行分类。本文采用了线性不可分的情形对泰坦尼克生存分析进行计算预测。
-简单介绍随机森林
- 题目及变量解释
利用logistic回归(二元选择模型)对该数据进行简单建模及预测
题目:根据给定 Titanic 数据进行建模并对test数据的存活情况进行预测。
从表中的基本信息可以看到9个变量的基本统计信息
总共有891个数据量
关于年龄的平均值为29岁,有177个缺失值;乘客船舱信息有692个缺失值;乘客登船地点有2个缺失值
查看存活率
存活率为:38.4%
不同船舱下的存活率情况,
可以明显看到1级船舱的存活率明显是最高的
查看性别与生存率的关系:
明显看到女性的生存率远远高于男性,女士优先
交叉查看不同船舱下不同性别的存活情况:
从以下信息看到1号船舱的女性多于男性,且获救比例最大。
查看兄弟姐妹配偶数量与生存率的关系:
可以看到该数量在1的情况下的生存率是相较于0的情况下是较高的;其他数量下数量较少
查看父母或子女数量与生存率的关系:
数量为3以后数量较少不做比较
父母或子女数量在1~2之间的存活率大于数量为0的情况;与上述情况一致,考虑到可能与家庭成员的有关系,当生存时可能与其家人一同。
查看乘客上船起始点与生存率的关系:
考虑到可能乘客上船地点的不同与生存率有一定关系,C地点上船的人的存活率高于其他两个地点。
查看年龄对存活率的影响:
得到0-10岁左右的存活率都与死亡率相近或高出一点,40岁以下的存活率都较高,40以上的存活率较低
以下是绘制的年龄面积图:查看年龄的分布情况
对年龄的缺失值进行填补,SPSS中有以下几种方式:
处理登船你地点的缺失值:
由与登船地点的缺失值较少,只有2个,对其进行删除处理(删除他所在的两个个案)
给出除编号、姓名、乘客船票号以外变量的与存活情况之间的相关性
观察以下显著性看到Sibsp和Cabin是不显著的,Cabin缺失较多,去掉观察:
以下为去掉Cabin的相关性:
去掉Cabin后所有变量均显著
根据上述分析,将
因变量:Survival
自变量:Pclass(1 = upper, 2 = middle, 3 = lower)
Sex(male=0, female=1)、Age、sibsp、parch、fare
Embarked(C=1, Q=2, S=3)
这几个变量分别纳入模型中,进行Logistic回归,初步分析
结果如下:
训练集预测正确率为80%
下面为模型系数及显著性情况:
测试集计算,提交kaggle结果评分为:
install.packages("stringr") #字符串处理包
library("stringr")
install.packages("gdata&
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。