赞
踩
(1) 自由选择可视化方法,可视化数据集中的Pclass属性,Sex属性,Age属性,SibSp属性,Fare属性和Embarked属性;
(2)回答以下问题 , 可考虑使用中心趋势度量和离散度度量进行分析:
1)年龄与生存情况之间的关系是什么?
2)性别与生存情况之间的关系是什么?
3)社会地位与生存情况之间的关系是什么?
4)为什么有些票的价格很高?票价的高低与哪些属性有关?
4.1问题一
(1)导入titanic数据集
图1 导入titanic代码
图2 titanic数据集前五行数据
(2)使用sns.catplot()函数绘制Pclass(序数)属性,Sex(二元)属性,Embarked(乘客上船地点,标称)属性的柱状图。统计每一个属性中不同定性的值的数量。
图3 Pclass属性可视化结果 图4 Sex属性可视化结果
图5 Embarked属性可视化结果
(3) 使用sns.distplot()函数绘制Age(比率标度)属性,SibSp(比率标度)属性,Fare(比率标度)属性的分布绘图。
图6绘制Age属性分布绘图代码
图7 Age属性可视化结果 图8 SibSp属性可视化结果
| ||||
|
(4) 使用sns.pairplot()函数绘制六个属性之间相互关系的散点图,以及自身的直方图
图10 六个属性间的成对绘图
4.2 问题二
4.2.1年龄与生存情况之间的关系是什么?
使用中心趋势度量和离散度度量进行分析,首先求得所有乘客年龄的均值,中位数,最大值,最小值,方差,标准差。再抽出幸存者的数据,进行相同的度量操作,进行对比。
图11 幸存者年龄分析
我们可以发现,幸存者平均年龄较总乘客平均年龄相对较小,其他度量值大致相同,由此可见,年龄属性与是否幸存相关性较小。
4.2.2性别与生存情况之间的关系是什么?
首先统计所用乘客中男女比例,可以发现男性乘客数量远大于女性乘客。接着,统计男女中获救的比例,发现获救幸存者中女性比例却大于男性。两个数据的对比可以得出,女性幸存概率远大于男性的结论。
| |||||||
| |||||||
| |||||||
| |||||||
4.2.3社会地位与生存情况之间的关系是什么?
社会地位可以由舱位(Pclass)属性直观体现,一般认为社会地位高的人士收入较高,可以支付起较高等级舱位的票价。同样的,统计总乘客中Pclass属性的特征分布,已经幸存者在不同Pclass值中所占比例,可以明显发现,一等舱的乘客幸存概率最大,即社会地位越高,生存情况越好。
![]() | |||||||
| |||||||
| |||||||
4.2.4为什么有些票的价格很高?票价的高低与哪些属性有关?
对Titanic数据集所有属性进行相关性分析,并绘制热力图,观察Fare属性与各属性之间的相关性大小。可以直观的看出其与Pclass属性相关性最高,实际情况下,的确是舱位等级越高,票价越贵,安全性越好,存活率越高。我们还可以发现票价与Parch属性(乘客在船上的父母或子女的数量)相关性也很大,但我未能想出合理的解释
图 16 Titanic数据集属性相关性热力图
1.女性存活率远高于男性,可以归结于社会原因,即人们对老弱妇孺的保护弱者意识和人道主义。
2.社会地位越高,幸存率越高,是因为社会地位高的人士往往选择购买高等级船舱。高等级船舱则代表着安全设施完备,逃生几率较大。
3.我对Parch属性和SibSp属性对幸存与否的影响不太能够理解,于是进行了网上搜索,得出了以下结论:
Parch(父母/子女数量):
这个属性表示乘客携带的父母或子女的数量。一个乘客的父母和子女数量可能会影响其生存机会,因为有可能在紧急情况下,乘客会优先考虑保护家人。例如,一名乘客有孩子可能更有可能获得救生艇上的座位。
SibSp(兄弟姐妹/配偶数量):
这个属性表示乘客携带的兄弟姐妹或配偶的数量。与Parch类似,兄弟姐妹和配偶的数量也可能影响生存机会。家庭成员之间可能会互相帮助,或者一起寻找逃生的机会。
但还是没有解释Parch与票价的关联(留一个疑问)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。