当前位置:   article > 正文

泰坦尼克号数据集分析实验_1、将titanic数据集(titanic.csv)的各项数据以及数据之间的联系等信息以可视化图

1、将titanic数据集(titanic.csv)的各项数据以及数据之间的联系等信息以可视化图
1. 泰坦尼克号数据集分析实验

(1) 自由选择可视化方法,可视化数据集中的Pclass属性,Sex属性,Age属性,SibSp属性,Fare属性和Embarked属性;

(2)回答以下问题 , 可考虑使用中心趋势度量和离散度度量进行分析:

1)年龄与生存情况之间的关系是什么?

2)性别与生存情况之间的关系是什么?

3)社会地位与生存情况之间的关系是什么?

4)为什么有些票的价格很高?票价的高低与哪些属性有关?

4.1问题一

(1)导入titanic数据集

  1. titanic = pd.read_csv("train.csv")  
  2. print(titanic.head())  打印数据的前几行  

图1 导入titanic代码

图2 titanic数据集前五行数据

(2)使用sns.catplot()函数绘制Pclass(序数)属性,Sex(二元)属性,Embarked(乘客上船地点,标称)属性的柱状图。统计每一个属性中不同定性的值的数量。

图3 Pclass属性可视化结果                          图4 Sex属性可视化结果

图5 Embarked属性可视化结果

(3) 使用sns.distplot()函数绘制Age(比率标度)属性,SibSp(比率标度)属性,Fare(比率标度)属性的分布绘图。

  1. sns.set(color_codes=True)  
  2. titanic = titanic[~np.isnan(titanic['Age'])] ######可能年龄为空  
  3. sns.distplot(titanic['Age'])###分布绘图  
  4. plt.show()  

图6绘制Age属性分布绘图代码

图7 Age属性可视化结果                            图8 SibSp属性可视化结果

图9 Fare属性可视化结果

(4) 使用sns.pairplot()函数绘制六个属性之间相互关系的散点图,以及自身的直方图

图10 六个属性间的成对绘图

4.2 问题二

4.2.1年龄与生存情况之间的关系是什么?

    使用中心趋势度量和离散度度量进行分析,首先求得所有乘客年龄的均值,中位数,最大值,最小值,方差,标准差。再抽出幸存者的数据,进行相同的度量操作,进行对比。

图11 幸存者年龄分析

    我们可以发现,幸存者平均年龄较总乘客平均年龄相对较小,其他度量值大致相同,由此可见,年龄属性与是否幸存相关性较小。

4.2.2性别与生存情况之间的关系是什么?

    首先统计所用乘客中男女比例,可以发现男性乘客数量远大于女性乘客。接着,统计男女中获救的比例,发现获救幸存者中女性比例却大于男性。两个数据的对比可以得出,女性幸存概率远大于男性的结论。

图 13 男女获救比例图

图 12 总乘客性别数量对比图

4.2.3社会地位与生存情况之间的关系是什么?

社会地位可以由舱位(Pclass)属性直观体现,一般认为社会地位高的人士收入较高,可以支付起较高等级舱位的票价。同样的,统计总乘客中Pclass属性的特征分布,已经幸存者在不同Pclass值中所占比例,可以明显发现,一等舱的乘客幸存概率最大,即社会地位越高,生存情况越好。

图14 总乘客Pclass分布图

图15 幸存者舱位比例图

 

 

4.2.4为什么有些票的价格很高?票价的高低与哪些属性有关?

   对Titanic数据集所有属性进行相关性分析,并绘制热力图,观察Fare属性与各属性之间的相关性大小。可以直观的看出其与Pclass属性相关性最高,实际情况下,的确是舱位等级越高,票价越贵,安全性越好,存活率越高。我们还可以发现票价与Parch属性(乘客在船上的父母或子女的数量)相关性也很大,但我未能想出合理的解释

图 16 Titanic数据集属性相关性热力图

                   

五、实验结论

1.女性存活率远高于男性,可以归结于社会原因,即人们对老弱妇孺的保护弱者意识和人道主义。

2.社会地位越高,幸存率越高,是因为社会地位高的人士往往选择购买高等级船舱。高等级船舱则代表着安全设施完备,逃生几率较大。

3.我对Parch属性和SibSp属性对幸存与否的影响不太能够理解,于是进行了网上搜索,得出了以下结论:

Parch(父母/子女数量):

这个属性表示乘客携带的父母或子女的数量。一个乘客的父母和子女数量可能会影响其生存机会,因为有可能在紧急情况下,乘客会优先考虑保护家人。例如,一名乘客有孩子可能更有可能获得救生艇上的座位。

SibSp(兄弟姐妹/配偶数量):

这个属性表示乘客携带的兄弟姐妹或配偶的数量。与Parch类似,兄弟姐妹和配偶的数量也可能影响生存机会。家庭成员之间可能会互相帮助,或者一起寻找逃生的机会。

但还是没有解释Parch与票价的关联(留一个疑问)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/718081
推荐阅读
相关标签
  

闽ICP备14008679号