泰坦尼克号乘员数据分析

数据集来源

https://aistudio.baidu.com/aistudio/datasetdetail/6374

泰坦尼克号乘客数据分析

可以观察到,PassengerId\Name\Ticket 等提供不了和生还有关的有效信息,在分析前可以先去掉。

由此可见,Age/Cabin/Embarked 等字段有丢失值,在稍后的分析中应该先处理丢失值问题。

基本情况

png

这891名乘客中,生还和未生还的比例分别为 38% 和 62%。

下面,分别分析 Pclass、Sex、Age、SibSp、Parch、Fare、Cabin 和 Embarked 等与“生还”的关系

Pclass 根据乘客客舱等级进行生存率分析

不同级别客舱的人数和比例

Survived
Pclass
1 216
2 184
3 491

png

海难发生前,一等舱、二等舱、三等舱的乘客分别为216、184、491人,分别占总人数的 24%, 21%, 55%。

不同级别客舱生还人数和占总生还人数的比例

Survived
Pclass
1 136
2 87
3 119

png

海难发生后,一等舱、二等舱、三等舱的乘客人数变为136、87、119人,分别占总人数的 40%, 25%, 35%。

不同客舱分别的生还和未生还人数及生还率


png

Sex 根据乘客性别进行生存率分析

船上男女人数及比例?

png

存活的男女数量及男女比例?

png

男性的生还数量及生还率?

png

男性生还109人,生还率仅为 19%。

女性的生还数量及生还率?


png

女性生还 233 人,生还率为 74%。远远高于男性的 19%。

png

Age 根据乘客年龄进行生存率分析

由于 Age 有丢失值,先处理丢失值问题。 Age 的丢失值较多,填充的年龄为年龄平均值的上下一个标准差范围内的随机数。

年龄分布?

png

按照年龄,将乘客划分为儿童、少年、成年人和老年人,分析四个群体生还情况

png

SibSp 根据乘客是否有兄弟姐妹进行生存率分析

有兄弟姐妹的乘客的生还人数和生还率

png

有兄弟姐妹的乘客,生还 132 人,生还率为 47%。

没有兄弟姐妹的乘客的生还人数和生还率

png

没有兄弟姐妹的乘客,共生还 210 人,生还率为 35%。

Parch 根据乘客是否有父母子女进行生存率分析

有父母子女的乘客的生还人数和生还率


png

有父母或子女同船的乘客,生还 65 人,生还率为 55%。

没有父母子女的乘客的生还人数和生还率


png

Fare 根据票价分布进行生存率分析

png

png


png

左右两边分别是死亡乘客和生还乘客的平均票价. 黑色竖线表示正常值误差范围.

可见,票价与生还有一定相关性,生还者的平均票价要比未生还的高。

Cabin 根据船舱号进行生存率分析

丢失值太多,不能用此数据分析出 Cabin 不同对生存率的影响,丢掉。

Embarked 根据乘客上船的港口位置进行生存率分析

Embarked 有两个丢失值, 可以用众数填充

Survived
Embarked
C 93
Q 30
S 219

不同港口上船的乘客是否与生还率有关系?

png

从登船人数来看, S 港口人数最多,C 次之, Q 最少。
从生还率来看, C 港上船的生还率最高, Q 次之, S 生还率最低。

分析总结

总结分为两个部分,分别是本次数据分析得出的规律和对于分析的限制性进行讨论。

数据分析总结

本次分析主要探寻泰坦尼克号上的生还率和各因素(客舱等级、年龄、性别、上船港口等)的关系。

样本数量为 891,海难发生后,生还者还剩 342 人,生还率为 38%。

泰坦尼克号上有一\二\三等舱三种船舱类型。海难发生前,一等舱有 216 人,二等舱 184 人,三等舱 491 人,分别占总人数的 24%, 21%, 55%。海难发生后,一等舱、二等舱、三等舱的乘客人数变为136、87、119人,分别占总人数的 40%, 25%, 35%。一等舱生还率为 63%,二等舱为 47%,三等舱为 24%。可见客舱等级越高,生还率越高。

891 人中,891人中,男性共577人,女性314人,男女比例为 65% 和 35%。海难发生后,男性变为109人,女性变为233人,男女比例变为 32% 和 68%。男性生还109人,生还率仅为 19%。女性生还 233 人,生还率为 74%,远远高于男性的 19%。可见女性比男性在这次事故中更容易生还,表明“女士优先”的原则在本次事故中得到了发扬。

样本的 891 人中,平均年龄约为 30 岁, 标准差 15 岁,最小年龄为 0.42 ,最大年龄 80。按照儿童(0-12)、少年(12-18)、成人(18-65)、老年人(65及以上)划分为四类,四类人的生还率分别为58%, 48%, 39% 和 9%。可见年龄越大,生还率越低。“尊老爱幼”的原则在本次事故中没有很好体现。

有兄弟姐妹的乘客,生还 132 人,生还率为 47%,而没有兄弟姐妹的乘客,共生还 210 人,生还率为 35%。可见有兄弟姐妹同船的生还率比没有兄弟姐妹同船的生还率要高。

有父母或子女同船的乘客,生还 109 人,生还率为 51%。没有父母子女同船的乘客,生还 233 人,生还率仅为 34%。可见有父母或子女同船的生还率比没有的生还率要高。综合前一条分析,可以得出推论,有家人在船上的比没有家人在船上的生还概率要大。

票价与生还有一定相关性,生还者的平均票价要比未生还的高。

S 港口生还人数最多,C 次之, Q 最少。从生还率来看, C 港上船的生还率最高, Q 次之, S 生还率最低。

分析限制讨论

  1. 此数据并非全部乘客的数据,据了解,泰坦尼克号上共有乘客 2224 人,而本数据集共有 891 人。如果该数据集是从 2224 人中随机选出,根据中心极限定理,该样本也足够大,分析结果有代表性;如果不是随机选出,那么分析结果就不可靠了。
  2. 可能还有其他因素影响生还情况。比如乘客的国别是否与生还状况有关系?乘客的身高是否与生还状况有关系?乘客是否会游泳是否和生还情况有关系?

Views: 139

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注