📊 客户流失生存分析报告

基于 Telco Customer Churn 数据集,对月付型互联网服务客户进行生存分析,探索影响客户留存时间的关键因素。


1. 研究目标与数据描述

本次分析旨在识别提前终止服务(流失)的风险因素,并量化各因素对客户“生存时间”(即客户持续使用服务的月数)的影响。数据集包含7043条记录,经筛选后保留3351名月付型且使用互联网服务的客户。主要变量包括:tenure(生存时间)、Churn(事件指示变量,1=流失,0=删失)及多个协变量(性别、老年公民、伴侣、依赖者、互联网服务类型、在线安全、在线备份等)。

2. Kaplan-Meier 生存分析

2.1 整体生存曲线

整体生存曲线
图1. 全部样本的Kaplan-Meier生存曲线

整体中位生存时间为34.0个月,最大观察时间为72个月。曲线显示随着时间推移,生存概率逐渐下降,前20个月流失加速,之后趋于平缓。

2.2 分组生存曲线与Log-rank检验

本节展示多个关键变量的分组生存曲线及log-rank检验结果,从原始输出中挑选了具有代表性的变量进行详细解读。

按性别分组

按性别分组的生存曲线
图2. 男女性别组生存曲线对比
分组检验统计量p值-log2(p)
Female vs Male2.03890.15332.705

性别间生存曲线无统计学显著差异(p>0.05)。

按老年公民 (SeniorCitizen) 分组

按老年公民分组的生存曲线
图7. 老年公民组生存曲线对比(Block2)
分组检验统计量p值-log2(p)
0 vs 10.12550.72320.4676

是否为老年公民对生存时间同样没有显著影响(p=0.72),说明年龄因素可能通过其他服务选择间接影响流失,而非直接作用。

按拥有伴侣 (Partner) 分组

按伴侣分组的生存曲线
图8. 是否有伴侣的生存曲线对比(Block2)
分组检验统计量p值-log2(p)
No vs Yes135.7592.25e-31101.81

没有伴侣的客户流失风险远高于有伴侣的客户(p<<0.001),说明家庭稳定性对客户粘性有强烈保护作用。

按有无家属 (Dependents) 分组

按家属分组的生存曲线
图9. 是否有家属的生存曲线对比(Block2)
分组检验统计量p值-log2(p)
No vs Yes35.0313.24e-0928.20

无家属的客户生存期更短,差异高度显著。该变量在后续Cox模型中也表现出独立的风险降低作用。

按在线安全 (OnlineSecurity) 分组

按在线安全分组的生存曲线
图3. “在线安全”有无对生存曲线的影响
分组检验统计量p值-log2(p)
No vs Yes141.6031.19e-32106.05

未购买在线安全服务的客户流失风险显著更高(p<<0.001)。

按在线备份 (OnlineBackup) 分组

按在线备份分组的生存曲线
图10. 在线备份服务对生存曲线的影响(Block2)
分组检验统计量p值-log2(p)
No vs Yes189.4834.12e-43140.80

未订阅在线备份的客户流失风险极高,log-rank检验统计量在所有变量中最大,提示在线备份可能是保留客户的关键服务之一。

按技术支持 (TechSupport) 分组

按技术支持分组的生存曲线
图11. 技术支持服务对生存曲线的影响(Block2)
分组检验统计量p值-log2(p)
No vs Yes90.4301.92e-2168.82

没有技术支持的客户流失概率同样显著更高,与Cox模型结果一致。

按流媒体电视 (StreamingTV) 分组

按流媒体电视分组的生存曲线
图12. 是否订阅流媒体电视的生存曲线对比(Block2)
分组检验统计量p值-log2(p)
No vs Yes12.9390.00032211.60

订阅流媒体电视的客户生存期略长,但差异相对较小,表明其影响可能弱于备份或技术支持类服务。

按无纸化账单 (PaperlessBilling) 分组

按无纸化账单分组的生存曲线
图13. 是否使用无纸化账单的生存曲线对比(Block2)
分组检验统计量p值-log2(p)
No vs Yes8.3410.003888.011

采用无纸化账单的客户流失风险略微升高(p<0.01),但效应量有限,可能与该群体更倾向纯线上交互有关。

按支付方式 (PaymentMethod) 分组

按支付方式分组的生存曲线
图14. 不同支付方式的生存曲线对比(Block2)
分组对比检验统计量p值-log2(p)
Bank transfer vs Credit card0.0620.8040.315
Bank transfer vs Electronic check91.1921.30e-2169.38
Bank transfer vs Mailed check43.5374.16e-1134.48
Credit card vs Electronic check79.9913.76e-1961.21
Credit card vs Mailed check39.6852.98e-1031.64
Electronic check vs Mailed check0.8980.3431.543

使用电子支票的客户流失率显著高于银行转账、信用卡和邮寄支票的客户,而银行转账与信用卡之间差异不显著。这表明支付方式的便捷性与忠诚度并不简单线性关联,电子支票用户可能整体价格敏感性更高。

按互联网服务类型 (InternetService) 分组

按互联网服务类型分组的生存曲线
图4. DSL与光纤客户生存曲线对比
分组检验统计量p值-log2(p)
DSL vs Fiber optic25.1735.24e-0720.86

使用DSL客户的生存期显著长于光纤客户。

电话服务和多线服务

PhoneService 的 log-rank 检验 p 值为 0.194,无显著差异;MultipleLines 的三组比较显示“无电话服务-否”与“是”之间存在显著差异(p<0.001),但“无电话服务”与“是”之间的比较未达显著水准,说明多线服务本身对生存的影响可能混杂了其他因素。

2.3 DSL客户早期生存概率

前10个月的生存概率序列如下(已保存至 survival_probs_dsl_first10months.csv):

时间(月)生存概率
01.000000
10.902698
20.864380
30.834702
40.810522
50.794352
60.783900
70.776362
80.768486
90.750833

DSL客户在前两个月生存概率下降较快,之后趋于平缓,说明新客户的初期流失需要重点关注。

3. Cox 比例风险回归模型

模型以四个具有显著影响且业务可解释的变量构建:是否有家属(Dependents_Yes)、是否为DSL用户(InternetService_DSL)、是否有在线备份(OnlineBackup_Yes)、是否有技术支持(TechSupport_Yes)。这四个协变量在单变量KM分析中也表现出高度显著性。Cox模型同时放入这些变量,控制了彼此之间的混杂效应。模型结果如下:

协变量系数(coef)风险比(exp(coef))标准误z值p值-log2(p)
Dependents_Yes-0.328650.71990.07086-4.6383.52e-0618.116
InternetService_DSL-0.217330.80470.05904-3.6812.32e-0412.073
OnlineBackup_Yes-0.776620.45990.05916-13.1282.28e-39128.37
TechSupport_Yes-0.639170.52770.07533-8.4852.16e-1755.360

所有系数的p值均小于0.001,表明这些变量对生存时间有极强的统计显著性。风险比(exp(coef)) <1 表示具有该特征的客户流失风险更低(生存期更长)。例如,有在线备份的客户流失风险比无备份者低约54%。该模型确认了在控制其他因素后,订阅附加服务(备份、技术支持)依然是保护客户的有力因素。

4. 比例风险假设检验

使用Schoenfeld残差法检验Cox模型的比例风险假设,结果如下:

Schoenfeld残差图
图5. 各协变量的Schoenfeld残差与时间的关系
Log-Log生存曲线
图6. 分类变量的log-log生存曲线(辅助诊断比例风险)

检验结果显示:

变量检验方法统计量p值结论
Dependents_Yeskm / rank1.48 / 0.810.22 / 0.37未违反假设
InternetService_DSLkm / rank20.98 / 26.71<0.005违反假设
OnlineBackup_Yeskm / rank17.80 / 17.47<0.005违反假设
TechSupport_Yeskm / rank8.09 / 13.76<0.005违反假设

三个变量(InternetService_DSL, OnlineBackup_Yes, TechSupport_Yes)均显著偏离比例风险假定。从Schoenfeld残差图(图5)中也可观察到部分变量的效应随时间变化。Log-log曲线(图6)中的交叉或非平行现象也支持了这一点。因此,建议在实际部署中考虑分层Cox模型或按时变系数扩展,但当前模型仍能为风险因素识别提供有价值的参考。

5. 结论与业务建议