基于 Telco Customer Churn 数据集,对月付型互联网服务客户进行生存分析,探索影响客户留存时间的关键因素。
本次分析旨在识别提前终止服务(流失)的风险因素,并量化各因素对客户“生存时间”(即客户持续使用服务的月数)的影响。数据集包含7043条记录,经筛选后保留3351名月付型且使用互联网服务的客户。主要变量包括:tenure(生存时间)、Churn(事件指示变量,1=流失,0=删失)及多个协变量(性别、老年公民、伴侣、依赖者、互联网服务类型、在线安全、在线备份等)。
整体中位生存时间为34.0个月,最大观察时间为72个月。曲线显示随着时间推移,生存概率逐渐下降,前20个月流失加速,之后趋于平缓。
本节展示多个关键变量的分组生存曲线及log-rank检验结果,从原始输出中挑选了具有代表性的变量进行详细解读。
| 分组 | 检验统计量 | p值 | -log2(p) |
|---|---|---|---|
| Female vs Male | 2.0389 | 0.1533 | 2.705 |
性别间生存曲线无统计学显著差异(p>0.05)。
| 分组 | 检验统计量 | p值 | -log2(p) |
|---|---|---|---|
| 0 vs 1 | 0.1255 | 0.7232 | 0.4676 |
是否为老年公民对生存时间同样没有显著影响(p=0.72),说明年龄因素可能通过其他服务选择间接影响流失,而非直接作用。
| 分组 | 检验统计量 | p值 | -log2(p) |
|---|---|---|---|
| No vs Yes | 135.759 | 2.25e-31 | 101.81 |
没有伴侣的客户流失风险远高于有伴侣的客户(p<<0.001),说明家庭稳定性对客户粘性有强烈保护作用。
| 分组 | 检验统计量 | p值 | -log2(p) |
|---|---|---|---|
| No vs Yes | 35.031 | 3.24e-09 | 28.20 |
无家属的客户生存期更短,差异高度显著。该变量在后续Cox模型中也表现出独立的风险降低作用。
| 分组 | 检验统计量 | p值 | -log2(p) |
|---|---|---|---|
| No vs Yes | 141.603 | 1.19e-32 | 106.05 |
未购买在线安全服务的客户流失风险显著更高(p<<0.001)。
| 分组 | 检验统计量 | p值 | -log2(p) |
|---|---|---|---|
| No vs Yes | 189.483 | 4.12e-43 | 140.80 |
未订阅在线备份的客户流失风险极高,log-rank检验统计量在所有变量中最大,提示在线备份可能是保留客户的关键服务之一。
| 分组 | 检验统计量 | p值 | -log2(p) |
|---|---|---|---|
| No vs Yes | 90.430 | 1.92e-21 | 68.82 |
没有技术支持的客户流失概率同样显著更高,与Cox模型结果一致。
| 分组 | 检验统计量 | p值 | -log2(p) |
|---|---|---|---|
| No vs Yes | 12.939 | 0.000322 | 11.60 |
订阅流媒体电视的客户生存期略长,但差异相对较小,表明其影响可能弱于备份或技术支持类服务。
| 分组 | 检验统计量 | p值 | -log2(p) |
|---|---|---|---|
| No vs Yes | 8.341 | 0.00388 | 8.011 |
采用无纸化账单的客户流失风险略微升高(p<0.01),但效应量有限,可能与该群体更倾向纯线上交互有关。
| 分组对比 | 检验统计量 | p值 | -log2(p) |
|---|---|---|---|
| Bank transfer vs Credit card | 0.062 | 0.804 | 0.315 |
| Bank transfer vs Electronic check | 91.192 | 1.30e-21 | 69.38 |
| Bank transfer vs Mailed check | 43.537 | 4.16e-11 | 34.48 |
| Credit card vs Electronic check | 79.991 | 3.76e-19 | 61.21 |
| Credit card vs Mailed check | 39.685 | 2.98e-10 | 31.64 |
| Electronic check vs Mailed check | 0.898 | 0.343 | 1.543 |
使用电子支票的客户流失率显著高于银行转账、信用卡和邮寄支票的客户,而银行转账与信用卡之间差异不显著。这表明支付方式的便捷性与忠诚度并不简单线性关联,电子支票用户可能整体价格敏感性更高。
| 分组 | 检验统计量 | p值 | -log2(p) |
|---|---|---|---|
| DSL vs Fiber optic | 25.173 | 5.24e-07 | 20.86 |
使用DSL客户的生存期显著长于光纤客户。
PhoneService 的 log-rank 检验 p 值为 0.194,无显著差异;MultipleLines 的三组比较显示“无电话服务-否”与“是”之间存在显著差异(p<0.001),但“无电话服务”与“是”之间的比较未达显著水准,说明多线服务本身对生存的影响可能混杂了其他因素。
前10个月的生存概率序列如下(已保存至 survival_probs_dsl_first10months.csv):
| 时间(月) | 生存概率 |
|---|---|
| 0 | 1.000000 |
| 1 | 0.902698 |
| 2 | 0.864380 |
| 3 | 0.834702 |
| 4 | 0.810522 |
| 5 | 0.794352 |
| 6 | 0.783900 |
| 7 | 0.776362 |
| 8 | 0.768486 |
| 9 | 0.750833 |
DSL客户在前两个月生存概率下降较快,之后趋于平缓,说明新客户的初期流失需要重点关注。
模型以四个具有显著影响且业务可解释的变量构建:是否有家属(Dependents_Yes)、是否为DSL用户(InternetService_DSL)、是否有在线备份(OnlineBackup_Yes)、是否有技术支持(TechSupport_Yes)。这四个协变量在单变量KM分析中也表现出高度显著性。Cox模型同时放入这些变量,控制了彼此之间的混杂效应。模型结果如下:
| 协变量 | 系数(coef) | 风险比(exp(coef)) | 标准误 | z值 | p值 | -log2(p) |
|---|---|---|---|---|---|---|
| Dependents_Yes | -0.32865 | 0.7199 | 0.07086 | -4.638 | 3.52e-06 | 18.116 |
| InternetService_DSL | -0.21733 | 0.8047 | 0.05904 | -3.681 | 2.32e-04 | 12.073 |
| OnlineBackup_Yes | -0.77662 | 0.4599 | 0.05916 | -13.128 | 2.28e-39 | 128.37 |
| TechSupport_Yes | -0.63917 | 0.5277 | 0.07533 | -8.485 | 2.16e-17 | 55.360 |
所有系数的p值均小于0.001,表明这些变量对生存时间有极强的统计显著性。风险比(exp(coef)) <1 表示具有该特征的客户流失风险更低(生存期更长)。例如,有在线备份的客户流失风险比无备份者低约54%。该模型确认了在控制其他因素后,订阅附加服务(备份、技术支持)依然是保护客户的有力因素。
使用Schoenfeld残差法检验Cox模型的比例风险假设,结果如下:
检验结果显示:
| 变量 | 检验方法 | 统计量 | p值 | 结论 |
|---|---|---|---|---|
| Dependents_Yes | km / rank | 1.48 / 0.81 | 0.22 / 0.37 | 未违反假设 |
| InternetService_DSL | km / rank | 20.98 / 26.71 | <0.005 | 违反假设 |
| OnlineBackup_Yes | km / rank | 17.80 / 17.47 | <0.005 | 违反假设 |
| TechSupport_Yes | km / rank | 8.09 / 13.76 | <0.005 | 违反假设 |
三个变量(InternetService_DSL, OnlineBackup_Yes, TechSupport_Yes)均显著偏离比例风险假定。从Schoenfeld残差图(图5)中也可观察到部分变量的效应随时间变化。Log-log曲线(图6)中的交叉或非平行现象也支持了这一点。因此,建议在实际部署中考虑分层Cox模型或按时变系数扩展,但当前模型仍能为风险因素识别提供有价值的参考。