生存分析报告
报告说明
一、数据处理
- 从网页下载
Telco-Customer-Churn.csv文件并上传服务器。 - 重点关注“Tenure”和“Churn”列。
- 定义数据模式,用Apache Spark读取数据,处理“churn”列,筛选月付、有互联网服务且订阅信息已知的用户。
二、Kaplan-Meier方法
1. 概述
非参数方法,用于估计生存函数,不依赖特定概率分布假设。
2. 代码实现与结果
- 使用lifelines库,提取“tenure”和“churn”列拟合模型并绘制生存曲线。
- 曲线显示客户订阅概率随时间下降,中位生存时间34个月。
3. 协变量评估
对数秩检验
原假设是不同组生存曲线等效,备择假设是至少有一组不同。
分析结果
具体结果分析请看报告
三、Cox比例风险模型
1. 概述
半参数回归模型,基于比例风险假设,探究协变量对事件发生风险的影响。
2. 代码实现
对4个协变量进行独热编码,拟合模型,结果显示有一定预测能力,协变量对风险率有显著影响。
3. 模型验证
三种方法: 统计检验,Schoenfied残线差分析,对数 - 对数Kaplan-Meier图分析。
四、加速失效时间模型
1. 概述
参数模型,假设协变量按比例加速或减速个体失效时间。
2. 代码实现
对8个协变量进行独热编码,拟合模型。
3. 假设验证
比例优势假设和分布假设均不成立。
五、客户生命周期价值
- 通过Cox比例风险模型预测客户流失概率,计算不同类型客户终身价值。
- 选择5个协变量拟合模型,计算不同合同月份生存概率、净现值及累计净现值并可视化。
- 确定最值得争取的客户群体并展示其累计NPV增长情况。
下载或查看报告
点击此处查看 PDF 文件
(或直接在下方预览)