报告说明

一、数据处理

  • 从网页下载Telco-Customer-Churn.csv文件并上传服务器。
  • 重点关注“Tenure”和“Churn”列。
  • 定义数据模式,用Apache Spark读取数据,处理“churn”列,筛选月付、有互联网服务且订阅信息已知的用户。

二、Kaplan-Meier方法

1. 概述

非参数方法,用于估计生存函数,不依赖特定概率分布假设。

2. 代码实现与结果

  • 使用lifelines库,提取“tenure”和“churn”列拟合模型并绘制生存曲线。
  • 曲线显示客户订阅概率随时间下降,中位生存时间34个月。

3. 协变量评估

对数秩检验

原假设是不同组生存曲线等效,备择假设是至少有一组不同。

分析结果

具体结果分析请看报告

三、Cox比例风险模型

1. 概述

半参数回归模型,基于比例风险假设,探究协变量对事件发生风险的影响。

2. 代码实现

对4个协变量进行独热编码,拟合模型,结果显示有一定预测能力,协变量对风险率有显著影响。

3. 模型验证

三种方法: 统计检验,Schoenfied残线差分析,对数 - 对数Kaplan-Meier图分析。

四、加速失效时间模型

1. 概述

参数模型,假设协变量按比例加速或减速个体失效时间。

2. 代码实现

对8个协变量进行独热编码,拟合模型。

3. 假设验证

比例优势假设和分布假设均不成立。

五、客户生命周期价值

  • 通过Cox比例风险模型预测客户流失概率,计算不同类型客户终身价值。
  • 选择5个协变量拟合模型,计算不同合同月份生存概率、净现值及累计净现值并可视化。
  • 确定最值得争取的客户群体并展示其累计NPV增长情况。

下载或查看报告

点击此处查看 PDF 文件
(或直接在下方预览)