纸飞机频道订阅者流失预测的生存分析模型参数
5 个回答
生存分析模型主要看三个参数:生存函数S(t)、风险函数h(t)、累积风险函数H(t)。首先,要确定观察期、流失定义,比如用户多长时间不活跃就算流失;其次,要选择协变量,比如活跃度、偏好等用户特征;最后,调参时注意截断时间和删失,防止数据偏差。有开源代码库可以参考,但需要根据自己业务调整。
生存分析调参三要点:1. 时间粒度选择 周/月 2. 删失编码选择 反向 3. 危险函数选择 Cox比例/Weibull函数。建议跑KM曲线观察趋势。
生存分析:调节参数:基准风险函数形式、协变量筛选方法、删失方法。Cox模型主要调节协变量交互项、时间依赖项;Kaplan-Meier模型主要调节分层标准。注意比例风险假设检验。
生存分析调参:风险函数的形状、删失、时间的粒度。Cox模型注意协变量的筛选、Kaplan-Meier适合无协变量场景。具体参数需要根据订阅者的行为数据分布来选择。
参数方面主要调这几个:进入事件时间,删失标识符,协变量权重,模型类型(cox or 随机生存森林)。建议先用cox baseline跑一遍,再逐步调优特征工程。最后,别忘了检验时间尺度假设!