TG频道订阅者分群的轮廓系数

Question

轮廓系数是衡量聚类效果的优秀指标。关键步骤：①用KMeans/SpectralClustering等方法聚类。②求样本到同类点/最近异类点的距离比值。③汇总所有样本的值，范围为-1~1，越接近1越好。

有优瑗 · Accepted Answer

轮廓系数是衡量聚类效果的优秀指标。关键步骤：①用KMeans/SpectralClustering等方法聚类。②求样本到同类点/最近异类点的距离比值。③汇总所有样本的值，范围为-1~1，越接近1越好。Python直接调用sklearn库的metrics.silhouette_score。注意样本数量多时会慢，可以抽样测试。聚类之前特征归一化效果更好。

程浩壤 · Answer

轮廓系数用来衡量聚类结果的好坏，越接近1表示分群越合理。在TG订阅者分群中，可以按照以下方式计算：①使用KMeans、DBSCAN等算法完成分群；②使用Python的sklearn库下的metrics调用silhouette_score；③对比不同分群数下的轮廓系数，选择数值最大对应的分群。建议用Jupyter Notebook快速验证，记得标准化数据哟～

始平卉 · Answer

轮廓系数评估聚类结果，数值越接近1分组越合理。具体：计算样本到簇内平均距离，再计算到最近簇的平均距离，带入公式。Python调用sklearn.metrics.silhouette_score，记得导入模块。数据预处理和特征选择也很重要。

函代巧 · Answer

轮廓系数评估TG聚类：1.计算类内距离、2.计算类间距离、3.计算轮廓系数。Python使用sklearn的silhouette_score函数直接计算轮廓系数，注意标准化和特征选择。轮廓系数高说明聚类合理，轮廓系数低说明参数或模型需要调整～

严胤文 · Answer

轮廓系数是衡量聚类好坏的标准，数值越接近1越好，具体步骤是:1.用Python跑完聚类 2.导入metrics模块计算轮廓系数 3.比较不同聚类方法的轮廓系数。注意，样本数量太少容易出现无法计算的情况。工具选择上用Python基础库就行，不要搞太复杂。
轮廓系数是衡量聚类好坏的标准，数值越接近1越好，具体步骤是:1.用Python跑完聚类 2.导入metrics模块计算轮廓系数 3.比较不同聚类方法的轮廓系数。注意，样本数量太少容易出现无法计算的情况。工具选择上用Python基础库就行，不要搞太复杂。

TG频道订阅者分群的轮廓系数

5 个回答

您的答案