TG频道订阅者聚类分析的DBSCAN参数调优
4 个回答
兄弟,DBSCAN调参确实头疼。首先eps要根据密度来,数据稀疏就调大,min_samples建议3-5,用户少的频道可以更低。建议先做标准化,不然维度差异会让人抓狂。多跑几轮,多画图,不要钻牛角尖,灵活调参。
结论:DBSCAN调参关键在于用户行为密度差异,eps设为用户互动间隔标准差1.5倍左右,min_samples按照频道实际活跃用户占比反推(频道10000用户可能实际活跃不到2000,可以试3~5)。关键点在于可视化数据分布,边调边看,别执着于固定数值。
DBSCAN调参看数据分布。eps从0.5开始调,min_samples根据用户活跃度设置,活跃用户少的3~5,冷门频道可低。多画图看密度变化,调参看结果最靠谱。
兄弟,DBSCAN调参全靠蒙,eps从0.5起步,0.1递增看密度分布,min_samples建议3-5,用户量大的频道调高。先标准化,看核心点分布,别死磕参数!