TG超级群组消息去重的SimHash阈值

斋忻忻斋忻忻06月11日1120

tg超群消息去重simhash阈值多少合适?重复的消息太多,提高相似度的阈值,设置多少比较合适呢?

3 个回答

熊升荣
熊升荣回答于 06 月 11 日
最佳答案

SimHash阈值设置在0.85左右。重复太多时可以微调到0.9。但注意不要超过0.92,否则可能会误判正常消息为重复。调参要根据你的数据,建议用历史消息AB测试。

碧鲁昕靓
碧鲁昕靓回答于 06 月 11 日

SimHash阈值建议设置为3~4位汉明距离,具体数值根据你自己的消息特性来决定。可以先从4开始,再微调。

御靖荷
御靖荷回答于 06 月 12 日

SimHash阈值:3~4位差异较合适。实际调整可结合消息量级和重复率优化,阈值过高会遗漏近似重复消息,过低会导致误判。建议小范围测试后再全量使用。

您的答案