TG超级群组消息去重的SimHash阈值
3 个回答
SimHash阈值设置在0.85左右。重复太多时可以微调到0.9。但注意不要超过0.92,否则可能会误判正常消息为重复。调参要根据你的数据,建议用历史消息AB测试。
SimHash阈值建议设置为3~4位汉明距离,具体数值根据你自己的消息特性来决定。可以先从4开始,再微调。
SimHash阈值:3~4位差异较合适。实际调整可结合消息量级和重复率优化,阈值过高会遗漏近似重复消息,过低会导致误判。建议小范围测试后再全量使用。
SimHash阈值设置在0.85左右。重复太多时可以微调到0.9。但注意不要超过0.92,否则可能会误判正常消息为重复。调参要根据你的数据,建议用历史消息AB测试。
SimHash阈值建议设置为3~4位汉明距离,具体数值根据你自己的消息特性来决定。可以先从4开始,再微调。
SimHash阈值:3~4位差异较合适。实际调整可结合消息量级和重复率优化,阈值过高会遗漏近似重复消息,过低会导致误判。建议小范围测试后再全量使用。