相关问题
Telegram超级群组消息去重的SimHash汉明距离
SimHash算汉明距离确实可以做消息去重,关键在于把文章变成固定长度的指纹,然后比较两指纹的差异数。
1 个点赞 2 回答 54 浏览TG超级群组消息去重的SimHash阈值
SimHash阈值设置在0.85左右。重复太多时可以微调到0.9。但注意不要超过0.92,否则可能会误判正常消息为重复。调参要根据你的数据,建议用历史消息AB测试。
8 个点赞 2 回答 176 浏览TG内容相似性检测的MinHash参数优化
MinHash调参可以尝试以下几个方面:1. 哈希次数256~512,越大越慢,越小越不精准;2. 取样量建议超过原文本的50%,取样太少容易丢失重要特征;3.
4 个点赞 2 回答 104 浏览TG群发怎么实现发送内容去重?
TG群发去重方法:1. 数据库、Excel等工具记录已发布内容,人工查重,人工推送;2. 搭建简单的脚本工具自动比对新旧内容哈希码,重复跳过;3. 如果是发链接,可以利用第三方工具检测链接是否被群组多次分享;4. 群主定期维护已推送内容清单,手动维护黑白名单;5. 不要完全自动,人工把关最保险。
18 个点赞 3 回答 1288 浏览