TG内容相似性检测的MinHash

典野云典野云06月11日665

最近在研究用MinHash算法对TG群的内容去重,但是不太懂,有大佬知道Telegram官方有没有这个功能或者有实践的可以分享一下思路嘛?

4 个回答

郜秀婉
郜秀婉回答于 06 月 11 日
最佳答案

Telegram官方并未公开内置MinHash去重功能。实践可分三步走:①抓取目标群聊历史消息,清洗文本格式;②用Python库如datasketch生成消息指纹,相似度阈值设0.85左右;③比对新消息与历史指纹库,超过阈值则标记为重复。注意TG消息中表情符号和链接的处理。实际部署建议结合Redis存储指纹库以提升查询效率。

渠晓君
渠晓君回答于 06 月 11 日

TG官方没有内置MinHash去重功能,但可以使用第三方工具实现。其核心思路是:将信息转换为特征向量,通过MinHash计算相似度阈值过滤重复信息。需要注意隐私保护和加密消息。

冷欣美
冷欣美回答于 06 月 12 日

Telegram官方无去重功能。MinHash适合海量文本比对,自行搭建系统。原理是将消息转换为指纹,指纹高相似度视为重复。注意TG有加密消息,需先解密。先抓取群聊历史,再通过MinHash哈希值比对,阈值可自行调节。Telegram不会帮你处理这些。

礼碧蓉
礼碧蓉回答于 06 月 13 日

TG官方没有MinHash去重功能。自己实现的话,主要步骤有:1.文本预处理(过滤emoji、链接等)2.shingle集合3.哈希签名4.相似度阈值。注意解决多语言乱码问题,实际可用性需要测试验证。

您的答案