相关问题
TG内容相似性检测的MinHash
Telegram官方并未公开内置MinHash去重功能。实践可分三步走:①抓取目标群聊历史消息,清洗文本格式;②用Python库如datasketch生成消息指纹,相似度阈值设0.85左右;③比对新消息与历史指纹库,超过阈值则标记为重复。
4 个点赞 2 回答 113 浏览
Telegram官方并未公开内置MinHash去重功能。实践可分三步走:①抓取目标群聊历史消息,清洗文本格式;②用Python库如datasketch生成消息指纹,相似度阈值设0.85左右;③比对新消息与历史指纹库,超过阈值则标记为重复。