电报超级群组分布式查询的MapReduce优化

Question

电报超级群组查询慢，MapReduce确实有用。首先说实战经验1.拆分消息，按照用户或时间，map并行化，reduce聚合，查询速度快。2.注意Telegram API限制，不要频繁调用，缓存中间结果。

宗典丽 · Accepted Answer

电报超级群组查询慢，MapReduce确实有用。首先说实战经验1.拆分消息，按照用户或时间，map并行化，reduce聚合，查询速度快。2.注意Telegram API限制，不要频繁调用，缓存中间结果。3.选择靠谱分布式框架，Hadoop或Spark，数据库选择ClickHouse。4.别只关注代码，参数调优，分片数，内存分配等。最后提醒，数据量大时，要结合业务场景取舍。

琴采波 · Answer

使用MapReduce优化Telegram超大群组查询可以加速。步骤：1. 数据拆分；2. Map并行计算；3. Reduce合并。注意去重和热点数据倾斜问题。建议实际部署采用Kafka+Spark方案。

冷欣美 · Answer

Telegram超大群数据查询卡死，MapReduce可以优化。
1. 拆数据，按用户id或者时间分区，分布式。
2. 在map阶段过滤脏数据，在reduce阶段汇总结果。
3. 选择Hadoop或Spark，Redis缓存热点数据。
注意消息的去重和索引优化，避免串行。

电报超级群组分布式查询的MapReduce优化

3 个回答

您的答案