如何在纸飞机数据抓取时通过随机化处理避免隐私侵犯?

承水悦承水悦09月29日487

在 Telegram 上抓取纸飞机的数据,担心泄露用户信息,怎么加点随机化保护一下?

1 个回答

熊升荣
熊升荣回答于 09 月 29 日
最佳答案

先说清楚啊,抓取Telegram数据本身就有合规风险,特别是涉及个人信息的时候。

如果你非要这么做,可以参考下面几个点:

1. 采集阶段,只采集公开数据,避开手机号、地址、身份证号等敏感字段;

2. 采集完马上脱敏,比如把用户ID打乱,或者用哈希算法变成一串无意义字符;

3. 加点随机噪声,比如给数值类数据加减一个小范围的随机数,但别加太多,别影响判断;

4. 最好限制访问频率,别让系统误以为你在攻击;

5. 数据只保留必要时间,用完就删,别囤着。

最后提醒一下,Telegram也不是法外之地,合规合法才是正道。

您的答案