如何在纸飞机数据抓取时通过随机化处理避免隐私侵犯?
1 个回答
先说清楚啊,抓取Telegram数据本身就有合规风险,特别是涉及个人信息的时候。
如果你非要这么做,可以参考下面几个点:
1. 采集阶段,只采集公开数据,避开手机号、地址、身份证号等敏感字段;
2. 采集完马上脱敏,比如把用户ID打乱,或者用哈希算法变成一串无意义字符;
3. 加点随机噪声,比如给数值类数据加减一个小范围的随机数,但别加太多,别影响判断;
4. 最好限制访问频率,别让系统误以为你在攻击;
5. 数据只保留必要时间,用完就删,别囤着。
最后提醒一下,Telegram也不是法外之地,合规合法才是正道。