TG 爬虫技术怎样处理网页中经过编码处理的多媒体文件链接提取?

哀谷蕊哀谷蕊09月19日442

在爬取Telegram数据的时候,会发现很多视频和图片的链接都是经过编码的,该如何正确的提取这些链接呢?有没有什么方法或者工具推荐呢?

1 个回答

卑奕叶
卑奕叶回答于 09 月 19 日
最佳答案

首先,TG里好多多媒体链接是base64或者url编码的,需要解码才能看到真实地址。

Python里urllib.parse可以解url编码,base64可以用base64模块。

有些链接会拆成好多属性,比如data-xxx属性,需要拼接还原。

有的是动态生成的,这个时候需要抓包看请求,找到接口再解析。

建议用Selenium模拟浏览器运行,能解决大部分前端渲染的问题。

代码写好之后记得加异常处理,TG环境变化快,灵活调整很重要。

复杂的情况可以考虑逆向,不过门槛高点。

希望对你有帮助,有问题欢迎继续交流。

您的答案