TG 爬虫技术怎样处理网页中经过编码处理的多媒体文件链接提取?
1 个回答
首先,TG里好多多媒体链接是base64或者url编码的,需要解码才能看到真实地址。
Python里urllib.parse可以解url编码,base64可以用base64模块。
有些链接会拆成好多属性,比如data-xxx属性,需要拼接还原。
有的是动态生成的,这个时候需要抓包看请求,找到接口再解析。
建议用Selenium模拟浏览器运行,能解决大部分前端渲染的问题。
代码写好之后记得加异常处理,TG环境变化快,灵活调整很重要。
复杂的情况可以考虑逆向,不过门槛高点。
希望对你有帮助,有问题欢迎继续交流。