相关问题
电报机器人的多模态输入识别融合策略
推荐使用Hugging Face 的 Transformers,可以处理文本、图像、声音。开源方案:Pyrogram + DeepPavlov,Whisper模型用于语音转文字,CLIP模型用于图片识别,最后加权投票或者置信度排序融合。
1 个点赞 2 回答 55 浏览
推荐使用Hugging Face 的 Transformers,可以处理文本、图像、声音。开源方案:Pyrogram + DeepPavlov,Whisper模型用于语音转文字,CLIP模型用于图片识别,最后加权投票或者置信度排序融合。