Telegram机器人多模态交互,让机器人像老铁一样能言善语!多模态交互让机器人能听会说、能看会理解,让机器人的交互体验更佳~
说的对,多模态融合的关键就在于注意力机制。就是训练机器人学会“看重点”。图文混杂时,用交叉注意力来决定哪类信息更重要。试试ViT+Transformer,视觉、文本注意力权重动态变化。