TG机器人对话系统的实体链接精度优化
5 个回答
实体链接:关键在训练集,标注越标准模型越精准,调整参数主要学习率和批次,别搞太复杂的层了。如果有足够多的时间的话,加入Telegram独有的语境特征,比如群标签、缩写等等,可以极大提升精度。别忘了定期用新的对话数据做增量训练。
实体链接优化需先评估数据质量,训练集需包含高频实体及上下文场景。参数优化优先调整embedding大小及学习率。尝试用BERT+CRF模型架构。添加领域词典兜底兜住长尾实体。
实体链接优化:1)训练集质量;2)上下文建模;3)后处理策略。优先使用领域内高质量对话数据微调模型,参数调节学习率与batch_size,切勿贪多。线上推理时结合用户历史对话进行语义增强。
实体链接优化三原则:训练集、特征、参数。优先使用垂直领域语料,参数从学习率和batch size入手,避免盲目扩充数据。
实体链接的优化可以考虑以下几个点:
1. 训练集需要选取高质量且全面覆盖的对话数据,尽量贴近自己的业务。
2. 调整参数主要调整实体识别层和上下文理解层的学习率、dropout的比例。
3. 可以加入领域字典约束,提高小众实体召回。
4. 多用验证集监控,不要只看loss,要看实际命中变化。
5. 如果资源允许的话,微调预训练模型效果比从头训练要好很多。
保留反馈通道,用户的纠正是最有价值的数据。