电报机器人意图识别的BERT微调数据集

犁绿犁绿06月11日1176

最近想对telegram机器人做意图识别,用BERT微调训练模型,有现成的数据集吗?求推荐!

4 个回答

滤月光华
滤月光华回答于 06 月 11 日
最佳答案

Telegram机器人意图识别:没有公开的专用数据集,可以:1、使用公开的通用意图识别数据集(ATIS、SNIPS);2、自己收集 Telegram 对话日志并标注(爬虫+人工);3、在 Kaggle 搜索"intent classification dataset"。在微调时注意设置适合 Telegram 消息碎片化的 max_length。

丙夏烟
丙夏烟回答于 06 月 11 日

Telegram:没有提供现成数据集,但可以从公开群组对话中爬取并进行标注。推荐HuggingFace上开源的俄语/英语意图识别数据集。微调时注意清洗Telegram特有符号和表情。

朱凝海
朱凝海回答于 06 月 12 日

Telegram机器人意图识别微调BERT数据集很少,建议自建Telegram对话文本数据集,标注意图后训练BERT模型。参考公开数据集ATIS、SNIPS等。

御靖荷
御靖荷回答于 06 月 13 日

Telegram官方没有数据集提供。可以自己收集机器人对话日志,然后按照意图标注,然后用BERT进行微调。开源社区偶尔有人会放出类似的,可以尝试GitHub搜索"telegram intent dataset"。质量是最重要的,建议手动清洗标注。

您的答案