首页 » 网站推广 » catalogphp技巧_聊天机械人chatbot 演习数据集介绍

catalogphp技巧_聊天机械人chatbot 演习数据集介绍

访客 2024-11-24 0

扫一扫用手机浏览

文章目录 [+]

(我敌人条这个插入外链接还不熟,把链接贴在了语料库的后边)

下面是15个整理了的最佳会话数据集[1]:

catalogphp技巧_聊天机械人chatbot 演习数据集介绍

Question-Answer Datasets 问答数据集

Question-Answer Dataset: http://www.cs.cmu.edu/~ark/QA-data/

catalogphp技巧_聊天机械人chatbot 演习数据集介绍
(图片来自网络侵删)

该语料库包括维基百科文章,手动天生的仿真问题,以及手动天生的这些问题的答案,供学术研究利用。

The WikiQA Corpus: https://www.microsoft.com/en-us/download/details.aspx?id=52419&from=http%3A%2F%2Fresearch.microsoft.com%2Fapps%2Fmobile%2Fdownload.aspx%3Fp%3D4495da01-db8c-4041-a7f6-7984a4f6a905

一组公开可用的问题和句子对,网络和注释用于开放域问答的研究。
为了反响一样平常用户的真实信息需求,他们利用Bing查询日志作为问题来源。
每个问题都链接到可能有答案的维基百科页面。

Yahoo Language Data: https://webscope.sandbox.yahoo.com/catalog.php?datatype=l&guccounter=1

此页面供应来自雅虎的Yahoo Answers手动策划的QA数据集。
(页面最下面还有其他的数据集,如下图:)

雅虎数据集

Customer Support Datasets 客户支持数据集

Ubuntu Dialogue Corpus:

链接1:https://www.kaggle.com/rtatman/ubuntu-dialogue-corpus

链接2:http://dataset.cs.mcgill.ca/ubuntu-corpus-1.0/

包含从Ubuntu谈天日志中提取的近100万个双人对话,用于吸收各种与Ubuntu干系的问题的技能支持。
完全数据集包含930,000个对话和100,000,000多个单词。
上面我附加了两个链接,第二个链接里面供应了语料库最新的第二版。

Relational Strategies in Customer Service Dataset: https://s3-us-west-2.amazonaws.com/nextit-public/rsics.html

来自四个旅行干系客户做事数据的凑集。
2016年8月,在TripAdvisor.com上的三个商业客户做事IVA和航空公司论坛的对话日志。

Customer Support on Twitter: https://www.kaggle.com/thoughtvector/customer-support-on-twitter

这个关于Kaggle的数据集包含超过300万条推文以及Twitter上大品牌的回答。

Dialogue Datasets 对话数据集

Semantic Web Interest Group IRC Chat Logs: http://chatlogs.planetrdf.com/swig/

这个自动天生的IRC谈天日志在RDF中可用,每年都可以利用,包括韶光戳和昵称。

Cornell Movie-Dialogs Corpus: http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

该语料库包含从原始电影剧本中提取的大量元数据丰富的虚构对话凑集:10,292对电影角色之间的220,579个对话交流,涉及617部电影中的9,035个字符。

ConvAI2 Dataset: http://convai.io/data/

数据集包含超过2000个PersonaChat竞赛对话,人工评估员通过众包平台Yandex.Toloka与团队提交的机器人谈天。

Santa Barbara Corpus of Spoken American English: https://www.linguistics.ucsb.edu/research/santa-barbara-corpus

该数据集包括大约249,000个单词语调单元级别的转录,音频和韶光戳。

The NPS Chat Corpus: http://faculty.nps.edu/cmartell/NPSChat.htm

该语料库包括根据他们的做事条款从各种在线谈天做事大约从500,000个帖子中网络的10,567个帖子。

Maluuba Goal-Oriented Dialogue: https://datasets.maluuba.com/Frames

开放式对话数据集,个中对话旨在完成任务或做出决定 - 特殊是探求航班和酒店。
该数据集包含繁芜的对话和决策,涵盖250多家酒店,航班和目的地。

Multi-Domain Wizard-of-Oz dataset (MultiWOZ): http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/

跨多个域和主题的完备标记的书面对话凑集。
该数据集包含10k对话,并且比以前所有注释的面向任务的语料库大至少一个数量级。

Multilingual Chatbot Datasets 多措辞谈天机器人数据集

NUS Corpus: https://github.com/kite1988/nus-sms-corpus

这个语料库是为社交媒体文本规范化和翻译而创建的。
它是通过重新加坡国立大学英语短信语料库中随机选择2,000条然后翻译成正式中文而构建的。

EXCITEMENT Datasets: https://github.com/hltfbk/EOP-1.2.1/wiki/Data-Sets#data-sets-that-have-to-be-downloaded-separately

这些数据集以英语和意大利语供应,包含来自客户的负面反馈,个中解释了对给定公司不满的缘故原由。

Reference:

[1]. 15 Best Chatbot Datasets for Machine Learning: https://lionbridge.ai/datasets/15-best-chatbot-datasets-for-machine-learning/

相关文章

介绍直播新纪元,轻松进入直播的五大步骤

随着互联网技术的飞速发展,直播行业在我国逐渐崛起,越来越多的人选择通过直播这一新兴媒介展示自己、分享生活、传递价值。对于许多新手来...

网站推广 2025-01-03 阅读1 评论0

介绍相机美颜原理,科技与美学的完美结合

随着科技的发展,智能手机的摄像头功能日益强大,美颜相机成为了许多人拍照的首选。美颜相机不仅满足了人们对于美的追求,更在视觉上给人带...

网站推广 2025-01-03 阅读1 评论0

介绍磁铁的制造,科学与艺术的完美结合

磁铁,一种神秘的物质,自古以来就吸引了无数人的目光。它不仅具有独特的磁性,还能在工业、医疗、科研等领域发挥重要作用。磁铁是如何制造...

网站推广 2025-01-03 阅读1 评论0

介绍电瓶激活方法,让电池焕发新生

随着科技的不断发展,电动汽车逐渐成为人们出行的首选。而电瓶作为电动汽车的核心部件,其性能直接影响着车辆的续航里程和行驶体验。新购买...

网站推广 2025-01-03 阅读1 评论0