(我敌人条这个插入外链接还不熟,把链接贴在了语料库的后边)
下面是15个整理了的最佳会话数据集[1]:
Question-Answer Dataset: http://www.cs.cmu.edu/~ark/QA-data/

该语料库包括维基百科文章,手动天生的仿真问题,以及手动天生的这些问题的答案,供学术研究利用。
The WikiQA Corpus: https://www.microsoft.com/en-us/download/details.aspx?id=52419&from=http%3A%2F%2Fresearch.microsoft.com%2Fapps%2Fmobile%2Fdownload.aspx%3Fp%3D4495da01-db8c-4041-a7f6-7984a4f6a905
一组公开可用的问题和句子对,网络和注释用于开放域问答的研究。为了反响一样平常用户的真实信息需求,他们利用Bing查询日志作为问题来源。每个问题都链接到可能有答案的维基百科页面。
Yahoo Language Data: https://webscope.sandbox.yahoo.com/catalog.php?datatype=l&guccounter=1
此页面供应来自雅虎的Yahoo Answers手动策划的QA数据集。(页面最下面还有其他的数据集,如下图:)
雅虎数据集
Customer Support Datasets 客户支持数据集Ubuntu Dialogue Corpus:
链接1:https://www.kaggle.com/rtatman/ubuntu-dialogue-corpus
链接2:http://dataset.cs.mcgill.ca/ubuntu-corpus-1.0/
包含从Ubuntu谈天日志中提取的近100万个双人对话,用于吸收各种与Ubuntu干系的问题的技能支持。完全数据集包含930,000个对话和100,000,000多个单词。上面我附加了两个链接,第二个链接里面供应了语料库最新的第二版。
Relational Strategies in Customer Service Dataset: https://s3-us-west-2.amazonaws.com/nextit-public/rsics.html
来自四个旅行干系客户做事数据的凑集。2016年8月,在TripAdvisor.com上的三个商业客户做事IVA和航空公司论坛的对话日志。
Customer Support on Twitter: https://www.kaggle.com/thoughtvector/customer-support-on-twitter
这个关于Kaggle的数据集包含超过300万条推文以及Twitter上大品牌的回答。
Dialogue Datasets 对话数据集Semantic Web Interest Group IRC Chat Logs: http://chatlogs.planetrdf.com/swig/
这个自动天生的IRC谈天日志在RDF中可用,每年都可以利用,包括韶光戳和昵称。
Cornell Movie-Dialogs Corpus: http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
该语料库包含从原始电影剧本中提取的大量元数据丰富的虚构对话凑集:10,292对电影角色之间的220,579个对话交流,涉及617部电影中的9,035个字符。
ConvAI2 Dataset: http://convai.io/data/
数据集包含超过2000个PersonaChat竞赛对话,人工评估员通过众包平台Yandex.Toloka与团队提交的机器人谈天。
Santa Barbara Corpus of Spoken American English: https://www.linguistics.ucsb.edu/research/santa-barbara-corpus
该数据集包括大约249,000个单词语调单元级别的转录,音频和韶光戳。
The NPS Chat Corpus: http://faculty.nps.edu/cmartell/NPSChat.htm
该语料库包括根据他们的做事条款从各种在线谈天做事大约从500,000个帖子中网络的10,567个帖子。
Maluuba Goal-Oriented Dialogue: https://datasets.maluuba.com/Frames
开放式对话数据集,个中对话旨在完成任务或做出决定 - 特殊是探求航班和酒店。该数据集包含繁芜的对话和决策,涵盖250多家酒店,航班和目的地。
Multi-Domain Wizard-of-Oz dataset (MultiWOZ): http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/
跨多个域和主题的完备标记的书面对话凑集。该数据集包含10k对话,并且比以前所有注释的面向任务的语料库大至少一个数量级。
Multilingual Chatbot Datasets 多措辞谈天机器人数据集NUS Corpus: https://github.com/kite1988/nus-sms-corpus
这个语料库是为社交媒体文本规范化和翻译而创建的。它是通过重新加坡国立大学英语短信语料库中随机选择2,000条然后翻译成正式中文而构建的。
EXCITEMENT Datasets: https://github.com/hltfbk/EOP-1.2.1/wiki/Data-Sets#data-sets-that-have-to-be-downloaded-separately
这些数据集以英语和意大利语供应,包含来自客户的负面反馈,个中解释了对给定公司不满的缘故原由。
Reference:[1]. 15 Best Chatbot Datasets for Machine Learning: https://lionbridge.ai/datasets/15-best-chatbot-datasets-for-machine-learning/