catalogphp技巧_聊天机械人chatbot 演习数据集介绍

文章目录 [+]

（我敌人条这个插入外链接还不熟，把链接贴在了语料库的后边）

下面是15个整理了的最佳会话数据集[1]：

catalogphp技巧_聊天机械人chatbot 演习数据集介绍

Question-Answer Datasets 问答数据集

Question-Answer Dataset: http://www.cs.cmu.edu/~ark/QA-data/

（图片来自网络侵删）

该语料库包括维基百科文章，手动天生的仿真问题，以及手动天生的这些问题的答案，供学术研究利用。

The WikiQA Corpus: https://www.microsoft.com/en-us/download/details.aspx?id=52419&from=http%3A%2F%2Fresearch.microsoft.com%2Fapps%2Fmobile%2Fdownload.aspx%3Fp%3D4495da01-db8c-4041-a7f6-7984a4f6a905

一组公开可用的问题和句子对，网络和注释用于开放域问答的研究。
为了反响一样平常用户的真实信息需求，他们利用Bing查询日志作为问题来源。
每个问题都链接到可能有答案的维基百科页面。

Yahoo Language Data: https://webscope.sandbox.yahoo.com/catalog.php?datatype=l&guccounter=1

此页面供应来自雅虎的Yahoo Answers手动策划的QA数据集。
（页面最下面还有其他的数据集，如下图：）

雅虎数据集

Customer Support Datasets 客户支持数据集

Ubuntu Dialogue Corpus:

链接1：https://www.kaggle.com/rtatman/ubuntu-dialogue-corpus

链接2：http://dataset.cs.mcgill.ca/ubuntu-corpus-1.0/

包含从Ubuntu谈天日志中提取的近100万个双人对话，用于吸收各种与Ubuntu干系的问题的技能支持。
完全数据集包含930,000个对话和100,000,000多个单词。
上面我附加了两个链接，第二个链接里面供应了语料库最新的第二版。

Relational Strategies in Customer Service Dataset: https://s3-us-west-2.amazonaws.com/nextit-public/rsics.html

来自四个旅行干系客户做事数据的凑集。
2016年8月，在TripAdvisor.com上的三个商业客户做事IVA和航空公司论坛的对话日志。

Customer Support on Twitter: https://www.kaggle.com/thoughtvector/customer-support-on-twitter

这个关于Kaggle的数据集包含超过300万条推文以及Twitter上大品牌的回答。

Dialogue Datasets 对话数据集

Semantic Web Interest Group IRC Chat Logs: http://chatlogs.planetrdf.com/swig/

这个自动天生的IRC谈天日志在RDF中可用，每年都可以利用，包括韶光戳和昵称。

Cornell Movie-Dialogs Corpus: http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

该语料库包含从原始电影剧本中提取的大量元数据丰富的虚构对话凑集：10,292对电影角色之间的220,579个对话交流，涉及617部电影中的9,035个字符。

ConvAI2 Dataset: http://convai.io/data/

数据集包含超过2000个PersonaChat竞赛对话，人工评估员通过众包平台Yandex.Toloka与团队提交的机器人谈天。

Santa Barbara Corpus of Spoken American English: https://www.linguistics.ucsb.edu/research/santa-barbara-corpus

该数据集包括大约249,000个单词语调单元级别的转录，音频和韶光戳。

The NPS Chat Corpus: http://faculty.nps.edu/cmartell/NPSChat.htm

该语料库包括根据他们的做事条款从各种在线谈天做事大约从500,000个帖子中网络的10,567个帖子。

Maluuba Goal-Oriented Dialogue: https://datasets.maluuba.com/Frames

开放式对话数据集，个中对话旨在完成任务或做出决定 - 特殊是探求航班和酒店。
该数据集包含繁芜的对话和决策，涵盖250多家酒店，航班和目的地。

Multi-Domain Wizard-of-Oz dataset (MultiWOZ): http://dialogue.mi.eng.cam.ac.uk/index.php/corpus/

跨多个域和主题的完备标记的书面对话凑集。
该数据集包含10k对话，并且比以前所有注释的面向任务的语料库大至少一个数量级。

Multilingual Chatbot Datasets 多措辞谈天机器人数据集

NUS Corpus: https://github.com/kite1988/nus-sms-corpus

这个语料库是为社交媒体文本规范化和翻译而创建的。
它是通过重新加坡国立大学英语短信语料库中随机选择2,000条然后翻译成正式中文而构建的。

EXCITEMENT Datasets: https://github.com/hltfbk/EOP-1.2.1/wiki/Data-Sets#data-sets-that-have-to-be-downloaded-separately

这些数据集以英语和意大利语供应，包含来自客户的负面反馈，个中解释了对给定公司不满的缘故原由。

Reference：

[1]. 15 Best Chatbot Datasets for Machine Learning: https://lionbridge.ai/datasets/15-best-chatbot-datasets-for-machine-learning/

标签：语料库数据

catalogphp技巧_聊天机械人chatbot 演习数据集介绍

相关文章

介绍直播新纪元,轻松进入直播的五大步骤

介绍相机美颜原理,科技与美学的完美结合

介绍硬币眼测,古老的智慧与现代科学的完美结合

介绍磁铁的制造,科学与艺术的完美结合

介绍电瓶激活方法,让电池焕发新生

介绍电脑新时代,探索电脑开锁的奥秘与方法

最近发表

文件下载道理PHP技巧_PHP文件下载怎么做可以参考一下它

山东it培训php技巧_盘点山东IT培训机构鱼龙混杂若何选择

易游变量php技巧_客运起身长白山好风凭借力内外部改进推动业绩进入高增阶段

济南后端php雇用技巧_壹点送岗12家济南市属国有企业集中招聘610人

php若何切换中文技巧_4项技巧使你不再为PHP中文编码忧

php设计对战游戏技巧_若何塑造成功的仇敌并做到物尽其用聊聊游戏中的怪物设计

php若何登录页面技巧_用PHP制作一个简单的注册登录页面

php正则截取目次技巧_php用正则表达式提取文章中的图片地址用于文章列表中显示

tazpkgphp技巧_不容错过的 5 个微型 Linux 发行版

ftp上传到php技巧_PHP操作FTP类实现上传下载移动创建的方法

热门文章

标签列表

« 2025年1月 »
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31