大数据文摘作品,转载请注明来源
编译 | Jennifer Zhu,张礼俊,bill,杨捷,Aileen
全文择要:

□ 追踪人工智能中的核心未办理问题可以使我们坦诚地理解尚待实现的任务,并走向“强人工智能”(general artificial intelligence)。
□ 本文讲述了目前识别到的29个开放问题。
□ 我们对每个紧张问题都提出了示例测试的建议,用以评估研究进展。
弁言
本文列出了人工智能中的开放性问题,根据人工智能路线图研究所重点关注的“ 开放性研究问题 ”主题,简要先容该领域的最大寻衅和现有技能水平。(译者注:人工智能路线图研究所是一个旨在研究和比较由人工智能领域事情者提出的各种人工智能路线图的新机构。)
这些寻衅可分为:人工智能完备(AI-complete)问题,封闭域问题,以及知识推理、学习和觉得运动能力的基本问题。(译者注:对付打算机来说最困难的问题,被非正式地称为“人工智能完备”(AI-complete)的,以此解释办理了这些打算性问题就相称于办理了人工智能的核心问题——让打算机和人类或者强人工智能一样聪明。)
可以预见的是,作为第一次对人工智能开放性问题的调研,下面的清单难免有疏漏之处。欢迎读者供应反馈。
为了促进强人工智能的发展,GoodAI(https://www.goodai.com/)正在组织强人工智能寻衅赛。这个比赛旨在通过从2017年初开始的一系列里程碑寻衅赛办理下面列出的一些问题。(译者注:早在1956年,人工智能的先驱们就梦想着用当时刚刚涌现的打算机来布局繁芜的、拥有与人类聪慧同样实质特性的机器。这便是我们现在所说的“强人工智能”。这个无所不能的机器,有着我们所有的感知(乃至比人更多),我们所有的理性,可以像我们一样思考。而GoodAI是一家捷克公司,他们的长期目标是开拓出能够实现科学、技能、商业等领域自动认知过程的通用人工智能。)
来源,方法和干系事情
本文罗列的人工智能问题来源于以下领域的文献:
● 机器学习
● 机器感知和机器人
● 开源人工智能问题
● 人工智能系统的评估
● 测试人类水准的人工智能的实现
● 基准和竞赛
筛选本文研究问题的三个标准如下:
1. 必须与强人工智能的实现高度干系
2. 问题有封闭的范围,不接管开放式扩展
3. 可被测试
这些问题所在的范围不同但常有交集。个中一些问题可以被完备包含在其他问题中。第二个标准(封闭范围)打消了一些有趣的问题,比如学习人类的所有职业;几个这种类型的问题将列在紧张问题之后。为了确保问题具有可测试性,每个问题之后都附有示例测试。
下面列出的几个网站供应了一些具有寻衅性的人工智能问题:
● 知识推理问题页面(http://commonsensereasoning.org/problem_page.html)提出了几个知识推理领域中的问题,例如“普通生理学”(与心智理论和社会认知干系)和“物理推理”(与直不雅观/朴素物理学干系)。
● 知识推理的Winograd架构页面 (http://commonsensereasoning.org/winograd.html)先容了Winograd架构和其他须要理解这个天下才可以办理的代词歧义问题。(译者注:Winograd架构是一个比图灵测试更有效的方法来确定一个打算机程序是否具有展示智能的能力。它不雅观察打算机程序是否能够利用大量的知识来精确推理出故意含混的语句。而代词消歧问题是参与寻衅的打算机程序须要回答一种分外但大略单纯的知识问题。人类可以根据知识和高下文信息理解代词的意义,但对这人工智能系统来说这是个很大的寻衅。)
● OpenAI的研究要求 (https://openai.com/requests-for-research/)展示了不同难度的机器学习问题,强调深层和强化学习。(译者注:OpenAI是微软与马斯克所创建的位于美国旧金山的人工智能研究团队。)
● AI•ON列出的开放式研究问题(http://ai-on.org/projects/)包含人工智能的运用问题和基本问题,同时强调深度学习。(译者注:AI•ON是一个致力于推进人工智能的开放社区。)
人工智能的寻衅
本文剩下的部分将按下面的顺序列出人工智能领域的一些寻衅:
1. 人工智能完备问题
2. 闭域问题
3. 共同推理
4. 学习
5. 觉得运动问题
人工智能完备问题
人工智能完备问题包含了所有或绝大多数符合人类智力水平的强人工智能问题。这个种别中的一些问题如下所列:
1. 开放领域对话(Open-domain dialog)
2. 文本理解
3. 机器翻译
4. 人类智力和能力测试
5. 核心解析(Winograd构架)
6. 复合词理解
(1)开放领域对话
开放领域对话是指与人进行事先未知话题的谈论。这里的寻衅包括措辞理解、对话语法和探索天下。任务的版本包括口头和书面对话,并可扩展至多模式交互(例如姿势输入和多媒体输出)。可能成功的标准包含有用性以及实行对话贴近人类对话的能力(“ 图灵测试 ”)。(译者注:图灵测试是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。)
测试
对话系统常日由人工进行评估。此过程已实现的事宜包括:
1. Loebner奖 (译者注:纽约的善士Hugh Loebner组织了首次正式的图灵测试。从1991年起,每年举行一次这样的竞赛,个中机器反应与人类反应最难差异的打算机将得到100000美元的奖金和一块金牌。)
2. 机器人谈天寻衅(http://www.robochatchallenge.com/)(译者注:2012年起开始举办的人工智能谈天竞赛。)
(2)文本理解
文本理解是一个尚待办理的问题。只管问题解答领域已取得了显著的进展,但当须要利用超越文本的知识或天下知识去理解时,现有的人工智能文本理解系统就会面临问题。
测试
1. McCarthy(1976)供应了一个早期文本理解的寻衅问题。(shttp://www-formal.stanford.edu/jmc/mrhug/mrhug.html)
2. Brachman(2006)提出了阅读教科书和解决教科书练习的问题。
(3)机器翻译
机器翻译是人工智能完备的,由于它包括那些有关认知天下的问题(例如下面将谈论的核心解析问题)。
测试
虽然翻译质量可以利用平行的语料库进行自动评估,但终极仍须要人工来剖断测试的结果。例如当代美国英语语料库 (Davies,2008)包含了来自不同类型的文本样本。翻译质量可以利用以下样本进行评估:
1. 报纸文本
2. 小说
3. 口语翻译
(4)智能测试
人类智力和能力测试(http://allminds.org/)对其设计的人类利用影象很难或不可能实现的问题很感兴趣。人类水平的人工智能性能已经被宣布用于Raven的渐进矩阵(Lovett和Forbus,2017),但人工智能系统仍旧缺少一样平常的推理以及同时处理各种问题的能力( Hernández-Orallo ,2016b)(http://allminds.org/)。
测试
Brachman(2006)建议利用SAT(https://en.wikipedia.org/wiki/SAT)作为人工智能的寻衅问题。(译者注:SAT是美国大学入学考试。)
Coreference resolution
The overlapping problems of coreference resolution, pronoun disambiguation, and Winograd schemas require picking out the referents of pronouns or noun phrases.
Tests
1. Davis (2011) lists 144 Winograd schemas.
2. Commonsense Reasoning (2016b) lists pronoun disambiguation problems: 62 sample problems and 60 problems used in the first Winograd Schema Challenge, held at IJCAI-16.
(5)核心解析
核心解析、代词消歧和Winograd构架的重叠问题须要人工智能系统能指出代词或名词短语所指代的内容。
测试
1. Davis(2011)(http://www.cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WSCollection.html)列出了144个Winograd构架。
2. Commonsense Reasoning(2016b)列出了代词消歧问题:在IJCAI -16举行的第一次Winograd构架寻衅赛中利用62个样本问题和60个问题(http://www.cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html)。
Tests
1. “The meaning of noun phrases” at (Commonsense Reasoning, 2015)
(6)复合词理解
多种措辞存在具有特定含义的复合词,而我们也擅于预测新涌现的复合词的意思。比如我们知道水鸟是一种生活在水面附近的鸟类,而不是由水构成的。
测试
“ 名词短语的含义 ” (http://commonsensereasoning.org/problem_page.html#nounphrases)
闭域问题
闭域问题是将主要的智力成分结合起来、并通过将自己限定在一个特定的知识领域来降落难度的问题。游戏玩家代理是个中的一个例子。人工智能代理已经在围棋和最近的扑克上实现了超越人类的表现。尚待办理的问题有:
1. 从描述中学习玩棋盘、卡片和砖瓦游戏
2. 根据描述天生程序
3. 源代码理解
(7)从描述中学习玩棋盘、卡片和砖瓦游戏
与专业游戏玩家不同,人工智能系统须要从对规则的描述中学习新游戏,并且不能依赖于针对特定游戏预先设计的算法。
测试
1. 在AAAI会议上,从正式措辞的描述中学习新游戏的问题已经成为人工智能的一个寻衅(http://www.aaai.org/Conferences/AAAI/2013/aaai13games.php)。
2. 更具寻衅性的是从自然措辞描述中学习游戏; 这样的卡片和瓦片游戏的描述可从许多网站得到。
(8)根据描述天生程序
用编程措辞来天生程序,例如C措辞显然是实际运用中的一个兴趣点。
测试
OpenAI提出的“ Description2Code ”(https://openai.com/requests-for-research/#description2code)寻衅中列出了Ethan Caballero网络5000个程序描述。
(9)理解源代码
与源代码天生干系的是源代码理解,个中人工智能系统可以阐明代码的语义并检测代码中可能涌现的反常或与作者意图不一致的情形。 Allamanis等人(2016)(https://arxiv.org/abs/1602.03001)报告了过程名称预测的进展。
测试
国际模糊C代码竞赛 (OCCC,2016)发布了“难以理解”的代码。源代码理解可被认为是一种由人工评判的提高代码可读性的能力。
知识推理
知识推理可以说是通用人工智能的核心要素。该领域紧张问题如下:
1.因果推断
2.反事实推断
3.直觉物理
4.直觉生理学
(10)因果推断
因果推断须要识别并运用缘故原由-结果之间的联系。
测试
1.“证据的可信度”(可查看Commonsense Reasoning, 2015)
2.“狼和兔子”(可查看Commonsense Reasoning, 2015)
(11)反事实推断
反事实推断被用以回答假设问题。它利用因果推断和系统中的其他仿照及推理能力,来考虑事实与现实相反的情境。(译者注:反事实推断的例子:小明有高血压,现在想要知道一种降压药对降血压有没有因果效应。如果小明吃了药,那么此时,事实是小明吃了药,结果是小明吃了药之后血压有没有低落。反事实便是,小明没有吃药,由于不是事实以是我们无法不雅观察到没有吃药对小明有什么影响。无法不雅观察到反事实时的结果也被称为因果推断关键问题(fundamental problem of causal inference)。)
测试
1.“残酷且不屈常的耶鲁射击问题” (可查看Commonsense Reasoning, 2015)
(12)直觉物理
对物质天下的基本理解,包括物体存继性和预测可能轨迹的能力,能帮助智能体更快的学习并做出预测。
测试
1.“物理推断”(可查看Commonsense Reasoning, 2015)
2.“把手问题”(可查看Commonsense Reasoning, 2015)
(13)直觉生理学
直觉生理学,亦称心灵理论,能够让智能体理解目标和信念,并且从其他智能体的行为中做出推断。
测试
1.“朴素生理学”(可查看Commonsense Reasoning, 2015)
学习
除了在机器学习领域巨大的发展,很多和学习干系的主要问题依然尚未办理。它们包括:
1.渐进学习
2.无监督学习
3.强泛化
4.从少数样本中种别学习
5.学会学习
6.组成学习
7.不遗忘学习
8.转移学习
9.知道何时你不知道
10.经由行动学习
(14)渐进学习
人类具有终生学习越来越繁芜任务的能力。人工智能体亦该如此。这个想法的不同版本在终生(https://pdfs.semanticscholar.org/ce73/094b2c1c31c73b71e596963a86aed30728d1.pdf)文献里有谈论。在GoodAI,我们采取的是长期渐进的学习对知识和技能的长期积累。它哀求不才面谈论的几个技能的组合:
· 身分学习
· 学会学习
· 学习并不忘却
· 转移学习
测试
运用于家用机器人学习家务和翻屋保养的一个可能测试,包括取得事情所需的工具和材料。该测试通过两个准则来评价智能体:持续的行动,个中智能体须要自主运行,寿命之内不再重新编程;改进能力,个中智能体必须在其蜕变不同的韶光点展示出在之前所不具有的能力。
(15)无监督学习
无监督学习被称做机器学习的下一个寻衅。它是人类终生学习最关键的能力(监督学习和强化学习的旗子暗记无法供应足足数据)并和预测知识推理紧密干系(“补上短缺的部分”)。分层系统中各个组件联合学习的无监督学习是一个较为困难的问题(大神Bengio,NIPS2016 “大脑和比特”漫谈会http://www.stat.ucla.edu/~akfletcher/brainsbits.html)。
测试
除了在视觉领域可能的测试,语音识别也为无监督学习供应了一展拳脚的机会。虽然现在最前辈的语音识别器基本都是依赖对大语音资料库的监督学习,无监督学习须要在没有监督的情形下,探索音素,单词分割,和词汇汇编。该方向限于少量词汇下的识别进来已有所进展,见如下论文(Riccardi and Hakkani-Tur, 2003, Park and Glass, 2008, Kamper et al., 2016)。
.一个全面无监督语音识别测试可以在部分转录语音资料库进行演习(例如,TIMIT,https://catalog.ldc.upenn.edu/LDC93S1),然后学会在非常稀疏的监督下进行预测。
(16)强泛化
人类可以在看似不同却有着内在相似性的环境下转移知识和技能,在调度到一个新环境时保留技能的核心部分,该能力被如下论文(Tarlow, 2016; Gaunt et al., 2016)称作强泛化。如果我们学习怎么打扫房间,我们就知道怎么打扫其他大部分房间。
测试
1.一个通用集成机器人能够学会用一种材料构建一个玩具城堡(比如用乐高玩具),然后测试能不能也用其他材料(比如沙子,石头,木棍)建筑城堡。
2.家务机器人在一个环境中进行打扫和烹饪演习,并在高度陌生的环境下测试。
(17)从少数样本中进行种别学习
莱克和互助者们(https://staff.fnwi.uva.nl/t.e.j.mensink/zsl2016/zslpubs/lake15science.pdf)通过少数样本达到了人类级别的识别和天生笔墨。然而,从少数样本中学习更繁芜的种别依然是个开放性问题。
测试
http://image-net.org/该数据集包含了按WordNet中不同层次语义(http://nlp.cs.swarthmore.edu/~richardw/papers/miller1995-wordnet.pdf)整理好的图像。从非常少的演习数据图像中精确地确定数据集里的各个种别,是一个从少数样本中学习的很有寻衅性的测试。
(18)学会学习
学会学习,亦称元学习是技能的习得,并趋于促进未来的学习。详细考虑的环境是一个更一样平常更缓慢的学习过程产生了一个快速的更专门的学习过程。例如,生物进化产生了像人类这样高效的学习者。
测试
学习玩雅达利电子游戏是进来取得非常可不雅观的成功的领域,包括了转移学习(见论文Parisotto et al., 2016)。然而,不存在任何系统能够在学习玩电子游戏中像人类一样经由一段韶光的操作便可获取新游戏的玩法(见论文Lake et al., 2016)。
(19)组成学习
组成学习(见论文de Freitas, 2016; Lake et al., 2016)是一种能够重新结合原始表达来加快新知识获取的能力。它和获悉如何学习紧密干系。
测试
组成学习的测试须要验证学习者是否其实有效并且利用了组合表达。
1.一些ImageNet的种别与紧张由组成成分布局所决定工具种别相对应,例如椅子和凳子,或者单轮车,自行车和三轮车。测试可以评价智能体用少量样本学习种别以及报告图中工具组成部分的能力。
2.组成学习在学习电子游戏时该当是非常有用的。学习者可以在已经节制的游戏中进行测试,但是游戏的组成元素看起来却改变了(比如在游戏霜寒https://archive.org/details/atari_2600_frostbite_1983_activision_steve_cartwright_ax-031中长相不同的鱼)。即便没有或者很少附加的学习,学习者也该当能够玩这样的游戏。
(20)不遗忘学习
为了终生持续地学习,智能体必须能够对新的不雅观测泛化,同时保留之前习得的知识。比来该方向的进展见论文(Kirkpatrick et al., 2016)和(Kirkpatrick et al., 2016)。内存增强神经网络的事情(见论文Graves et al., 2016)也很干系。
测试
不遗忘学习的一个测试须要序贯地呈现学习任务(较早的任务不重复),然后测试较早获取知识的保留量。也可以测试新任务低落的学习韶光,来验证智能体利用了之前习得的知识。
不遗忘学习的一个很有寻衅性的测试是序贯地学习识别ImageNet数据集中所有种别。
(21)转移学习
转移学习(论文Pan and Yang, 2010)是一个智能体在一个领域进行演习然后可以节制另一个领域的能力。在文本理解领域的成果并不好,除非智能体在新的领域也进行了一些演习(Kadlec, et al., 2016)。
测试
情绪分类(Blitzer, et al.,2007)供应了转移学习的可能测试平台。学习者可以在一个语料库上演习,在另一个语料库上测试,并与直接在目标域上演习的基准学习者进行比较。
电影和商业的评论是两个不相似的领域,这使得知识转移具有了寻衅性。在这两个领域里的语料库分别是Rotten Tomatoes的电影评论(Pang and Lee,2005)和Yelp Challenge的数据集(Yelp,2017)。
(22)知道什么时候你不知道
虽然不愿定性在不同的学习算法中有不同的建模办法,但当前的人工系统在“知道什么时候不知道”这一点上常日比不上人类。举个例子,目前最前辈的用于图像识别的深度神经网络,可以对一个人类完备不认识的图像做出99.99%的信心判断(Nguyen et al., 2015)。
人类对信心估计的表现包括:
1.在归纳任务中,如程序归纳或测序完备,知道何时供应的示例不敷以作出归纳(多个合理的假设可以阐明它们)。
2.在语音识别中,知道某段发音可能没有被听懂。
3.在诸如检测行人的视觉任务中,知道图像的一部分可能未被可靠地识别。
测试
1.可以将语音识别器与人类基准进行比较,丈量识别器给出的均匀置信度与识别失落败的例子的置信度的比值。
2.可以在天生的对抗样本上测试图像识别系统给出的置信度。
(23)经由行动学习
人类婴儿通过实验和不雅观察他们自己的行为带来的影响来理解天下(Smith and Gasser,2005; Malik,2015)。这彷佛适用于高水平的认知和感知。动物实验已经证明,自发运动的能力对付感知发展至关主要(Held and Hein,1963),并且比来在学习视觉感知中利用运动已经取得了一些进展(Agrawal et al.,2015)。在(Agrawal et al.,2016)中,机器人试图学习预测戳刺动作的效果。
“经由行动学习”因此包括以下几个领域:
•主动学习,个中智能体会选择出最可能有辅导意义的培训示例
•开展认识论行动,即进行紧张旨在网络信息的活动
•学会通过行动来感知
•经由行动学习因果关系
大概最主要的是,对付人工系统,通过实验学习天下的因果构造仍旧是一个开放的问题。
测试
对付通过行动学习,自然该当考虑操纵运动的问题,个中除了智能体的行动的直接影响,次要效应也必须考虑。
学会打台球:一个没有先验知识和没有固定演习数据的智能体被许可探索一个真实或虚拟的台球桌,并该当学会打台球。
觉得运动问题
目前机器人和机器感知的突出问题包括:
1.动态环境中的自主导航
2.场景剖析
3.可靠的一样平常物体识别和创造
4.可靠的终生即时定位和建图(SLAM)
5.多感官整合
6.适应性机动操纵
(24)自主导航
只管最近特斯拉(Tesla),Waymo(前Google自驾车项目)等公司在自动驾驶汽车方面取得了进展,但在高动态环境中的自主导航仍旧是一个未办理的问题,因其须要充分节制所面对工具以可靠地预测未来场景(Ess et al.,2010)。
测试
对自主导航来说,在拥挤的城市街道和住宅区的全自动驾驶仍旧是一个具有寻衅性的测试。
(25)场景剖析
场景剖析的寻衅远远超出了物体识别,它包括对由多个物体形成的表面、场景3D构造、因果关系(Lake et al.,2016)和可承受性的理解。它不限于视觉,而是可以依赖于试听,触摸和其他知觉,例如电反射和反应定位(Lewicki et al.,2014; Kondo et al.,2017)。虽然已经在例如识别非常和不可能的场景(Choi et al.,2012)、预测物体动力学(Fouhey and Zitnick,2014)和创造物体功能(Yao et al.,2013)方面取得了进展,但人工智能仍远远低于同领域人类的表现。
测试
理解视觉场景中的因果构造的一些可能的寻衅包括:
1.识别危险情形:可以创建合成图像的资料库,个中同样的物体被重新组合以形成“危险”和“安全”的场景,当然这些场景是由人类分类的。
2.识别物理上不可能的场景:可以创建合成资料库,以显示包含同样物体的物理上可信和不可信的场景。
3. 识别无用的工具:无用工具的图像由(Kamprani,2017)创建。
(26)物体识别
虽然物体识别近年来取得了巨大的进步(例如,Han et al.,2016),在许多问题上已经遇上或超越人类(Karpathy,2014),并可以在封闭环境中靠近完美(Song et al.,2015),但是最前辈的系统仍旧受限于更困难的情形,如开放物体(与背景交错)、破碎的物体在动态环境中被截断和遮挡(例如,Rajaram et al,2015年)。
测试
包含在凌乱环境中,从大型,开放式和变革的类型凑集里挑出的物体对付物体识别系统很有寻衅性。比如:
查看厨房和冰箱内部的照片,并列出所有者可用的食材。
(27)同时定位和制图
虽然同时定位和制图(SLAM)在某些运用中被认为已经被办理,但对付随韶光变革的环境中耐久的大型自动机器人,寻衅仍旧存在(Cadena等,2016)。
测试
一个大城市里的自动驾驶汽车,在没有预先供应详细舆图的情形下,持续定位和舆图在变革的环境里仍旧可靠。
(28)多感官整合
多个感官的整合(Lahat,2015)非常主要,例如人类沟通(Morency,2015)和场景理解(Lewicki et al.,2014; Kondo et al.,2017)。具有多重相互重叠的感官系统彷佛对付人类儿童通过在这个天下里感知和行动来教诲自己是至关主要的(Smith and Gasser,2005)。
测试
在喧华的环境中,唇读和手势线索是必不可少的,它可以供应多感官整合的寻衅。比如:
机器人调酒师:智能体须要在喧华的酒吧里搞明白顾客的哀求。
(29)自适应机动操纵
当前的机器人操纵手远逊于人手的多功能性(Ciocarlie,2015)。个中的难题包括操纵可变形物体和从移动平台操作。
测试:
从洗衣机中取出衣服,将它们挂在不同的地方晾衣绳和衣架上,同时不要挡住其他人的路。
开放性问题
列表中省略了一些值得把稳的问题,由于它们具有过于开放的范围:它们包含了随韶光演化或可以无限扩展的任务集。因此很难确定这些问题是否已经被办理。这种类型的问题包括:
在人类大学入学并跟人类一样上课(Goertzel,2012)
自动化所有类型的人类事情(Nilsson,2005)
Puzzlehunt寻衅,例如,捷克共和国的年度TMOU游戏(TMOU,2016)
结语
我回顾了一些待研究的问题,试图勾画出当前AI研究的前沿。第一个版本中的问题列表、问题描述、测试举例,以及对研究领域正在进行的事情的提及,都不尽完全。我正操持逐步扩展和改进这篇文章,并诚挚欢迎读者在文章下面的评论部分或在研究所的论坛上提出建议。
原文链接:https://medium.com/ai-roadmap-institute/unsolved-problems-in-ai-38f4ce18921d