该论文对 Concetto Spampinato 等人 2017 年的 CVPR 论文《Deep Learning Human Mind for Automated Visual Classification》进行了剖析,得出结论:这篇论文以及该实验室随后的 7 篇论文的结果都有误。
论文标题:Deep Learning Human Mind for Automated Visual Classification论文地址:http://perceive.dieei.unict.it/deep_learning_human_mind.php在围不雅观 Reddit 谈论之前,让我们先看看批评者们都怎么说:
论文地址:https://arxiv.org/abs/1812.076
以前 CVPR 2017 有一篇论文学习对受试者不雅观察 ImageNet 图像时记录到的 EEG 数据进行分类,且利用学习到的分类器来演习一个纯粹的打算机视觉模型。在此论文中,ImageNet 中的图片做为刺激旗子暗记展示给接管 EEG 记录的受试者,然后演习一个结合全连接层和 ReLU 层的 LSTM 来预测记录到的 EEG 旗子暗记的图像刺激种别。个中 ReLU 的输出反响了人类对认知的神经编码。为了得到一种能产生同样认知编码的打算机视觉系统,这篇论文又把已有目标分类器的输出回归到论文声称的这种人类认知神经编码中。
那篇论文作出了三个声明:
我们提出了一种能对图像激活脑电波的 EEG 数据进行分类的深度学习方法,这种方法在处理目标类别的数量与分类准确率上都超越了顶尖方法。我们提出首个由大脑旗子暗记驱动的打算机视觉方法,也便是首个利用视觉描述符进行自动分类的方法。这种视觉描述符直接提取自人类进行视觉场景剖析时的神经处理过程。我们将会公开这一最大的视觉目标剖析 EEG 数据集,且附上干系开源代码与演习模型。特殊是他们的论文近一步声明:
比较于先前的研究,我们的方法能够分类大量(40)目标种别,特殊是在 EEG 旗子暗记上。比较于先前分类 EEG 旗子暗记的研究,我们方法的分类准确率高的多(82.9%)。此外,此论文更是用盛赞之词表达其声明的结果:
在本论文中,我们希望在经典 BCI 方面取得重大打破,即旨在探索一种新型和直接的人类参与形式,并用于自动视觉分类。这个方法潜在的不雅观点是学习一种大脑旗子暗记对视觉类别的判别性流形,这可以通过分类 EEC 旗子暗记实现。也便是说读取大脑旗子暗记,并将图像映射到这样的流形上以许可机器实行自动视觉分类,这一过程可以说是将人类的视觉能力迁移到机器。解码工具种别干系的 EEG 旗子暗记以用于打算机视觉方法,这种方法的影响是很巨大的。首先,识别基于 EEG 的判别性特色可能会供应一些关于人类视觉感知系统的洞见,个中这些判别性特色可用于视觉分类。因此,它将极大地提高基于 BCI 的运用性能,并实现新形式基于脑的图像标注。其次,将图像有效地投影到新的基于生物学的流形中将彻底改变工具分类器的开拓办法(紧张是在特色提取方面)。[31,§1pp.6809-6810]我们做了很多实验与剖析,且剖析结果不禁让我们疑惑上面 CVPR 2017 原论文的声明。详细的,我们创造采取的分类器会让长期静态脑激活的利用会比独立刺激的韶光长。由于前面那篇 CVPR 2017 论文采取了块设计(block design),所有给定种别图像的刺激都连续呈现给受试者,因此所采取的分类器方向于在「块」期间内对大脑的活动进行分类,这彷佛与刺激的图像种别很大程度上并不干系。
分类器对 EEG 旗子暗记中的 DC 和极低频(VLF)分量的依赖性加剧了这种情形,这些分量反响了「块」期间的任意长期静态生理状态,而不是动态的大脑活动。由于测试集中的试验与演习集样本试验都来自相同的「块」,这相称于在测试时获取了相同静态生理状态,从而「盗取」了演习信息。因此那篇 CVPR 2017 论文能得到极高的分类准确率,它隐性地在测试集上做演习!
当我们利用快速事宜重新设计实验时,创造用不同图像刺激得到的旗子暗记完备是随机的,分类准确率低落到了随机选择。因此,这使得我们疑惑随后 7 篇论文的结果与声明(完全的名单读者可查阅原论文)。我们的实验终极表示潜在任务远远要比表面看起来难得多,并且远远超出现有的技能水平。同样,实验结果终极也表明了那 8 篇广泛揭橥的论文过于乐不雅观了,它们的结果同样也是有误的。
Reddit 谈论
这篇帖子昨日发布之后,引起了多位研究者的谈论,有从标题开始批评论文《Training on the test set? An analysis of Spampinato et al. [31]》的,也有从技能层面对这两篇论文进行谈论的。机器之心编译先容了部分评论,感兴趣的读者查看原帖。
网友 singularineet 表示:
怎么直不雅观理解这篇论文要表达的意思呢?我们来打个比方。比如,你想演习一个分类器来剖析 X 光片以检测癌症。这些 X 光片会显示其拍摄的韶光(假设 X 射线机器会在早上进行校正,并在一天内随韶光逐渐漂移,并且这种漂移效应会急速涌如今 X 光片中)。并且,有高度优先权的已知得了癌症的病人会在早上拍 X 光片,其他人安排不才午。那么,你的模型就能仅通过拍摄韶光来准确地预测癌症。同理,Spampinato 等人的研究中利用了 EEG 电极,导电霜是干燥的,电极打仗不良等。因此,他们的实验引入了很多噪声,各类完备无关成分导致 EEG 的系统性漂移,并展示在图像中。此外还有外部噪声的滋扰,比如空调温度等。由于图像类是在同一类的块中呈现的,因此网络所要做的便是根据其他有时要素进行预测,而不是探求与图像类本身有关系的要素。这些效应在脑成像领域中是众所周知的,这便是为什么实验方案总是平衡的,并且考试测验通过肃清有害旗子暗记来去除伪像。因此,批评论文中的所有把稳力都集中在旗子暗记过滤问题上。jande8778 更是直接批评《Training on the test set? An analysis of Spampinato et al. [31]》一文是他读过的最糟糕的论文。
我读过的最糟糕的论文。让我们从标题开始,其表明 [31] 的作者在测试集上演习,这是不对的。另一方面,[31] 的作者利用的 DL 技能是故意义的,如果他们证明利用不同数据集的那些方法的有效性,他们的研究该当没问题。只管如此,旨在创造 EEG 数据集偏差的批评部分还是故意义的。jande8778 连续说这篇批驳论文最浅近、最糟糕的部分是试图谢绝采取 DL 方法进行脑电波的分类与天生。他说:「评论他人的研究可能要比做研究更难,须要更严谨一些。」
个中,论文的一作 C. Spampinato 也对此帖作出了回答。他表示虽然批驳论文的标题选了一个众所周知的禁忌,但他自己不是特殊在乎,除了自己的名字涌如今标题上。
此外,关于谈论中一些技能细节,Spampinato 也给出相应的阐明。例如批驳文章最大的质疑,即 CVPR 2017 的那篇论文采取块剖析,连续地将相同类别的演习集与测试集给受试者,因此分类器学到的可能只是静态脑电波。Spampinato 表示这可能是一个假设,但是移除极低频和 DC 等可能影响的噪声后,分类器还是能实现很好的性能。此外,Spampinato 表示他们会做更多的研究与调查弄清楚这一假设。