企业宣传,产品推广,广告招商,广告投放联系seowdb

深度学习的先入之见 局限性及其未来

近日,加州大学圣克鲁兹分校(UCSC)斯图尔特试验室博士后 Pablo Cordero 在其团体博客上宣布了首篇文章《WHEN NOT TO USEDEEP LEARNING》,讨论了深度学习的现状和先入之见,并剖析了其局限性。

我知道博客题目中经常使用否认词很奇异,但是前几天有一波讨论正好相应于我正在思索的一些疑问。这一切开局于 Jeff Leek宣布的一篇无关说明在小样本范围内经常使用深度学习的文章。要言之,他以为当样本较小时(这在动物畛域很经常出现),带有少许参数的线性模型甚至比带有大批层和暗藏单元的深度网络性能更优。他继续展现了一个十分便捷的带有十大消息特色的线性预测器,在经常使用大概80 个样本在 MNIST 数据集中分类 0 和 1 时,性能比一个便捷的深度网络更优。这促使 Andrew beam写了一篇反驳文章,其中写道一个适当训练的深度网络能够完胜便捷的线性模型,甚至仅仅经常使用十分少的训练样本。在争执时期,越来越多的动物医疗消息钻研者开局驳回深度学习处置不同的疑问。hypereal或许线性模型就是咱们须要的所有吗?正如平常一样,答案是看状况。在本文中,我将引见几个机器学习的运行案例,其中深度学习在运行和处置先入之见方面并没有太多实践意义,我以为正是这些先入之见(preconception)阻碍了深度学习的运行,尤其是关于入门者来说。

深度学习的先入之见

首先,让咱们处置一些先入之见,在行人曾经将其误以为半真谛。有两个大的先入之见以及一个比拟技术的先入之见,这在某种水平上是对 Andrew Beam关于「失误之见」的加长。

深度学习可真正运行于小数据样本

深度学习的声望建设在少量数据之上(比如***谷歌大脑工程向深度网络馈送了少量的 YouTube视频),并且作为复杂算法运转少量数据以来不时被地下化。可怜的是,大数据和深度学习的相关也有时对反:一个深度学习不能运行于小数据样本的神话。假设你的神经网络样本数据很少,带有较高的参数样本比,外表上看很或许会发生过拟合。但是,假设只思索给定疑问的样本大小和维度,不论是监视学习还是无监视学习,这是凭空地建模数据,无需语境。很或许是这种状况,你有与疑问相关的数据资源,或许某个畛域专家可以提供strongprior,或许数据的组织结构很不凡。在一切这些状况中,深度学习无时机成为一种有效方法,例如,可以为更大的相关数据集编码有用的表征,并将其运行在你的疑问之中。其经典图示在人造言语处置中十分普遍,其中你可以学习大型语料库的词嵌入,并将其作为更小更窄语料库中的嵌入来成功有监视学习义务。极其地说,你可以联结一组神经网络学习一个表征和一个有效的方式以在小样本集中重复经常使用表征。这被称作one-shot learning,并被成功用在诸多高维数据畛域,比如计算机视觉和药物发现。

用于药物发现的 one-shot learning,引自 Altae-Tran 等人的论文。ACS Cent. Sci. 2017。

深度学习并不是一切的答案

第二个我听到最多的先入之见是hype。许多准从业者冀望深度网络可以带给他们一个奥秘的性能优化,仅仅由于神经网络在其余畛域也行之有效。其他人从建模和操控图像、音乐、言语的上班中取得启示,并经过尝试训练***的GAN 架构猛冲进这个畛域。hype 实在存在,且方式多样。深度学习在机器学习中一枝独秀,并成了数据建模的一件关键工具。深度学习的盛行催生出了一些**的框架比如TensorFlow 和PyTorch,它们出奇地好用,甚至在深度学习之外也是。超级巨星源自失败者的故事启示了钻研者重拾以前被湮没的方法,比如退化战略和强化学习。但这无论如何不是***药。除却没有收费午餐的考量,深度学习模型可以十分纤细,须要小心、有时十分低廉的超参数搜查、调试和测试(后文将有详述)。此外,在很多状况下深度学习并无太多实践价值,反而是更便捷的模型效率更高。

深度学习不只仅是.fit()

来自机器学习其余畛域的翻译多多少少湮没掉了深度学习的一个方面。很多教程和入门资料形容深度学习模型由层级互联层(由节点形成)形成,其中***层是输入层,***一层是输入层。你可以经常使用随机梯度降低训练它们。兴许在冗长提及随机梯度降低如何上班以及什么是反向流传之后,大部分的解释聚焦在了神经网络类型的丰盛上。优化方法自身须要很少的额外留意力,这很可怜,由于很或许相当一部分深度学习奏效的要素是由于这些不凡的方法,并指点如何优化它们的参数;以及如何宰割数据以有效经常使用它们关于在正当的时期范围内取得良好卷曲至关关键。为什么随机梯度如此关键依然不得而知,但是一些线索正四处显现。我最青睐的一个是将该方法阐释为贝叶斯推理口头的一部分。实质上讲,每次当你做某些方式的数运算,你就在经常使用特定假定和prior 口头一些贝叶斯推理。

随机梯度降低并不难,最近的上班标明该步骤实践上是一个马尔可夫链,在特定假定下有一个静态散布,可被看作是对 posterior 的变分近似。所以当你中止你的SGD 并驳回***的参数时,你基本上是在从这一近似散布中采样。我发现这一想法很有启示力,由于优化器的参数经过这种方式施展了很大作用。比如,由于你可以参与 SGD的学习参数,马尔可夫链会变的不稳固直到找到大面积采样的部分极小值;即,你参与了步骤的方差。另一方面,假设你缩小学习参数,马尔可夫链会缓缓近似更窄的极小值,直到它在严密区域内收敛;即,你参与了一个特定区域的方差。另一个参数,SGD中的批大小,也控制着算法收敛的区域类型。关于小批的更广阔区域,以及更大批的更窄区域。

SGD 优选宽或窄的依赖于其学习率或批大小的最小值。

这一复杂性象征着深度网络的优化器成了***等级:它们是模型的**部分,和层架构等同关键。这种状况在机器学习的其余许多模型中并不经常出现。线性模型和允许向量机是凸优化疑问,这些疑问实践上没有太多差异,且只要一个实在答案。这就是为什么其余畛域的人或许经常使用诸如scikit-learn 等工具的人在没有找到带有.fit() 的十分便捷的 API 时深感困惑。

深度学习的局限性

因此,什么时刻深度学习确实不适宜一项义务?依我看,以下几个关键场景中深度学习并不适用。

低估算或低承诺疑问

深度学习模型十分灵敏,有少量的架构和节点类型、优化器以及归一化战略。依托运行,你的模型兴许会有卷积层或许循环结构;它兴许真的很深,或许仅有几个暗藏层;它兴许经常使用整流线性单元或许其余的激活函数;它或许有dropout,或许没有,并且权重很或许被归一化。以上只是一个部分列表,还有很多其余的类型的节点、链接甚至损失函数可以尝试。有很多超参数可以微调,很多架构可以探求,虽然训练一个大型的神经网络十分耗时。谷歌最近宣扬其AutoML 流程可智能找到***架构,但是须要超越 800 块 GPU全力运转数周,这可不适宜一切人去做。重点是训练深度网络在计算和调试方面老本很高,这种费用关于许多日常预测疑问并没有任何意义,甚至调整小型网络速度也太慢。即使有足够的估算和承诺,首先作为基准也没有理由不尝试其余方法。你或许会惊喜地发现,线性允许向量机才是你真正须要的所有。

向一个普通听众解释和传达模型参数/特色关键性

深度网络之所以臭名昭著是由于它是一个黑箱,预测才干弱小却无法被解释。即使最近有很多工具在一些畛域体现清楚,它们并不会彻底转向所有的运行。这些工具在你想要确保网络能否诈骗你时上班良好,这关键是经过存储数据集或许聚焦特定的假特色成功的。但是向深度网络的全体决策阐释预特色的关键性依然很艰巨吗?在这一畛域,由于学习系数与回应存在间接相关,没有什么可以真正战败线性模型。这在向普通听众传递这些阐释时尤其关键。例如,外科医生须要整合一切类型的扩散数据从而做出诊断。变量与结果之间的相关越便捷和间接,外科医生对其应用就越好,并且不会低估/高估其价值。进而,在很多案例中模型的准确度并没有通常阐释那么关键。例如,一个战略决策者兴许想要知道人口统计的变量对死亡率的影响,并且相比于预测精度,他很或许对两者相关的直凑近似值更感兴味。在这两种案例中,相关于更便捷、更深化的方法,深度学习处于劣势。

建设因果机制

模型阐释的极其案例是试图建设一个机制模型,即,一个可以真正捕捉数据面前的现象的模型。好的实例包含试图猜想两个分子能否在一个特定的细胞环境中交互?或许假定一个特定的市场战略如何对开售发生实践影响。该领的专家以为,老式的贝叶斯方法无法代替;它是咱们启动因果表征和推理的***方式。Vicarious最近在这方面有一些卓越成绩(,证实了为什么这一愈加准则性的方法可以在视频游戏义务中比深度学习泛化地更好。

从「非结构」特色中学习

这个有待讨论。我发现深度学习长于的一个畛域是为一个特定义务找到数据的有用表征。一个比拟好的示例是上述的的词嵌入。人造言语有着丰盛而复杂的结构,其可经过「语境-看法」网络被近似:每个词可表征为一个向量,它编码了其被经常使用最多的语境。经常使用在人造言语处置义务的大型语料库中学习的词嵌入有时可使另一个语料库中的不凡义务取得优化。但是,假设有疑问的语料库是彻底非结构的,那么深度学习将毫无用武之地。例如,你正在经过检查关键词的非结构列表启动目的分类。由于关键词并不被用于任何特定结构,词嵌入并无法能协助太多。在这一状况中,数据是真正的词包,表征关于义务也短缺。一个反方论点兴许是词嵌入实践上并没有那么低廉,假设经常使用预训练的词嵌入,你兴容许以更好地捕捉到关键词相似性。但是,我依然偏差于从词包表征开局,并检查我能否能够失掉好的预测。毕竟,相比于对应的词嵌入槽,词包的每一个维度更容易阐释。

深度是未来

深度学习很热,资金短缺,且开展飞快。当你在一个会议上读到一篇深度学习论文时,它或许是两三次迭代后的结果。这给我的上述观念提出了很大的留意:不久的未来,深度学习兴许在一些场景中依然超级有用。阐释深度学习的工具变得越来越好。最近的软件(比如Edward)融合了贝叶斯建模和深度网络框架,借助概率编程和智能变分推理,量化了神经网络参数和便捷贝叶斯推理的不确定性。久远看,存在一个简化的建模词汇表,提醒深度网络可以具备的清楚属性,从而缩小须要测试的事物的参数空间。因此,继续刷arXiv 吧,没准一两个月这篇文章已被迭代。

Edward 在 TensorFlow 中融合了概率编程,可同时用于深度学习和贝叶斯模型。摘自 Tran 等人的 ICLR 2017 论文。

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender