登录 注册

数据不够大,别玩深度学习?正反双方撕起来了

作者:
量子位
2017-06-12 17:02

标签:
4 分享



  欢迎关注“创事记”的微信订阅号:sinachuangshiji

文/李林 问耕量子位:公众号 QbitAI

争论,随时可能爆发。
比方当你看到一篇名为《数据不够大,别玩深度学习》(Don’t use deep learning your data isn’t that big)的博客时。
作者Jeff Leek在这篇博客中指出,深度学习已经进入一定程度的狂热状态,人们正试图用这个技术解决每一个问题。但真正的挑战在于:“只有极少数情况下有足够的数据进行深度学习”,不是每家都有科技巨头的数据。
深度学习与更简单的模型相比,优点在于有足够的数据来调整大量的参数,博主建议当数据集不是那么大的时候,应该采用一些更简单、更可解释的办法,而且不用担心过拟合等问题。
为了证明自己的论点正确,Leek还举了一个基于MNIST进行图像识别的例子,分辨0或者1。他用的两个方法一个是逻辑回归,一个是深度神经网络(5层,每层160个节点,Tanh过滤器,20个epoch)。
Leek把训练集大小分成10到80,每次增加5。重复5次以平均掉一些噪音。
想要看具体案例的,请移步这里:https://simplystatistics.org/2017/05/31/deeplearning-vs-leekasso/

总之结论是:对于低训练样本来说,更简单的方法略胜于更复杂的方法。随着样本量的增加,复杂的方法的精度逐渐上升。
博主想用这个简单的例子说明:
样本量很重要。对于Google、亚马逊或者Facebook来说,有着接近无限的数据量,这种情况下应用深度学习是有意义的。但是如果只是中等规模的样本量,深度学习可能不会提升准确度,而且还失去了可解释性。
传送门
Jeff Leak的文章:
https://simplystatistics.org/2017/05/31/deeplearning-vs-leekasso/
很快,就有用户在Reddit上吐槽。
  (声明:本文仅代表作者观点,不代表新浪网立场。)

余下全文 (1/2)

收藏分享

量子位 +订阅 √已订阅

关注前沿科技资讯,追踪人工智能动态。

作者的其他文章

关键字

  • 关键字
  • 作 者