Changkun's Blog

Science and art, life in between.


  • Home

  • Ideas

  • Archives

  • Tags

  • Bio

UMSLT02: A Breif History of Neural Networks

Published at: 2018-02-28   |   Reading: 1921 words ~4min

上一篇文章中我们从第一个学习模型感知器的提出聊到了人们在研究学习机器的过程中发现因果问题的反演是一个 ill-posed 的问题,正则化方法在解决 ill-posed 问题的过程中扮演了重要的角色。ERM 作为应用学派归纳推理原理的一种不证自明的方法,这篇文章我们就这个话题继续聊下去。

值得一提的是,从一个范围很宽的密度集合中估计密度函数就是一个 ill-posed 的问题。早期的统计学发展了一种叫做参数统计的方法,其最大似然估计,作为一种不证自明的方法来对有限个参数决定的密度集合进行估计。但如果我们连数据的分布假设都不敢假设,换句话说——对一种未知(参数未知)的分布进行估计,最大似然估计就无能为力了。这时候人们发展了很多非参数方法,从而建立了现代庞大且意义非凡的非参数统计学。值得一提的是,这些方法的基本假设是使用大量样本来估计密度,他们可以克服 ill-posed 的问题。

Read More »

UMSLT01: A Breif History of Regularization

Published at: 2018-02-27   |   Reading: 3151 words ~7min

前言

ICLR 2017 的 Best Paper [Zhang et al. 2017] 的作者张驰远做出了相当强的批判,指出机器学习中泛化理论并不能一致的迁移到深度学习中。论文首先通过 Randomization Test 过强的 empirical claim 认为深度学习的模型之所以能够起作用是因为其粗暴的记住了全部的样本,并非真正达到了泛化。但这一结论事实上犯了推理的逻辑错误 [Kawaguchi et al. 2017]。

然而,论文中关于正则化理论的评注「explicit regularization is unneccesary」和「SGD has implicit regularization property」却似乎显得很有分量。确实,我们在实际的调参过程中应该有注意到我们常说的「overfitting」现象并不总会在深度学习模型中表现,我们经常观察到 generalization gap 随着训练时间的增加,会短暂的上升并进而继续降低或者保持不变,并不符合我们理论上对 overfitting 的理解。就这一点问题,我围绕着 overfitting 的定义以及 regularization 提出的始末进行了相关研究,发现机器学习理论基础并没有想象中的那么简单。

于是,我准备新开一个系列,来整理我阅读相关论文的心得以及个人思考。从统计学的基本原理出发,理解统计学习理论的本质。这个系列的名字叫做《理解现代统计学习理论(Understanding Modern Statistical Learning Theory)》,为了方便起见,我们缩写为 UMSLT。

阅读本系列要求读者具有较高水平的机器学习实践经验,同时对形式化数学理论有较强功底,例如对 Banach 空间观点下的概率理论有相当了解,对参数统计学相关知识非常熟悉,对其他通用领域的数学知识也有一定程度的了解。

若读者在阅读本系列的过程中发现有原则性的错误,请务必指出,谢谢。

Read More »

不笑不足以为道

Published at: 2018-02-25   |   Reading: 134 words ~1min
记得曾经有这么一个小故事,说是欧几里德上完课有个学生发问:『我学这有什么好处?能得到什么呢?』 欧几里德马上叫来仆人:『给这小子一块金币,让他
Read More »

论文笔记:Generalization in Deep Learning

Published at: 2018-01-28   |   Reading: 2557 words ~6min

Generalization in Deep Learning, Kenji Kawaguchi

arXiv: https://arxiv.org/abs/1710.05468

ReLU 网络的路径展开

Section 5、6 是全文最有趣的地方了,可惜这个地方作者表达得不是特别好。一个比较主要问题就是作者没有说明 $w_\sigma$ 的定义,这导致了很多人往后就开始懵逼。我问了一下 Kenji ,确认了一下我的理解,他也承认这个地方写得不是很好,因为 $w_\sigma = \bar{w}$,他使用不同记号的原因在于在 5.3 里面要解释 two-phase training。

Read More »

2017 年终总结

Published at: 2018-01-04   |   Reading: 3305 words ~7min

从高中毕业以后,再也没有受过正儿八经的文学熏陶,感觉几乎丢失了表达能力,以前的我是很喜欢用键盘来宣泄情绪的。 而现在的我,无论是生活、感情还是技术都有过不同程度的感悟、提升后,几乎不愿意甚至不再能够行云流水的分享自己的感悟了。现在的我,突然感觉已经加速「衰老」,步入「三十岁中年」了。2017 年过得很累,希望 2018 能够过得好些吧。

Read More »
3 4 5 6 7 8 9 10 11
Changkun Ou

Changkun Ou

Stop Talking. Just Coding.

276 Blogs
165 Tags
RSS
Homepage GitHub Email YouTube Twitter Zhihu
Friends
    Frimin ZZZero march1993 qcrao maiyang Xargin Muniao
© 2008 - 2024 Changkun Ou. All rights reserved. | PV/UV: /
0%