Go in 1 Hour

Published at发布于:： 2018-03-21 | Reading阅读:： 21 min

几个初步的 Go 语言特点：

类型安全
简洁的面向对象
语言级并发
垃圾回收

一共 25 个关键字：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33


package         包引入
import          包引入

const           常量

var             变量

type            类型

goto            流程控制
if              流程控制
else            流程控制
break           流程控制
continue        流程控制
default         流程控制
switch          流程控制
case            流程控制
fallthrough     流程控制
for    	        流程控制

func            函数相关
return          函数相关
defer           函数相关

struct          面向对象
interface       面向对象

map             数据结构
range           数据结构

go              并发相关
chan            并发相关
select          并发相关

Read More阅读更多 »

UMSLT04: The Past and Present of SGD

Published at发布于:： 2018-03-08 | Reading阅读:： 1 min

我们终于在上一篇文章中形式化的定义了学习问题，并给出了能够统一描述回归问题、最小二乘法、最大似然估计等方法的一般形式：ERM 原则。实践过 SGD 的我们可能非常熟悉，在 SGD 族的优化下，我们并非一次性使用全部的观测样本，而是使用一个小批量的数据样本甚至一个单一的数据样本来计算网络的损失函数，再利用反向传播和梯度下降来进行非凸优化，实际上这是一种随机逼近的方法，并早在上个世纪五十年代就已经被 Robbins 和 Monroe 提出了。随机逼近原则随机逼近原则并不是一种经验风险最小化的归纳原则。这一原则在独立同分布数据 $z_1, …, z_m$ 对参数 $\alpha$ 最小化泛函 $R(\alpha) = \int{Q(z, \alpha)dF(z)}$。其中参数 $\alpha$ 采用这样的迭代过程 $\alpha_{k+1} = \alpha_{k} - \gamma_k \text{grad}{\alpha}{Q(z_k, \alpha_k)}, k=1,2,…,m$。迭代的步数等于观测样本的数目。并且可以证明，**梯度 $\text{grad}{\alpha}{Q(z_k, \alpha_k)}$ 和 $\gamma_k$ 的取值在很一般的条件下，这种方法至少对于线性模型是一致的**[Robbins et al 1951]。根据 Novikoff 关于感知器的收敛定理 [Novikoff, 1962]，Tsypkin 和 Aizerman 在讨论了学习过程一致性的问题，研究了能够保证学习过程一致性的两种一般性归纳原则，分别是随机逼近原则和经验风险最小化原则。这两种原则都被应用到经验数据并使风险泛函最小的一般问题上，最终发展处了两种不同的一般性学习理论：对随机逼近归纳推理的一般性渐进学习理论 [Aizerman et al 1965], [Tsypkin, 1971], [Tsypkin, 1973]；对 ERM 归纳推理的一般性非渐进模式识别理论，并且推广到任意基于经验数据的风险最小化问题 [Vapnik et al 1968], [Vapnik et al 1971], [Vapnik et al 1974], [Vapnik et al 1979]。我们很容易看到，上面的的迭代步数等于观测样本步数似乎显得对数据的过度浪费，一个很自然的推广也就是现在我们非常常见的分多个时间段、多次使用训练数据。但进而产生的问题就是：什么时候必须停止训练过程？两个可能的条件：

Read More阅读更多 »

UMSLT03: A Gentle Start of Learning Theory

Published at发布于:： 2018-03-04 | Reading阅读:： 2 min

在前面两篇文章中，我们快速的聊完了深度学习的相关历史知识，从第一个学习机器感知器的诞生、到反向传播的首次再发明、理论派和实践派对 ERM 原则的不同看法以及为学习理论能够真正学到智能从而解决 ill-posed 问题的正则化手段。在理论学派看来，自然语言性质的描述永远是不够的，我们需要发展一套理论来严密的从最一般性的原理出发，彻彻底底的解决机器学习的基础，我们常说的学习到底是什么？我们提过很多次的 ERM 到底有什么特殊之处能在起基础之上产生两个方向完全不同的学派？这篇文章就正儿八经的从符号定义出发，对「学习理论」进行形式化。

Read More阅读更多 »

UMSLT02: A Breif History of Neural Networks

Published at发布于:： 2018-02-28 | Reading阅读:： 1 min

上一篇文章中我们从第一个学习模型感知器的提出聊到了人们在研究学习机器的过程中发现因果问题的反演是一个 ill-posed 的问题，正则化方法在解决 ill-posed 问题的过程中扮演了重要的角色。ERM 作为应用学派归纳推理原理的一种不证自明的方法，这篇文章我们就这个话题继续聊下去。

值得一提的是，从一个范围很宽的密度集合中估计密度函数就是一个 ill-posed 的问题。早期的统计学发展了一种叫做参数统计的方法，其最大似然估计，作为一种不证自明的方法来对有限个参数决定的密度集合进行估计。但如果我们连数据的分布假设都不敢假设，换句话说——对一种未知（参数未知）的分布进行估计，最大似然估计就无能为力了。这时候人们发展了很多非参数方法，从而建立了现代庞大且意义非凡的非参数统计学。值得一提的是，这些方法的基本假设是使用大量样本来估计密度，他们可以克服 ill-posed 的问题。

Read More阅读更多 »

UMSLT01: A Breif History of Regularization

Published at发布于:： 2018-02-27 | Reading阅读:： 2 min

前言

ICLR 2017 的 Best Paper [Zhang et al. 2017] 的作者张驰远做出了相当强的批判，指出机器学习中泛化理论并不能一致的迁移到深度学习中。论文首先通过 Randomization Test 过强的 empirical claim 认为深度学习的模型之所以能够起作用是因为其粗暴的记住了全部的样本，并非真正达到了泛化。但这一结论事实上犯了推理的逻辑错误 [Kawaguchi et al. 2017]。

然而，论文中关于正则化理论的评注「explicit regularization is unneccesary」和「SGD has implicit regularization property」却似乎显得很有分量。确实，我们在实际的调参过程中应该有注意到我们常说的「overfitting」现象并不总会在深度学习模型中表现，我们经常观察到 generalization gap 随着训练时间的增加，会短暂的上升并进而继续降低或者保持不变，并不符合我们理论上对 overfitting 的理解。就这一点问题，我围绕着 overfitting 的定义以及 regularization 提出的始末进行了相关研究，发现机器学习理论基础并没有想象中的那么简单。

于是，我准备新开一个系列，来整理我阅读相关论文的心得以及个人思考。从统计学的基本原理出发，理解统计学习理论的本质。这个系列的名字叫做《理解现代统计学习理论（Understanding Modern Statistical Learning Theory）》，为了方便起见，我们缩写为 UMSLT。

阅读本系列要求读者具有较高水平的机器学习实践经验，同时对形式化数学理论有较强功底，例如对 Banach 空间观点下的概率理论有相当了解，对参数统计学相关知识非常熟悉，对其他通用领域的数学知识也有一定程度的了解。

若读者在阅读本系列的过程中发现有原则性的错误，请务必指出，谢谢。

Read More阅读更多 »

不笑不足以为道

Published at发布于:： 2018-02-25 | Reading阅读:： 1 min

记得曾经有这么一个小故事，说是欧几里德上完课有个学生发问：『我学这有什么好处？能得到什么呢？』欧几里德马上叫来仆人：『给这小子一块金币，让他滚蛋，他想要学有所获。』古人云：上士闻道，勤而行之；中士闻道，若存若亡；下士闻道，大笑之。不笑不足以为道。 Wir müssen wissen, Wir werden wissen.

论文笔记：Generalization in Deep Learning

Published at发布于:： 2018-01-28 | Reading阅读:： 2 min

Generalization in Deep Learning, Kenji Kawaguchi

arXiv: https://arxiv.org/abs/1710.05468

ReLU 网络的路径展开

Section 5、6 是全文最有趣的地方了，可惜这个地方作者表达得不是特别好。一个比较主要问题就是作者没有说明 $w_\sigma$ 的定义，这导致了很多人往后就开始懵逼。我问了一下 Kenji ，确认了一下我的理解，他也承认这个地方写得不是很好，因为 $w_\sigma = \bar{w}$，他使用不同记号的原因在于在 5.3 里面要解释 two-phase training。

Read More阅读更多 »

2017 年终总结

Published at发布于:： 2018-01-04 | Reading阅读:： 2 min

从高中毕业以后，再也没有受过正儿八经的文学熏陶，感觉几乎丢失了表达能力，以前的我是很喜欢用键盘来宣泄情绪的。而现在的我，无论是生活、感情还是技术都有过不同程度的感悟、提升后，几乎不愿意甚至不再能够行云流水的分享自己的感悟了。现在的我，突然感觉已经加速「衰老」，步入「三十岁中年」了。2017 年过得很累，希望 2018 能够过得好些吧。

Read More阅读更多 »

2017 读书清单

Published at发布于:： 2017-12-29 | Reading阅读:： 1 min

2017 年一整年十二个月的时间总共有是十一个月待在国外，接触到中文实体书的几率大大降低了。加上越来越忙，而精力有限，一年下来回头看看发现论文倒是看了不少，可惜书却读得少了。本文总结了本人在 2017 年内读过后感觉比较有意思的作品，这里放出来仅供参考与日后回顾。值得注意的是，本文所列书籍并非全部阅读书籍，以中文类非技术书籍为主，多为饭后娱乐，睡前消遣之用。非技术书籍清单: 人民的名义, 周梅森推荐理由：本书是在看《人民的名义》这部电视剧时买来看的，整体读下来比电视剧流畅，逻辑更清晰，其政治隐喻更加丰富。咖啡原来是这样的啊，童铃推荐理由：本书算是本人的第一本关于咖啡的「启蒙类」读物，总的来说就诸多饮品而言，抛开茶饮类不谈，我最喜欢的就是咖啡了。这本书详细介绍了几种常见的咖啡的做法，比如拿铁与卡布奇诺在做法上有什么区别、意式浓缩与美式咖啡有什么区别等等，最重要的是介绍了各地的咖啡文化。你凭什么做好互联网——从技术思维到商业逻辑，曹政推荐理由：我相信大部分偏爱技术的同学都有自己的「创业梦」，这几年的人生经历告诉了我社会的本质，当希望实现自己的奋斗目标时，技术是不够的，这本书内容不多却足够广度的阐述了屌丝创业的诸多因素，也进一步巩固了我对于这个世界的认知。工程心理学，葛列众等推荐理由：此书其实是一本学术著作。心理学是目前唯一一门能够定性的解释人类行为的学科，产品在与人打交道的过程中，心理学会发挥不可小觑的重要作用。斯坦福极简经济学——如何果断权衡利益得失，泰勒推荐理由：我的经济学领域启蒙读物，初步了解到了经济的运行规律。期权、期货及其他衍生产品，赫尔推荐理由：上半年的时候因为学业需求被迫读了此书，只读了里面关于信用评级、信用衍生品的部分，有不少收获，希望以后有时间能把其他部分也读了。硅谷革命——成就苹果公司的疯狂往事，Andy 推荐理由：Yet another history book of Apple.

深度学习的泛化理论简介

Published at发布于:： 2017-12-17 | Reading阅读:： 2 min

本文译自：http://www.offconvex.org/2018/02/17/generalization2/ 译者：欧长坤正如我们在博客上之前讨论的那样，深度学习有着太多秘密没有被理论解释。最近，许多 ML 理论学者开始对泛化之谜感兴趣：尽管这些网络拥有这比样本的数量更多的参数（经典的过拟合机制）但是为什么训练好的深度网络依然在新数据集上的表现如此优秀？Zhang 等人的《理解深度学习必须重新思考泛化性》一文成功将人们的注意力吸引到了这一富有挑战的问题上。他们的主要实验发现是，如果采用经典的卷积网络体系结构，比如 Alexnet，并在带有随机标签的图像上对其进行训练，那么仍然可以在训练数据上获得非常高的精度（此外，通常的 Regularization 策略则被认为能够提升泛化能力，但没有非常明显的帮助）。显然，训练过的网络是没有办法一直对新图片持续预测随机标签的，也就是说泛化能力不好。而这篇论文表明，在传统机器学习中， Rademacher 复杂度作为描述将分类器与带有随机标签的数据相匹配的工具，但其对样本复杂度并没有任何有意义的限制。我发现这篇论文写得很有意思，尽管这里已经介绍了这篇论文的核心部分，但我还是推荐阅读一下原文，并同时祝贺作者在 ICLR2017 上获得最佳论文奖。但是，如果我没有在 Simons Institute 2017 年春季学期做关于 ML 理论的报告，那就是我就太大意了。泛化理论的专家们对这篇论文——尤其是这篇论文的标题感到不满。他们认为，类似的问题已经在更简单的模型（例如 Kernel SVMs）的背景下做过广泛的研究了（说句公道话，那篇论文其实提到了这点），设计具有高 Rademacher 复杂度并在实际数据上训练后的结果表示泛化能力很好的 SVM 架构非常简单。更有甚者还发展了一些理论来解释这种泛化行为（以及类似于 boosting 的相关模型）。于此相关的是，一些 Behnam Neyshabur 及其合著者的几篇早期论文（这篇论文详细介绍了 Behnam 的论文）提出了与 Zhang 等人非常相似的关于深度网络的观点。无论如何，我们都应该为 Zhang 等人的这篇论文来带的对核心理论关注度感到高兴。确实，Simons 学期学者们非常有激情的讨论自己的小组如何对付这一挑战：这些结果由 [Dzigaite, Roy](Dzigaite and Roy)、Bartlett, Foster 和 Telgarsky 和 Neyshabur, Bhojapalli, MacAallester, Srebro 近期公布。在详细分析这些结果之前，我先介绍一些由 Zhang 等人论文产生的争议，这些争议是由于目前繁华理论是否是规范性或仅仅是描述性的基础性误解。这些误解来自于课堂里或者课本里关于泛化理论的标准处理手段，正如我在我毕业讨论班上发现的那样。描述型理论 vs 规范型理论为了展示他们的不同之处，考虑一个患者对他的主治医生说：『医生，我晚上经常很亢奋，但白天却困得不行』。医生1（没有任何物理诊断）：『哦，你失眠了』我将这样的诊断称之为描述型（descriptive），因为它仅仅只是把标签对应到了患者的问题上，而没有给出任何关于如何解决这个问题的看法。相反：医生2（进行物理诊断之后）：『你的鼻窦导致睡眠时呼吸停止，移除它就可以解决问题。』这样的诊断就是规范型（prescriptive）的。

Read More阅读更多 »