Changkun's Blog

Science and art, life in between.


  • Home

  • Ideas

  • Archives

  • Tags

  • Bio

Go in 1 Hour

Published at: 2018-03-21   |   Reading: 8929 words ~18min

几个初步的 Go 语言特点:

  • 类型安全
  • 简洁的面向对象
  • 语言级并发
  • 垃圾回收

一共 25 个关键字:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
package         包引入
import          包引入

const           常量

var             变量

type            类型

goto            流程控制
if              流程控制
else            流程控制
break           流程控制
continue        流程控制
default         流程控制
switch          流程控制
case            流程控制
fallthrough     流程控制
for    	        流程控制

func            函数相关
return          函数相关
defer           函数相关

struct          面向对象
interface       面向对象

map             数据结构
range           数据结构

go              并发相关
chan            并发相关
select          并发相关
Read More »

UMSLT04: The Past and Present of SGD

Published at: 2018-03-08   |   Reading: 1571 words ~4min
我们终于在上一篇文章中形式化的定义了学习问题,并给出了能够统一描述回归问题、最小二乘法、最大似然估计等方法的一般形式:ERM 原则。实践过 SGD 的
Read More »

UMSLT03: A Gentle Start of Learning Theory

Published at: 2018-03-04   |   Reading: 4040 words ~9min

在前面两篇文章中,我们快速的聊完了深度学习的相关历史知识,从第一个学习机器感知器的诞生、到反向传播的首次再发明、理论派和实践派对 ERM 原则的不同看法以及为学习理论能够真正学到智能从而解决 ill-posed 问题的正则化手段。在理论学派看来,自然语言性质的描述永远是不够的,我们需要发展一套理论来严密的从最一般性的原理出发,彻彻底底的解决机器学习的基础,我们常说的学习到底是什么?我们提过很多次的 ERM 到底有什么特殊之处能在起基础之上产生两个方向完全不同的学派?这篇文章就正儿八经的从符号定义出发,对「学习理论」进行形式化。

Read More »

UMSLT02: A Breif History of Neural Networks

Published at: 2018-02-28   |   Reading: 1921 words ~4min

上一篇文章中我们从第一个学习模型感知器的提出聊到了人们在研究学习机器的过程中发现因果问题的反演是一个 ill-posed 的问题,正则化方法在解决 ill-posed 问题的过程中扮演了重要的角色。ERM 作为应用学派归纳推理原理的一种不证自明的方法,这篇文章我们就这个话题继续聊下去。

值得一提的是,从一个范围很宽的密度集合中估计密度函数就是一个 ill-posed 的问题。早期的统计学发展了一种叫做参数统计的方法,其最大似然估计,作为一种不证自明的方法来对有限个参数决定的密度集合进行估计。但如果我们连数据的分布假设都不敢假设,换句话说——对一种未知(参数未知)的分布进行估计,最大似然估计就无能为力了。这时候人们发展了很多非参数方法,从而建立了现代庞大且意义非凡的非参数统计学。值得一提的是,这些方法的基本假设是使用大量样本来估计密度,他们可以克服 ill-posed 的问题。

Read More »

UMSLT01: A Breif History of Regularization

Published at: 2018-02-27   |   Reading: 3151 words ~7min

前言

ICLR 2017 的 Best Paper [Zhang et al. 2017] 的作者张驰远做出了相当强的批判,指出机器学习中泛化理论并不能一致的迁移到深度学习中。论文首先通过 Randomization Test 过强的 empirical claim 认为深度学习的模型之所以能够起作用是因为其粗暴的记住了全部的样本,并非真正达到了泛化。但这一结论事实上犯了推理的逻辑错误 [Kawaguchi et al. 2017]。

然而,论文中关于正则化理论的评注「explicit regularization is unneccesary」和「SGD has implicit regularization property」却似乎显得很有分量。确实,我们在实际的调参过程中应该有注意到我们常说的「overfitting」现象并不总会在深度学习模型中表现,我们经常观察到 generalization gap 随着训练时间的增加,会短暂的上升并进而继续降低或者保持不变,并不符合我们理论上对 overfitting 的理解。就这一点问题,我围绕着 overfitting 的定义以及 regularization 提出的始末进行了相关研究,发现机器学习理论基础并没有想象中的那么简单。

于是,我准备新开一个系列,来整理我阅读相关论文的心得以及个人思考。从统计学的基本原理出发,理解统计学习理论的本质。这个系列的名字叫做《理解现代统计学习理论(Understanding Modern Statistical Learning Theory)》,为了方便起见,我们缩写为 UMSLT。

阅读本系列要求读者具有较高水平的机器学习实践经验,同时对形式化数学理论有较强功底,例如对 Banach 空间观点下的概率理论有相当了解,对参数统计学相关知识非常熟悉,对其他通用领域的数学知识也有一定程度的了解。

若读者在阅读本系列的过程中发现有原则性的错误,请务必指出,谢谢。

Read More »
2 3 4 5 6 7 8 9 10
Changkun Ou

Changkun Ou

Stop Talking. Just Coding.

274 Blogs
165 Tags
RSS
Homepage GitHub Email YouTube Twitter Zhihu
Friends
    Frimin ZZZero march1993 qcrao maiyang Xargin Muniao
© 2008 - 2022 Changkun Ou. All rights reserved. | PV/UV: /
0%