UMSLT02: A Breif History of Neural Networks

Published at发布于:： 2018-02-28 | Reading阅读:： 1 min

上一篇文章中我们从第一个学习模型感知器的提出聊到了人们在研究学习机器的过程中发现因果问题的反演是一个 ill-posed 的问题，正则化方法在解决 ill-posed 问题的过程中扮演了重要的角色。ERM 作为应用学派归纳推理原理的一种不证自明的方法，这篇文章我们就这个话题继续聊下去。

值得一提的是，从一个范围很宽的密度集合中估计密度函数就是一个 ill-posed 的问题。早期的统计学发展了一种叫做参数统计的方法，其最大似然估计，作为一种不证自明的方法来对有限个参数决定的密度集合进行估计。但如果我们连数据的分布假设都不敢假设，换句话说——对一种未知（参数未知）的分布进行估计，最大似然估计就无能为力了。这时候人们发展了很多非参数方法，从而建立了现代庞大且意义非凡的非参数统计学。值得一提的是，这些方法的基本假设是使用大量样本来估计密度，他们可以克服 ill-posed 的问题。

Read More阅读更多 »

UMSLT01: A Breif History of Regularization

Published at发布于:： 2018-02-27 | Reading阅读:： 2 min

前言

ICLR 2017 的 Best Paper [Zhang et al. 2017] 的作者张驰远做出了相当强的批判，指出机器学习中泛化理论并不能一致的迁移到深度学习中。论文首先通过 Randomization Test 过强的 empirical claim 认为深度学习的模型之所以能够起作用是因为其粗暴的记住了全部的样本，并非真正达到了泛化。但这一结论事实上犯了推理的逻辑错误 [Kawaguchi et al. 2017]。

然而，论文中关于正则化理论的评注「explicit regularization is unneccesary」和「SGD has implicit regularization property」却似乎显得很有分量。确实，我们在实际的调参过程中应该有注意到我们常说的「overfitting」现象并不总会在深度学习模型中表现，我们经常观察到 generalization gap 随着训练时间的增加，会短暂的上升并进而继续降低或者保持不变，并不符合我们理论上对 overfitting 的理解。就这一点问题，我围绕着 overfitting 的定义以及 regularization 提出的始末进行了相关研究，发现机器学习理论基础并没有想象中的那么简单。

于是，我准备新开一个系列，来整理我阅读相关论文的心得以及个人思考。从统计学的基本原理出发，理解统计学习理论的本质。这个系列的名字叫做《理解现代统计学习理论（Understanding Modern Statistical Learning Theory）》，为了方便起见，我们缩写为 UMSLT。

阅读本系列要求读者具有较高水平的机器学习实践经验，同时对形式化数学理论有较强功底，例如对 Banach 空间观点下的概率理论有相当了解，对参数统计学相关知识非常熟悉，对其他通用领域的数学知识也有一定程度的了解。

若读者在阅读本系列的过程中发现有原则性的错误，请务必指出，谢谢。

Read More阅读更多 »

不笑不足以为道

Published at发布于:： 2018-02-25 | Reading阅读:： 1 min

记得曾经有这么一个小故事，说是欧几里德上完课有个学生发问：『我学这有什么好处？能得到什么呢？』欧几里德马上叫来仆人：『给这小子一块金币，让他滚蛋，他想要学有所获。』古人云：上士闻道，勤而行之；中士闻道，若存若亡；下士闻道，大笑之。不笑不足以为道。 Wir müssen wissen, Wir werden wissen.

论文笔记：Generalization in Deep Learning

Published at发布于:： 2018-01-28 | Reading阅读:： 2 min

Generalization in Deep Learning, Kenji Kawaguchi

arXiv: https://arxiv.org/abs/1710.05468

ReLU 网络的路径展开

Section 5、6 是全文最有趣的地方了，可惜这个地方作者表达得不是特别好。一个比较主要问题就是作者没有说明 $w_\sigma$ 的定义，这导致了很多人往后就开始懵逼。我问了一下 Kenji ，确认了一下我的理解，他也承认这个地方写得不是很好，因为 $w_\sigma = \bar{w}$，他使用不同记号的原因在于在 5.3 里面要解释 two-phase training。

Read More阅读更多 »

2017 年终总结

Published at发布于:： 2018-01-04 | Reading阅读:： 2 min

从高中毕业以后，再也没有受过正儿八经的文学熏陶，感觉几乎丢失了表达能力，以前的我是很喜欢用键盘来宣泄情绪的。而现在的我，无论是生活、感情还是技术都有过不同程度的感悟、提升后，几乎不愿意甚至不再能够行云流水的分享自己的感悟了。现在的我，突然感觉已经加速「衰老」，步入「三十岁中年」了。2017 年过得很累，希望 2018 能够过得好些吧。

Read More阅读更多 »

2017 读书清单

Published at发布于:： 2017-12-29 | Reading阅读:： 1 min

2017 年一整年十二个月的时间总共有是十一个月待在国外，接触到中文实体书的几率大大降低了。加上越来越忙，而精力有限，一年下来回头看看发现论文倒是看了不少，可惜书却读得少了。本文总结了本人在 2017 年内读过后感觉比较有意思的作品，这里放出来仅供参考与日后回顾。值得注意的是，本文所列书籍并非全部阅读书籍，以中文类非技术书籍为主，多为饭后娱乐，睡前消遣之用。非技术书籍清单: 人民的名义, 周梅森推荐理由：本书是在看《人民的名义》这部电视剧时买来看的，整体读下来比电视剧流畅，逻辑更清晰，其政治隐喻更加丰富。咖啡原来是这样的啊，童铃推荐理由：本书算是本人的第一本关于咖啡的「启蒙类」读物，总的来说就诸多饮品而言，抛开茶饮类不谈，我最喜欢的就是咖啡了。这本书详细介绍了几种常见的咖啡的做法，比如拿铁与卡布奇诺在做法上有什么区别、意式浓缩与美式咖啡有什么区别等等，最重要的是介绍了各地的咖啡文化。你凭什么做好互联网——从技术思维到商业逻辑，曹政推荐理由：我相信大部分偏爱技术的同学都有自己的「创业梦」，这几年的人生经历告诉了我社会的本质，当希望实现自己的奋斗目标时，技术是不够的，这本书内容不多却足够广度的阐述了屌丝创业的诸多因素，也进一步巩固了我对于这个世界的认知。工程心理学，葛列众等推荐理由：此书其实是一本学术著作。心理学是目前唯一一门能够定性的解释人类行为的学科，产品在与人打交道的过程中，心理学会发挥不可小觑的重要作用。斯坦福极简经济学——如何果断权衡利益得失，泰勒推荐理由：我的经济学领域启蒙读物，初步了解到了经济的运行规律。期权、期货及其他衍生产品，赫尔推荐理由：上半年的时候因为学业需求被迫读了此书，只读了里面关于信用评级、信用衍生品的部分，有不少收获，希望以后有时间能把其他部分也读了。硅谷革命——成就苹果公司的疯狂往事，Andy 推荐理由：Yet another history book of Apple.

深度学习的泛化理论简介

Published at发布于:： 2017-12-17 | Reading阅读:： 2 min

本文译自：http://www.offconvex.org/2018/02/17/generalization2/ 译者：欧长坤正如我们在博客上之前讨论的那样，深度学习有着太多秘密没有被理论解释。最近，许多 ML 理论学者开始对泛化之谜感兴趣：尽管这些网络拥有这比样本的数量更多的参数（经典的过拟合机制）但是为什么训练好的深度网络依然在新数据集上的表现如此优秀？Zhang 等人的《理解深度学习必须重新思考泛化性》一文成功将人们的注意力吸引到了这一富有挑战的问题上。他们的主要实验发现是，如果采用经典的卷积网络体系结构，比如 Alexnet，并在带有随机标签的图像上对其进行训练，那么仍然可以在训练数据上获得非常高的精度（此外，通常的 Regularization 策略则被认为能够提升泛化能力，但没有非常明显的帮助）。显然，训练过的网络是没有办法一直对新图片持续预测随机标签的，也就是说泛化能力不好。而这篇论文表明，在传统机器学习中， Rademacher 复杂度作为描述将分类器与带有随机标签的数据相匹配的工具，但其对样本复杂度并没有任何有意义的限制。我发现这篇论文写得很有意思，尽管这里已经介绍了这篇论文的核心部分，但我还是推荐阅读一下原文，并同时祝贺作者在 ICLR2017 上获得最佳论文奖。但是，如果我没有在 Simons Institute 2017 年春季学期做关于 ML 理论的报告，那就是我就太大意了。泛化理论的专家们对这篇论文——尤其是这篇论文的标题感到不满。他们认为，类似的问题已经在更简单的模型（例如 Kernel SVMs）的背景下做过广泛的研究了（说句公道话，那篇论文其实提到了这点），设计具有高 Rademacher 复杂度并在实际数据上训练后的结果表示泛化能力很好的 SVM 架构非常简单。更有甚者还发展了一些理论来解释这种泛化行为（以及类似于 boosting 的相关模型）。于此相关的是，一些 Behnam Neyshabur 及其合著者的几篇早期论文（这篇论文详细介绍了 Behnam 的论文）提出了与 Zhang 等人非常相似的关于深度网络的观点。无论如何，我们都应该为 Zhang 等人的这篇论文来带的对核心理论关注度感到高兴。确实，Simons 学期学者们非常有激情的讨论自己的小组如何对付这一挑战：这些结果由 [Dzigaite, Roy](Dzigaite and Roy)、Bartlett, Foster 和 Telgarsky 和 Neyshabur, Bhojapalli, MacAallester, Srebro 近期公布。在详细分析这些结果之前，我先介绍一些由 Zhang 等人论文产生的争议，这些争议是由于目前繁华理论是否是规范性或仅仅是描述性的基础性误解。这些误解来自于课堂里或者课本里关于泛化理论的标准处理手段，正如我在我毕业讨论班上发现的那样。描述型理论 vs 规范型理论为了展示他们的不同之处，考虑一个患者对他的主治医生说：『医生，我晚上经常很亢奋，但白天却困得不行』。医生1（没有任何物理诊断）：『哦，你失眠了』我将这样的诊断称之为描述型（descriptive），因为它仅仅只是把标签对应到了患者的问题上，而没有给出任何关于如何解决这个问题的看法。相反：医生2（进行物理诊断之后）：『你的鼻窦导致睡眠时呼吸停止，移除它就可以解决问题。』这样的诊断就是规范型（prescriptive）的。

Read More阅读更多 »

删除 GitHub 上已经提交的敏感信息

Published at发布于:： 2017-11-12 | Reading阅读:： 1 min

最近两天参加了 SIMENSE 举办的 AI Lab Hackathon，手残在 GitHub 上把账号和密码信息泄露上去了。不过好在账号是临时注册的账号。虽然是临时账号，但我还是比较希望能够删掉。于是需求变成了：如何删除一个已经 push 了的 repo 的某些历史信息？我们知道，git 仓库的信息一般是不能随便修改的，这是因为所有的 commit hash 值都是根据提交的数据、commit信息计算出来的，想要轻易修改还是比较苦难的。搜索一番发现了一个很有用的工具叫做：bfg-repo-cleaner 使用说明在他们的网站上已经写得很清楚了，这里举一个例子，就拿我想删掉已经 push 了的文件文件：首先从 bfg 的首页上下载 .jar 工具包。执行下面的命令： 1 2 3 4 $ git clone --mirror https://github.com/changkun/gitchain.git $ java -jar bfg.jar --delete-files config.ini gitchain.git $ git reflog expire --expire=now --all && git gc --prune=now --aggressive git push 然而还是会有坑在里面，因为最新的 commit 不能被删掉或者修改，也就是说 HEAD 指向的 commit 如果包含了这个文件，那么你就不能删除这个文件，这好办啊，再删掉远程仓库的最后一个 commit 就完了呗：

Read More阅读更多 »

硕士生涯的第一年就这样告一段落了

Published at发布于:： 2017-09-03 | Reading阅读:： 1 min

前段时间学长李喆问我：「来，小伙子，说说你来德国这一年的收获是什么？」我当时给他的回答是：「我已经正儿八经的把目前计算机科学的各个领域给研究了一遍，已经没有我不了解的领域了。」这个话说得很狂，确实，我知道自己的充其量不过是在某几个领域已经足够深入，大部分其他领域在长期在这个领域研究的人看来我不过是一个刚刚跑过「Hello World」的小屁孩。计算机毕竟是一个实践科学，没有长期实践，那都是狗屁。有一句话我觉得说得特别好：「Theory is when you know everything but nothing works. Practice is when everything works but no one knows why. In the industrial, theory and practice are combined: nothing works and no one knows why.」我当时来德国的契机是什么，真的都做到了吗？翻看我自己在读研之前给自己列的 TODO-DONE-LIST 如今已经有一大半完成了，这一年里收获了很多知识，精进了很多知识，至少我已经能够在大部分领域发表我自己的看法了。今天就要登上飞机回国了，于是我没事儿就喜欢总结一下的老毛病又犯了。从哪儿说起呢？生活在一个非母语的环境里确实能够让非母语有突飞猛进的进步。前几天在知乎答了一个问题，问题说「为什么部分中国人（留学生）说汉语时，常夹带英文？」是的，我也变得开始喜欢说话夹英文了，我的答案是： **出国前英语不好。**因为英语不够好，所以很多英文词汇其实在出国之前并没有在脑海中建立记忆网络。而出国后无论是英语的交流还是阅读量都远远高于出国前，于是乎很多以前不知道的词，会以英文上下文情境的形态在脑中建立突触，形成某个概念第一反应是英文词的状态。 **出国后母语变差。**是的，虽然偶尔还是会克制自己不能落下母语的学习，在用母语写作时坚决不使用英文单词，经常参与翻译工作，但我还是发现自己的母语水平几乎成直线下降。老实说，前几天到和一个中国人助教聊事情，聊事情都是用中文聊的，聊完了之后要把谈话内容总结一下发给给另一个中国同学，然后写邮件的时候发现自己居然没办法用中文流畅的打出来（天哪，全程可都母语啊），脑子里经常卡壳，然后我换成了用英语写，一口气给敲完了点了发送。之前本科大四来交换那一个学期还没有如此明显的感受，但经过这次一年的训练，我发现自己已经可以开始使用英语进行思考，并能够在面对他人不假思索的用英语脱口而出了。这是我觉得收获最大的一点。然而要知道，德国不是一个英语为母语的国家，尽管在大学里大家都会说英语，大家的英语都挺不错，我主动和别人说英语，大家也都会主动和我说英语。但有时候还是不可避免的需要和德国本地当地人打交道，总不能期望一个母语不是英语的国家每个人都会说英语吧？试想中国的某个路边的小卖部老板会英语的概率有多高？所以，第一个学期我还是意识到了这种不便性，在第二个学期我便正儿八经的开始研究德语了。为此我还初步写了一本德语的基础教程，也算是自己在硕士生涯里一个相当不小的收获，当拿到成绩单和语言证书的时候，我终于可以拍着胸脯的说：嗯，德语也不是很难嘛，当初交换的时候那一个月就是没好好学，现在老夫也是一个会说三门自然语言的人了。当然，千万别以为这个国家就好得不得了，生活上的糟心事其实也是一大堆的。与交换期间产生的强烈对比，可能是第一次来这边时一切都是新鲜的，各方面缺点都被我忽略而关注在了优点上。就住处来说，起初我曾住在一个拥有双层楼房的小别墅中，本以为这就是慕尼黑人们的标准住宿条件，其实只不过是交换生的福利罢了。而这次没有了福利后，加上突如其来的行程安排，导致我前半年挤在了一个破旧阴暗的车库杂货间里，不仅生活条件极差，还被收着高额的房租，直到第二个学期才搬进了一个条件稍有改善的单人间。这一年里与这里的同学、同事、老板、本地居民这些不同身份的人打过足够多交道后，不得不说在这里生活确实不如国内自在。最令我反感的就是德国人不紧不慢的生活状态。确实，他们并不需要为自己操心太多，领着一份不错的薪水，在如此高福利的社会环境下，不需要操心自己的经济抗压能力，生病了有免费的医疗，失业了还有高额的政府补助，甚至于土耳其难民都能领上超过我们一个月生活费还高的无偿补贴。很多人就逐渐安于现状，觉得「现在这样也挺好」。这就导致了，哪怕是一丁点的小事、一个很简单的任务分配可能会邮件来邮件去，甚至一个上午时间全部浪费在了毫无收获的小组讨论上了。也罢，吐槽的过去的事情就不再展开了。学业回过头去看这一年的时间过得真是飞快，感觉本科毕业简直就是昨天的事情，然而理论上讲，我已经完成了大部分的修课计划，除了最后一两门小打小闹、可有可无的课程外，就是自己的毕业论文了 —— 但我目前还没有特别想要完成的题目。我也可以选择不用着急着毕业之类的，每个学期修一门课好好享受一下在德国的这段时间。确实，这会让我有足够的时间来思考接下来的步伐，但可能已经违背了我自己词典里对效率的定义。在这一年里学习时间中，我正儿八经的搞明白了这些个领域，这正好都是我本科阶段还没来得及仔细研究的领域：人机交互 Human-Computer Interaction 在线媒体 Online Multimedia 并行计算 Parallel and High Performance Computing 知识表示 Knowledge Representation and Reasoning 数据分析 Big Data Management and Analytics 知识发现 Knowledge Discovery in Databases 人肉计算 Human Computation 机器学习Machine Learning 当然，「人机交互」是我的主业，这个肯定要搞明白。本科的时候虽然学过这门课的一些基础知识，而且还考出了不错的成绩，但实际上脑子里对这个领域并没有多少看法，自认为就是一些炫酷技术的拼凑，技术决定一切。而实际上当我真正静下心来阅读和实践过一两个项目之后，我才明白了「人」这个字被放在了「人机交互」的第一位的意义，这个领域真正关注的是什么，这个领域真正关心的是什么。作为积累，希望我自己能在毕业之前写完一本关于人机交互的书。

Read More阅读更多 »

人肉计算(10): 系统参与激励

Published at发布于:： 2017-07-20 | Reading阅读:： 5 min

这是「人肉计算」系列文章的最后一篇。我们来讨论参与激励的相关问题。

Read More阅读更多 »