Generalization in Deep Learning, Kenji Kawaguchi
ReLU 网络的路径展开
Section 5、6 是全文最有趣的地方了,可惜这个地方作者表达得不是特别好。一个比较主要问题就是作者没有说明 $w_\sigma$ 的定义,这导致了很多人往后就开始懵逼。我问了一下 Kenji ,确认了一下我的理解,他也承认这个地方写得不是很好,因为 $w_\sigma = \bar{w}$,他使用不同记号的原因在于在 5.3 里面要解释 two-phase training。