上一篇文章中我们从第一个学习模型感知器的提出聊到了人们在研究学习机器的过程中发现因果问题的反演是一个 ill-posed 的问题,正则化方法在解决 ill-posed 问题的过程中扮演了重要的角色。ERM 作为应用学派归纳推理原理的一种不证自明的方法,这篇文章我们就这个话题继续聊下去。
值得一提的是,从一个范围很宽的密度集合中估计密度函数就是一个 ill-posed 的问题。早期的统计学发展了一种叫做参数统计的方法,其最大似然估计,作为一种不证自明的方法来对有限个参数决定的密度集合进行估计。但如果我们连数据的分布假设都不敢假设,换句话说——对一种未知(参数未知)的分布进行估计,最大似然估计就无能为力了。这时候人们发展了很多非参数方法,从而建立了现代庞大且意义非凡的非参数统计学。值得一提的是,这些方法的基本假设是使用大量样本来估计密度,他们可以克服 ill-posed 的问题。