序
从上个学期开始正式接触所谓“人工智能”,到这个学期差不多快一年了,陆陆续续逐步从感知机到SVM,从HMM到DL,逐步感受到这门学科的巨大深坑。我就来说说我的认识好了。
最初大一的时候第一次听说人工智能时是因为周伟老师(周老师确实厉害,我觉得应该是教过我的老师里面最有水平、最敬业的老师之一了),当时是和他谈到专业方向的问题,他随口提了一下他是做人工智能的。
不过当时大一计算机的皮毛都没接触到,C语言都还学得很残,也没有太在意这件事。直到后来当我接触计算机视觉之后,再后来随着对问题的深入才注意到,实际上原来这些东西我早有耳闻。
一、计算的复杂性
最开始的时候接触的是一门叫做计算复杂性理论的学科, 学到有关计算层次的东西,其中最最基础的一个东西叫做有限状态自动机,但后来才发现这玩意儿是一种非常弱的模型,只能处理正则文法正则表达式的东西,显然是不可能处理我们希望的所谓人工智能。
于是后来就出现了确定性下推自动机,但是这东西是一种上下文无关语言,尽管它后来给出了非确定性模型,能够处理的问题比确定性更广泛,但是仍然很鸡肋。最后到图灵机,不过很遗憾的事就是随着NP理论完善,图灵机也是有它自身的缺陷。
举个简单的例子,我们人脑能够处理的事情显然是指数级甚至阶乘级的复杂度甚至更复杂的问题,但是图灵机智能处理P类问题,而NP等于P吗?我个人还是很倾向于不等于的。因此,图灵机也就到P类问题截至了,还能继续突破吗?有人是这么评价图灵机的:图灵机奠定了人工智能的基础。但是,这个说法靠谱吗?实际上图灵机外面还有一些不可计算的问题,被称作不可判定问题,比如说停机问题(本质上就是罗素悖论)。
二、体系结构的硬伤
后来就接触到了计算机的结构体系——冯诺依曼体系,冯诺依曼干了什么事情呢?冯诺依曼提出了计算机的体系结构,其实就是一种实现通用图灵机的计算设备。
这种体系结构有一个很大的毛病,那就是这是一种串行的计算设备,无论你怎么改进,一个时刻永远只能处理一条指令,就这一点,几乎就给在这点上实现人工智能进行了第一道封喉。
另一方面,存取结构也存在巨大障碍尽管大脑记忆的存取方式尚不明确,但是我们能够明确的是,记忆至少是一种随机的非线性的存取结构。但是硬盘呢?尽管架构师们如何改进他们的内存硬盘架构,但是始终摆脱不了这样的尴尬——存储器始终是线性的,存取方法永远是索引的…(硬伤…这就叫硬伤…)
三、统计学的胜利
难道就没有什么办法了吗?这时候统计学的使用开始变的至关重要,尽管最初是非统计的方法应用较早,当时计算机科学家们数学功底一般,天真的以为能够找到一个解析解来解决问题。但后来科学家们很快就意识到,统计能够获得更好的效果,我们待会儿来看看是什么原因。
所以现在倡导的大数据的战略模式,就如同当年社交网络的诞生一样,似乎一夜之间所有的商业公司都开始拼了命的搜集用户隐私数据。一个很重要的基础就是:总体=样本。当这两个概念可以划等号的时,估计就没有了任何意义,因为我们在做决策的时候,依托现在的计算量,直接给出的就是全样本,只要特征选取正确,误差处理合理,则总能给出合理的预测。因为我们天真的认为,事物的变化总是有规律可循的。
一个我们实实在在能够感受到的例子就是语音识别技术,谷歌的Google Now、苹果的Siri、微软的Cortana,这些产品的背后用得不是别的,是数学,更精确一点,是统计学。一个非常基础的解决方案,就是HMM。甚至,在人机交互中有这样的观点:我们是否可以考虑会通过一些User Input来消除适当的计算量。
另一个例子是百度有个深度学习研究院,前阵子学术界的大牛吴恩达也加入其中,可见现在这套理论的火热程度。但是深度学习的本质上只是一种深层的神经网络,当时只不过计算量奇大,收敛速度也不能忍,早在上个世纪七十年代就被学术界给抛弃了。但是09年的时候,有位大牛做了一点点小的改进,于是把这堆死灰复燃了,而且,依据这套东西,学者们迅速改进,短短几年时间,Google做出了依托YouTube海量样本的惊艳产品——让计算机领悟了猫的概念。
为什么统计学会胜利?一个非常重要的原因就得益于这样一个人类行为:人脑是基于经验的。我们可以不假思索的对某些事物做出判断,就是因为我们在脑海中积累了大量的对于某件事物的分类信息。于是我们为何不把经验引入计算机体系当中呢?于是,便有了今天。(说一个打脸的事,百度依托它的这套系统,对这届世界杯进行了预测,不过这次葡萄牙的表现,也是妥妥的打脸了)
四、总结
所以,人工智能到底发展到什么地步了?前途有多大?
首先,谷歌苹果微软等涉足科技的公司做出来的产品看起来那么的智能,其实他们的本事简单得出奇——只是全样本下的数据分类而已。图灵机只是一种计算模型,它的数学本质在于集合论,基础靠的是ZFC公理系统,而图灵机这种基础计算模型的基础可以追溯到ZFC公理系统,但是在这个公理系统下,有着哥德尔定理在其决定性的压制。当然后来还诞生了诸如范畴论之类的东西,当然这些都是后话了。在这么多硬伤的状态下,人工智能还有多少前景?
其次,现在人工智能的实现,只不过是上个世纪六十年代就被数学家们玩烂了的东西,不过现在摩尔定律当道,解决了当时看似不可能的计算效率,才得以进步。这些东西,本质没有变,体系没有变,结果当然也不会有所改变。倘若不久的将来,摩尔定律也到头了,计算机科学的发展也可能到达第一个低谷了。
不仅如此,数学家们当时还给出了我们没办法处理全样本时的一系列解决方案(样本估计总体),这些方案在日后存储设备跟不上数据的生产速度时,计算机科学家们肯定会有一次重拾这一堆死灰,稍加改进,从而又会引发下一个巅峰吧。
再有,我很喜欢下面这个例子:当人类发明第一个梯子可以爬上树的时候,登月还有很远很远,更重要的是,整个方向就是错误的,梯子并不能登月。 现如今二十一世纪已经过去了十多年,真正的革命性突破还没有出现,但是,电池技术干翻了化学,可以预见的芯片技术将干翻物理,而人工智能也会干翻数学。回想一次次的理论大爆炸的起点,第一次是牛顿和莱布尼兹的微积分,第二次是伽罗华的群论,第三次则是勒贝格和它引领的测度理论,第四次会是什么呢?
总而言之,想要实现所谓高并发、高复杂度、随机存取等一系列复杂结构的人脑智能,有生之年,只能期待下一个伽罗华似的人物来革新整个数学基础体系了,到那时,无论是学术界,还是工业界,都将为之振奋。
进一步阅读的参考文献
[1]《计算理论基础(第二版)》Harry R.Lewis 等著
[2]《人工智能:一种现代方法(第三版)》 StuartRussell 著
[3]《算法导论(第三版)》Thomas H. Cormen 著
[4]《机器学习》 Tom Mitchell 著
[5]《Naive Set Theory》 Paul R. Halmos 著
[6]《用户界面设计——有效的人际交互策略(第五版)》 Ben Shneiderman 等著
[7]人工智能史 http://zh.wikipedia.org/wiki/人工智能史
[8]人工智能正在迈向技术的奇点吗?http://www.zhihu.com/question/24078012
[9]深度学习:推进人工智能的梦想 http://www.csdn.net/article/2013-05-29/2815479