Linux 内核分析之三：Linux内核启动函数start_kernel()的简单分析

Published at发布于:： 2015-03-20 | Reading阅读:： 3 min

说明欧长坤原创作品转载请注明出处《Linux内核分析》MOOC课程http://mooc.study.163.com/course/USTC-1000029000 这学期学校恰好有操作系统的课程，上个学习就开始寻思研究研究Linux内核代码，恰好MOOC有这个课程，遂选了此课。一、准备工作废话不多说，命令一行行敲下去，搭建好环境。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 cd ~/Work/ wget https://www.kernel.org/pub/linux/kernel/v3.x/linux-3.18.6.tar.xz xz -d linux-3.18.6.tar.xz tar -xvf linux-3.18.6.tar cd linux-3.18.6 make i386_defconfig make cd ~/Work/ mkdir rootfs git clone https://github.com/mengning/menu.git # 话说这里为什么用MenuOS 我个人觉得老师一来是节约编译时间二来也可以做做广告 cd menu sudo apt-get install libc6:i386 lib32stdc++6 # 这两行安装非常有必要 sudo apt-get install lib32readline-gplv2-dev # 在64bit的Ubuntu环境下不能编译这个MenuOS的roofs 需要这些包来支持即使用了-m32 gcc -o init linktable.

Read More阅读更多 »

Ubuntu14.04 安装 Oracle 11g R2 Express Edition

Published at发布于:： 2015-03-17 | Reading阅读:： 3 min

安装 Java 环境 1 2 sudo apt-get install openjdk-7-jre sudo apt-get install openjdk-7-jdk 设置 JAVA_HOME 1 sudo gedit /etc/bash.bashrc 拖到最后面，添加下面两行： 1 2 export JAVA_HOME=/usr/lib/jvm/java-7-oracle export PATH=$JAVA_HOME/bin:$PATH 退出，执行 1 source /etc/bash.bashrc 执行下面的语句: 1 echo $JAVA_HOME 你会得到下面的结果： 1 /usr/lib/jvm/java-7-oracle 安装 Oracle 11g 执行： 1 sudo apt-get install alien libaio1 unixodbc 一定要确保上面的安装完成了一个都不能漏，如果你漏装了libaio1，最后不会成功的运行Oracle服务，会返回下面的错误：

Read More阅读更多 »

Linux 内核分析之二：基于时间片轮转的简单的系统内核构造

Published at发布于:： 2015-03-14 | Reading阅读:： 7 min

说明欧长坤原创作品转载请注明出处《Linux内核分析》MOOC课程http://mooc.study.163.com/course/USTC-1000029000 这学期学校恰好有操作系统的课程，上个学习就开始寻思研究研究Linux内核代码，恰好MOOC有这个课程，遂选了此课。一、准备工作首先，我们需要先在自己的系统上搭建实验环境，老师给出了Linux内核版本为3.9.4的加载mykernel的方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 sudo apt-get install qemu # 安装 QEMU # 这里对QEMU进行一个简单介绍，QEMU是一个Open Source Processor Emulator # 它能有效的模拟 x86 架构等个人电脑，有两种运行模式： # User mode模拟模式，QEMU 能启动那些为不同中央处理器编译的Linux程序。而Wine及 Dosemu是其主要目标。 # System mode模拟模式，QEMU能模拟整个电脑系统，包括中央处理器及其他周边设备。 # 一句话来说就是QEMU可以模拟运行我们编译的linux内核镜像 sudo ln -s /usr/bin/qemu-system-i386 /usr/bin/qemu # 为QEMU创建一个链接能够在系统级上直接执行而不需要通过目录来执行 wget https://www.kernel.org/pub/linux/kernel/v3.x/linux-3.9.4.tar.xz # 下载 Linux3.9.4 内核 wget https://raw.github.com/mengning/mykernel/master/mykernel_for_linux3.9.4sc.patch # 下载 mykernel_for_linux3.9.4sc.patch 补丁 xz -d linux-3.

Read More阅读更多 »

Linux 内核分析之一：How Computer Works 实验

Published at发布于:： 2015-03-03 | Reading阅读:： 3 min

说明欧长坤原创作品转载请注明出处《Linux内核分析》MOOC课程http://mooc.study.163.com/course/USTC-1000029000 这学期学校恰好有操作系统的课程，上个学习就开始寻思研究研究Linux内核代码，恰好MOOC有这个课程，遂选了此课。一、实验过程首先，我们将C语言代码利用编译器编译成汇编代码，下面是C语言代码： 1 2 3 4 5 6 7 8 9 10 11 12 int g(int x) { return x + 999; } int f(int x) { return g(x); } int main(void) { return f(0) + 1; } 值得一提的是，事实上在我们没有使用标准C语言库的时候，可以不引用任何头文件（比如#include 就是不需要的）。显然，上面的代码并没有用到任何库函数。通过gcc的功能，我们可以自定义编译参数来控制编译选项，我们为了让上面的代码编译成32位汇编代码，使用下面的命令： 1 gcc -S -o main.s main.c -m32 其中我们的编译环境为Mac OS X 10.10，所以提供的编译环境为64位编译环境，所以使用了参数-m32将C语言代码编译为32位汇编代码，而-S表示只是编译不汇编，生成汇编代码。而-o file表示将结果输出到file中。我们可以观察生成的.s文件，如下图所示。 bwlq分别代表8、16、32、64位寄存器操作，所以我们可以看到这里的汇编指令l结尾，说明这些指令都是操控32位寄存器长度。我们保留纯汇编代码的部分，得到如下的汇编代码 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 _g: pushl %ebp movl %esp, %ebp pushl %eax movl 8(%ebp), %eax movl %eax, -4(%ebp) movl -4(%ebp), %eax addl $999, %eax ## imm = 0x3E7 addl $4, %esp popl %ebp retl _f: pushl %ebp movl %esp, %ebp subl $8, %esp movl 8(%ebp), %eax movl %eax, -4(%ebp) movl -4(%ebp), %eax movl %eax, (%esp) calll _g addl $8, %esp popl %ebp retl _main: pushl %ebp movl %esp, %ebp subl $24, %esp movl $0, %eax movl $0, -4(%ebp) movl $0, (%esp) movl %eax, -8(%ebp) ## 4-byte Spill calll _f addl $1, %eax addl $24, %esp popl %ebp retl 下面我们来分析这段代码的行为。

Read More阅读更多 »

什么是泛函空间的大数定律？它是机器学习理论的里程碑吗？

Published at发布于:： 2015-02-17 | Reading阅读:： 1 min

欧长坤初次发表于『知乎』, 转载请注明出处。

这个问题问得很深刻，人们花了很长的时间才领悟到这个问题的答案，所以解释起来有点费力。我这里尝试性地做一个解释。首先，我们需要搞明白三件事情：什么是一个学习问题、什么是风险最小化、什么是经验风险最小化归纳原则。

什么是学习问题？

对于一个学习问题而言，给定了训练样本$(x_1,y_1),(x_2,y_2), … , (x_l,y_l)$，而训练的样本是根据联合分布$F(x,y)=F(x)F(y|x)$抽取的l个独立同分布的观测。学习问题就是从给定的函数集$f(x,\alpha),\alpha \in \Lambda$中选出能够最好地逼近训练样本的函数，换句话说，就是用最优函数估计样本背后蕴含的统计规律——用$f(x,\alpha)$估计$y$。注意，$\Lambda$是参数集合，参数$\alpha\in\Lambda$并不一定必须是向量，可以是任意多抽象参数。

Read More阅读更多 »

2014 年终总结

Published at发布于:： 2014-12-24 | Reading阅读:： 2 min

还没到年根儿，却已经忍不住开始默默地盘点。2014年对我而言感受最深的一个词，就是修行。有人说，世人痴愚、真妄难辨，人间殊途尽是同归，一切尽是福报，关努力什么事。有人说，你那么努力，忍受那么多寂寞和纠结，也没觉得你有多优秀。修行为何，为何修行？且听我娓娓道来。一、关于奋斗 {% centerquote %} I have never let anyone else interfere with my education. {% endcenterquote %} 还是和去年一样，从美赛说起吧。美赛的时候有几个小插曲，也算是比较难忘的经历，有一个队友原本应该赶回学校一同奋战，却因天气原因无法赶到。当然，这不是最有趣的，最有趣的是，我三个人竟然同时搞错了比赛时间，原本应该持续四天的比赛被我们当做了三天。也就是说我整整提前了一天提交了论文。在第三天的晚上，我和在学校的队友黄沐简直急得火急火燎，看着其他比赛的同志们，我们俩心理是这么想的：“我去…等会儿早上八点就要交paper了你们真的大丈夫吗…竟然回去睡觉…而且比赛的最后一个晚上了竟然一个老师都没有…”。而且按去年的经验，邮件提交了paper之后应该会有一份收到确认的邮件，而今年却迟迟没有出现。（比赛结束后才知道今年的比赛没有邮件确认的回复）当然啦，很自然的过了早上八点以后我们就意识到是我们自己傻逼了…原来距离比赛结束还有整整24小时，果断滚回去睡觉了… 其实看到最后证书上是个M奖的时候自己还是小激动了一下，不过马上就听到说章谢刘诸神们竟然拿了O奖，我觉得我还是滚去机房默默敲代码了［1］。春节很快就过去了，我毫不犹豫的进一步完善到现在为止综合代码量已经接近四万行的项目（注意：行数越多，水平越渣，你可以想象我有多渣了），并继续推进它，无论怎样，人们总会希望将自己的作品在最完美的时候展示给他人，当然我也不例外。所以为了给自己营造一种满满的期待感，便带着去年大创作品的微小改进版去参加了省内的某个比赛，当然，我不能妄加猜测评审老师如何如何，但我成功的在一个平台上充分的展示了它们，以及这个项目未来的意义。至于是否有吸引到其他人，他人是否能够理解，我觉得都不太重要了。这个项目花了我很长时间来思考，在架构整个项目的过程中，我几乎独立的“重新发明”了计算机科学领域的几个核心学科。比如，对于一个完全对协议栈没有概念的人，在思考如何让整个服务器架构变得自洽时，我几乎重新发明的几个关键性的网络协议；又比如，对于一个仅写过一些拙劣的C++代码（当然现在也很烂）、只懂得基本OO思想的人，在思考如何保证数据传递的有效性时，我几乎重新发明了lambda演算；还比如，对于一个完全对数据库系统没有概念的人，在思考如何使用txt对海量数据进行IO时，我几乎重新发明了数据库；再比如，对于一个完全没有详细研究过操作系统设计的人，在思考如何部署分布式集群服务器时，我几乎重新发明了操作系统中关于并发控制、内存cache与抢占等几部分；等等等等… 在这个项目里面，有很多我自认为很帅气的架构方式，比方说项目的某部分infrastructure是我独立开发的一套专门给我自己用的支持分布式集群的并行ML算法框架（我现在占时把它叫做OOMLPalallel.framework，当然肯定不是最后的名字啦，肯定要换一个既文艺又牛逼的名字，好吧，虽然写了一年多，支持的算法也只有五个Orz… ），尽管网络上可能已经有类似商业实现，但是作为一个程序员，总会有自己全新打磨一个轮子的冲动，所以也算是自己亲身经历了一次大型项目开发的快感。我预支了几个月的生活费租用服务器抓取了新浪微博的所有我想要的信息，只是为了有足够的计算资源，验证我的框架究竟能不能奏效。所以到了项目中期答辩的时候就开始各种忍不住了，本来这套ML框架我打算墨迹到最终结项时候再搬出来吹牛逼，却还是忍不住偷偷在答辩的Keynote里面透露了一点点影子。结果没想到效果很不成功，已经花了一篇日志［2］的篇幅来描写我自己的看法，这里就不继续赘述了。无论怎样，我还是决定继续奉行所有部分一定要在基本完工、基本完美的时候向世界宣布。所以如果不出什么意外的话，我计划等到项目结题的时候我再把 all these stuff 全部开源，也算是作为我大学时光里耗时最长、投入最多项目的一个印记吧。暑假时算是上了一门比较正式的外语课了，这门课的名字叫做人机交互。Hussmann教授一股带有浓烈德语腔的英文说得我一惊一乍（澄清一下，是我英语烂，不是老师说得烂），到现在我仍然非常惭愧的对不起这门课的是，有好几堂课真的是全程天书完全没有听明白说了什么。值得一提的是，这门课几乎彻底激发了我体内潜在的处女座特性（好吧虽然我是天秤Orz..），尽管以前我对用户体验有一些个人的拙劣看法，但是上过这门课并读过推荐的基本读物之后，我反正是感觉世界观都被小小的波动了一下的。大一的时候就听学长学姐们说，大三之后真的是非常的忙，简直忙透了。我一直都不以为然，结果当我真正经历的时，还真是从开学忙到期末，抛开自己给自己安排的休息时间基本上就是跑跑跑。比如什么一天到晚都是课即啦；比如周末还要去上班啦；比如根本不敢生病啊一生病就是校医院玩不起的那种得天天往人民医院跑啦；比如什么报个帐要先预约再签字后画押，从开始上班时排队排到下班都没有排到我，来来回回折腾至少得两三个星期啦；等等。基本上都是整个人感觉要疯掉了的节奏。当然，忙中作乐也是很常见的，讲课就是一件非常有趣的事。我第一次上讲台不仅是初中，而且还是数学老师叫我上的台。从那时起，几乎每次有机会上台都有让我爽到。我一直觉得都很幸运，高中的数学老师也很帅，也上我上过好几起讲台。肚子里只要是攒了一点干货，总是会找着机会吹吹牛逼。不过令我没想到的是数学建模协会又一次让我去给学弟学妹们讲课，当然，虽然口头上有所推迟，其实还是很高兴的答应了。逮着机会能在学弟学妹们面前吹吹牛逼，何乐而不为(￣▽￣)呢。值得一提的是，这届新生真的好爱学习啊！去年的这个时候，我就决定要做一个视频教程，一做就是半年［3］。尽管网上有很多网友催我继续更新，但是就我现在这个忙活劲儿，短期之内是不太可能的了。不过，下次更新的时候，可能就是一个全新的系列了。但是今年重讲建模的时候，我新做了几份，内容精简了不少，我个人感觉也精致了不少，就我个人的感触，经过了一年的沉淀，以及一次获奖的实战，对建模的认识更进了一步，算做这个系列的Version2，我个人还是非常满意的。一旦我有时间，就重制整个教程。二、关于感悟 {% centerquote %} By appreciation, I make excellence in others my own property.

Read More阅读更多 »

2014 读书清单

Published at发布于:： 2014-12-23 | Reading阅读:： 1 min

睡前在知乎上看到一个类似的问题，于是也忍不住也自己盘点了一番，看的书不多，不过列出来的我感觉都是精品。技术类的书就不说了，主要分享一下更偏人文类的吧。这些书分别有实体版购买的，有多看购买的，也有kindle版购买的。下面就是清单，考试完再加一下自己的推荐理由吧：《创业时：我们在知乎聊什么》知乎编著《金钱有术》知乎编著《金融的解释》王福重著《我知道你不知道的自己在想什么》果壳著《工匠精神：向价值型员工进化》付守永著《乔纳森传》利恩德·卡尼著《失乐园》渡边淳一著《Sophie’s Choice》 William Styron著《极简欧洲史》约翰·赫斯特著《怪诞心理学2：不可思议的心里操控》理查德·怀斯曼著《颠覆医疗：大数据时代的个人健康革命》凯文·凯利著《教训：互联网创业必须避免的八大误区》腾讯科技频道著《跨界的诱惑：中国软件外包和当下社会转型的个人记录和思考》张涛著《跨界：开启互联网与传统行业融合新趋势》腾讯科技频道著《普林斯顿数学指南（第三卷）》 Timothy Gowers 主编《生命不息奋斗不止》罗永浩著《硅谷百年史》阿伦·拉奥等著《摄影的想象与创新超现实摄影》丹尼拉·鲍克著《乔布斯的魔力演讲》卡迈恩·加洛著《呼兰河传》萧红著《生死场》萧红著《参与感：小米口碑内部营销手册》黎万强著《黑客与画家》 Paul Graham著《大道至易：实践者的思想》周爱民著

WatchKit框架与WatchApp交互初窥

Published at发布于:： 2014-11-20 | Reading阅读:： 1 min

早晨起床看邮件，发现收到了水果发来的WatchKit框架发布通知，遂中午下课马上开始看框架，发现WatchKit暂时作为一个iPhone App的Extension，还算是比较简单，Apple Watch只负责显示，一切计算都由iPhone完成。但是粗略读了文档后相信水果肯定会把Apple Watch逐步打造为一个独立平台，毕竟这个框架还是beta版。

Read More阅读更多 »

Python-MySQLdb 教程

Published at发布于:： 2014-11-06 | Reading阅读:： 2 min

Python操作MySQL，一个常用的方案就是使用MySQLdb库，安装在之前的日志已经介绍过了： Mac下新安装的MySQL无法登陆root用户解决方法下面我们来看看如何使用Python操作MySQL，基本逻辑分为四个步骤。包含MySQLdb库 1 import MySQLdb 与MySQL建立连接 1 conn = MySQLdb.connet(host='localhost', user='root';, passwd='root", db = 'euryugasaki', port=3306) connect()方法用来提供与MySQL的连接，接受多个参数，返回连接的对象： host: 数据库主机名，默认是本地主机 user: 数据库登录用户，默认是当前用户 passwd: 数据库登录密码，默认是空 db: 使用的数据库名，没有默认值 port: MySQL服务使用TCP端口，默认3306 连接对象提供了对事务操作的支持，标准方法有： commit() 提交插入更新数据的时候一定要执行commit()否则不能真正的插入数据。 rollback() 回滚运行SQL语句并接受返回值 1 2 cursor = conn.cursor() n = cursor.execute(sql,param) 我们需要使用连接返回的对象获得一个cursor对象，并使用cursor提供的方法来进行工作。这类方法包括两大类： a) 执行命令 callproc(self, procname, args): 用来执行存储过程，接受的参数为存储过程名和参数列表，返回值为受影响的行数. execute(self, query, args): 执行单条SQL语句，接受的参数为SQL语句本身和使用的参数列表，返回值为受影响的行数. executemany(self, query, args): 执行单条SQL语句，但是重复执行参数列表里的参数，返回值为受影响的行数. nextset(self): 移动到下一个结果集 b) 接受返回值 fetchall(self):接受全部的返回结果行.

Read More阅读更多 »

谈谈 CV

Published at发布于:： 2014-11-04 | Reading阅读:： 1 min

谈CV，其实只需要从著名的Image Net Challenge说起就已经足够了。多年前， CV的data set都非常非常小，几百个category几万张image已经顶天了，使得无法设计complex vision model。否则由于模型复杂度太高，data set太小，最终只能Overfitting。 2012年的时候，有个叫Feifei Li的女士人发起了巨型数据库ImageNet。如今ImageNet上已经有了接近1500W张图片了。每张图都是人工记录图片中物体的名字，并向全世界宣布：同学们，你们谁开发出了新的Object recognition算法，就在这个数据库跑跑看吧。所以，2012年的时候，就有了 Large Scale Visual Recognition Challenge，而比赛的结果会放在每年年底的NIPS公布。当时大多数“科研工作者"还在用传统的computer vision算法时，DL大牛Hinton放出大招——DeepNet。差距是这样的：第一名DeepNet的error rate是0.16422 第二名是日本东京大学，error rate是0.2617 第三名是牛津大学，error rate是0.2679 其实仔细对比第二三名的具体实现，他们使用的技术框架都非常接近，基本上就是传统的local descriptor+feature compression这一套。而在这套实现上，两者的差距几乎是可以忽略的——看看DeepNet的error rate就知道了。当时Hinton大神就放话了：“你要是没有参加前十几年的NIPS，没有关系，因为DeepNet今年才开始真正的work了”。虽然DeepNet如此牛逼的效果，但是很多的“业内人士”就觉得很不爽了，觉得这玩意儿简直就是扯淡。我觉得可能有下面几个原因： DeepNet很可能只是Overfitting，因为参数实在是太多了…6KW+ DeepNet实际上是一个黑箱，还不能从理论上详细分析里面到底在干嘛，对CV的贡献可能很有限。 DeepNet只能解决Object recognition这一个问题，而想要做到Object detection、segmentation这些基本问题，基本上也就残废了。其实，在0.5个百分点的performance提升都可以被顶级会议收录为“major contribution”这样的一个时代，被一个和最近十年computer vision尤其是object recognition领域的进展几乎没有任何交集的方法超过了十个左右的百分点，难免出现大众不接受的情况。但是，一场“革命”却已经开始了。一年后，2013年，新一轮的large scale visual recognition challenge又开始了，这时候，DeepNet却已经统一江湖了：排名第一的算法，在没有额外的traning data的情况下，跑到了error rate 0.1174这样的成绩。这个成绩是这样的：随机挑选一张图片，扔给算法去跑，算法返回五个结果。如果有一个结果猜对了，那么就算作正确。也就是说，如果允许瞎猜五次，第一名已经能够拿到90%的准确率。注意，这里的object category有两万多种，几乎覆盖了所有类别。那么，DeepNet的瓶颈在什么地方呢？看看CVPR14paper的title and abstract，CV圈子里在两个方面做improvement，但是却没有push。最终搞得DeepNet越来越像一门具有浓烈性质的实验学科，大概就是这个样子：如果对2012年Hinton大神的架构修改太多，将会出现各种惨不忍睹，各种毁于一旦。很少人有强劲的数学功底能够从理论上分析DeepLearning到底在干嘛，而即便是有强劲数学功底的那些人估计也看不上这套理论。可惜，图片数量实在是太过庞大，从工程上来看，在几周或者几天时间内完成百万级甚至千万级的Image data，真的是太难太难了。这样的话我更有理由去相信：只要愿意花时间，一个本科学生train出来的DeepNet和那些在Google百度工作了积累了十几年经验的工程师、教授train出来的，没有太大区别。不知今年的结果不知道怎么样，得等到12月份的NIPS14了。也不知学术界什么时候能够找对方向，结束这个目前以实验报告为成果展示的探索阶段，从理论上，从根本上解释这个被“炒”得“伟大”的理论究竟为什么如此奏效。参考与进一步阅读 ImageNet Large Scale Visual Recognition Competition 2012 ImageNet Large Scale Visual Recognition Competition 2013 Conference on Computer Vision and Pattern Recognition 2014 https://code.

Read More阅读更多 »