整个例子从 Sat Jun 4 22:45:55 CST 2016
开始,于 Sun Jun 5 11:16:53 CST 2016
结束,共经历约 12 个小时。
在 TIMIT 的代码中,一共分为了以下几个示例:
- 数据预处理;
- MFCC 特征提取 & 训练集和测试集的 CMVN,这里只提取了 MFCC,Kaldi 里支持 MFCC,PLP,PITCH;
- 单音树训练和解码,是语音识别最基础的部分
- 三音素的训练和解码(Deltas + Delta-Deltas)
- 三音素模型基础上做了LDA + MLLT变换的训练和解码
- 三音素模型基础上做了LDA + MLLT +SAT变换的训练和解码
- 三音素模型基础上做了SGMM2的训练和解码,SGMM2是povey 提出的
- 三音素模型基础上做了 MMI + SGMM2 的训练和解码
- DNN 混合训练和解码(povey 版本模型,看网上说不建议使用?)
- 系统融合(DNN+SGMM)
- Karel DNN 通用深度学习模型的训练和解码
- 获取结果
总的来说,计算机的资源没有完全被利用起来,整个过程中第十步是耗时是最长的,共花费约七个小时左右,主要时间消耗在下面代码的第三行中:
|
|
这部分主要使用显卡进行计算,显卡是目前这台MacBook Pro
的最重要的瓶颈。
整个过程中 CPU 的使用情况记录如下图所示:
GPU 的使用情况如下图所示:
GPU 的显存消耗情况如下图所示:
处理器平均负载如下图所示:
下面是整个过程的输出日志:
|
|