Kaldi 上提供了很多例子让我们学习,这里有一个 Kaldi 上提供例子的列表:
http://kaldi-asr.org/doc/examples.html
但是大部分的数据库来源于LDC,并且需要成为会员才能下载。
我们这里使用一个叫做 TIMIT 的例子,当然他也是需要付费才能使用的数据集。
然而幸运的是我们可以在这个链接里找到所有的内容:
http://www.fon.hum.uva.nl/david/ma_ssp/2007/TIMIT/
因为版权问题我不准备提供直接下载的链接,但是我作为老司机可以指一条路:wget -r,剩下的就看你自己的造化了。
数据拿到后,目录下会多出很多 .html 的文件。我这里写了一个脚本用于删除这些多余的文件,并将小写目录转换成大写目录(在 Kaldi 的 TIMIT 脚本中写出的目录都是大写的):