Answers:
可以使用的软件是CMUSphinx。与另一个答案中所建议的不同,朱利叶斯(Julius)不适合,因为它需要模型。Julius无法使用用于大词汇量语音识别的模型。
您可以使用Pocketsphinx转换音频文件。这两个命令必须完成工作。首先,您将文件转换为所需的格式,然后识别它:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
运行口袋狮身人面像
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt
结果将存储在result.txt中。
pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log
工作。也许它们不是最佳软件包,但它们是我在存储库中可以找到的最佳匹配。
我知道这很旧,但是要扩展Nikolay的答案并希望在将来节省一些时间,为了获得Pocketsphinx的最新版本,您需要从github或sourceforge存储库进行编译(不确定保持最新状态)。注意,-j8表示如果可能,并行运行8个单独的作业;如果您有更多的CPU核心,则可以增加数量。
git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
然后,从:https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/
下载的最新版本cmusphinx-en-us-....tar.gz
和en-70k-....lm.gz
tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz
然后,您最终可以继续执行Nikolay的答案中的步骤:
ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
-hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
2>pocketsphinx.log >book.txt
Sphinx正常工作。我不会依靠它来制作文本的可读版本,但是它足够好了,如果您要查找特定的报价,可以进行搜索。如果您使用Xapian(http://www.lesbonscomptes.com/recoll/)这样的搜索算法,该算法可以接受通配符,并且不需要确切的搜索表达式,那么效果特别好。
希望这可以帮助。
pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory
-------> export LD_LIBRARY_PATH=/usr/local/lib
------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
如果您希望将语音转换为文本,可以尝试打开Ubuntu软件中心并搜索Julius
描述
“ Julius”是一款高性能,两遍大词汇量连续语音识别(LVCSR)解码器软件,适用于与语音相关的研究人员和开发人员。
或不在软件中心内的另一个选项是Simon
...是一种开源语音识别程序,代替了鼠标和键盘。
参考链接
http://julius.sourceforge.jp/en_index.php