语音识别应用程序可将MP3转换为文本?


Answers:


21

可以使用的软件是CMUSphinx。与另一个答案中所建议的不同,朱利叶斯(Julius)不适合,因为它需要模型。Julius无法使用用于大词汇量语音识别的模型。

您可以使用Pocketsphinx转换音频文件。这两个命令必须完成工作。首先,您将文件转换为所需的格式,然后识别它:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

运行口袋狮身人面像

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

结果将存储在result.txt中。


同时,作为一个除了这个答案,还有两者的清凉演示speech recognitionvoice command:这里的工具youtube.com/...
Daithí

如何为系统添加声学模型?
jarno 2015年

您只需下载并解压缩,就没有诸如“添加到系统”之类的东西
Nikolay Shmyrev,2015年

@NikolayShmyrev我应该在哪里拆包,以便pocketsphinx_continuous找到它?
jarno 2015年

4
好吧,我在Ubuntu 14.04的Universe存储库中安装了pocketsphinx-utils,pocketsphinx-hmm-en-hub4wsj和pocketsphinx-lm-en-hub4软件包。然后pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log工作。也许它们不是最佳软件包,但它们是我在存储库中可以找到的最佳匹配。
jarno 2015年

12

我知道这很旧,但是要扩展Nikolay的答案并希望在将来节省一些时间,为了获得Pocketsphinx的最新版本,您需要从github或sourceforge存储库进行编译(不确定保持最新状态)。注意,-j8表示如果可能,并行运行8个单独的作业;如果您有更多的CPU核心,则可以增加数量。

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

然后,从:https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ 下载的最新版本cmusphinx-en-us-....tar.gzen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

然后,您最终可以继续执行Nikolay的答案中的步骤:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sphinx正常工作。我不会依靠它来制作文本的可读版本,但是它足够好了,如果您要查找特定的报价,可以进行搜索。如果您使用Xapian(http://www.lesbonscomptes.com/recoll/)这样的搜索算法,该算法可以接受通配符,并且不需要确切的搜索表达式,那么效果特别好。

希望这可以帮助。


4
每件事都像魅力一样工作,但就我而言,我必须执行以下命令来修复pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Vijay Dohare


11

如果您希望将语音转换为文本,可以尝试打开Ubuntu软件中心并搜索Julius

描述

“ Julius”是一款高性能,两遍大词汇量连续语音识别(LVCSR)解码器软件,适用于与语音相关的研究人员和开发人员。

或不在软件中心内的另一个选项是Simon

...是一种开源语音识别程序,代替了鼠标和键盘。

参考链接

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.