语音识别应用程序可将MP3转换为文本？

27

有谁知道一种可以将音频转换为文本的应用程序吗？我正在运行ubuntu 12.04 LTS。

software-recommendation speech-recognition

— 科帕诺
source

我认为这是口头文字。该文本使用哪种语言？

— Martin Ueding

演讲文本为简单的英语。

— Kopano

21

可以使用的软件是CMUSphinx。与另一个答案中所建议的不同，朱利叶斯（Julius）不适合，因为它需要模型。Julius无法使用用于大词汇量语音识别的模型。

您可以使用Pocketsphinx转换音频文件。这两个命令必须完成工作。首先，您将文件转换为所需的格式，然后识别它：

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

运行口袋狮身人面像

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

结果将存储在result.txt中。

— 尼古拉·希米列夫（Nikolay Shmyrev）
source

同时，作为一个除了这个答案，还有两者的清凉演示speech recognition和voice command：这里的工具youtube.com/...

— Daithí

如何为系统添加声学模型？

— jarno 2015年

您只需下载并解压缩，就没有诸如“添加到系统”之类的东西

— Nikolay Shmyrev，2015年

@NikolayShmyrev我应该在哪里拆包，以便pocketsphinx_continuous找到它？

— jarno 2015年

4

好吧，我在Ubuntu 14.04的Universe存储库中安装了pocketsphinx-utils，pocketsphinx-hmm-en-hub4wsj和pocketsphinx-lm-en-hub4软件包。然后pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log工作。也许它们不是最佳软件包，但它们是我在存储库中可以找到的最佳匹配。

— jarno 2015年

12

我知道这很旧，但是要扩展Nikolay的答案并希望在将来节省一些时间，为了获得Pocketsphinx的最新版本，您需要从github或sourceforge存储库进行编译（不确定保持最新状态）。注意，-j8表示如果可能，并行运行8个单独的作业；如果您有更多的CPU核心，则可以增加数量。

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

然后，从：https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ 下载的最新版本cmusphinx-en-us-....tar.gz和en-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

然后，您最终可以继续执行Nikolay的答案中的步骤：

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sphinx正常工作。我不会依靠它来制作文本的可读版本，但是它足够好了，如果您要查找特定的报价，可以进行搜索。如果您使用Xapian（http://www.lesbonscomptes.com/recoll/）这样的搜索算法，该算法可以接受通配符，并且不需要确切的搜索表达式，那么效果特别好。

希望这可以帮助。

— 乔纳森·佩里·豪特斯
source

4

每件事都像魅力一样工作，但就我而言，我必须执行以下命令来修复

pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory

-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig

— Vijay Dohare

在cmusphinx.github.io/wiki/tutorialpocketsphinx/…

— andrybak

11

如果您希望将语音转换为文本，可以尝试打开Ubuntu软件中心并搜索Julius

描述

“ Julius”是一款高性能，两遍大词汇量连续语音识别（LVCSR）解码器软件，适用于与语音相关的研究人员和开发人员。

或不在软件中心内的另一个选项是Simon

...是一种开源语音识别程序，代替了鼠标和键盘。

参考链接

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

— CoalaWeb
source

1

您可以使用speechpad.pw转录面板

观看使用转录的视频

— 阿列克谢
source

尽管我认为它不能回答要复制现有文件的问题，但这看起来很酷。话虽这么说，我只是尝试了狮身人面像，但失败了……转录错误99.9％。

— 亚历克西斯·威尔克