如何在16.04上为Tesseract安装新的语言包


19

刚刚安装了gscan2pdf v1.3.9以及Tesseract。至于后者,它首先出现在我的“已安装软件”列表的底部,但现在似乎消失了,尽管仍然可以使用(我认为)。

无论如何,我正在尝试将扫描文档的pdf转换为可编辑的文本,但是该文档不是英文的,因此gscan使它变得一团糟。

唯一的选择,我是说我去Tools > OCR > Language to recognizeEnglishequosd。关于如何安装特定语言包的任何想法?

我不是经验丰富的Linux用户,所以分步说明将不胜感激。

Answers:


33

只需使用以下命令安装必要的ocr语言:

sudo apt-get install tesseract-ocr-[lang]

[lang]可以在哪里

all

要么

afr
amh
ara
asm
aze
aze-cyrl
bel
ben
bod
bos
bul
cat
ceb
ces
chi-sim
chi-tra
chr
cym
dan
dan-frak
deu
deu-frak
dev
dzo
ell
enm
epo
est
eus
fas
fin
fra
frk
frm
gle
gle-uncial
glg
grc
guj
hat
heb
hin
hrv
hun
iku
ind
isl
ita
ita-old
jav
jpn
kan
kat
kat-old
kaz
khm
kir
kor
kur
lao
lat
lav
lit
mal
mar
mkd
mlt
msa
mya
nep
nld
nor
ori
pan
pol
por
pus
ron
rus
san
sin
slk
slk-frak
slv
spa
spa-old
sqi
srp
srp-latn
swa
swe
syr
tam
tel
tgk
tgl
tha
tir
tur
uig
ukr
urd
uzb
uzb-cyrl
vie
yid

1
“ eng”也应列入名单
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.