代码之家 › 专栏 › 技术社区 › ben

我可以使用tesseract ocr软件包从这张图片中提取某些单词吗?

tesseract ocr r

ben · 技术社区 · 6 年前

library(tesseract)
#tesseract_download("spa") #download the Spanish train data if you haven't already
spanish <- tesseract("spa")
path_string <- "factura.png"
text <- ocr(path_string, engine = spanish)
cat(text)

但结果令人失望。

nÃ©mâ¦câ¦â¦
â¦r â¦
nwÂ£ccwm â¦ mâ¦â¦ u
mmm â¦"
pzâ¦ uâ=,:4| nm;
mmmnzvgm 3134
NUMâ vmnscwm
cuaw â¦â¦er
nmcmvcn4 câ¦r vum
Â£m|unmusnm . u7m
Â¡â¦una
sumaâ¦ â¦â¦
ncm u|s
m:s .
mm u7m
cmmo 1240
nmrAm auâ¦va m m
m.
515 mu .â¦
â¦
=mmnzmo
aâ¦ rnÂ¿a> rc.Â¿â¦ â¦â¦
u7m
Rm mmmâ¦ swmks
â¦â¦ mmm
mâ¦â
Guuumwsucmm

对于每一个收据,我真正需要的只是拉出一个带有单词“equiremio”的行项目,并将其右边的值(这里是41760)。tesseract是否可以被告知只关注某些单词,同时提取数字?

0 回复 | 直到 6 年前

推荐文章

paru kumar · 的可访问性问题。jtessboxeditor中的jar文件

7 年前

Maddy · 如何在python中使用OCR获取图像重绘文本的坐标

7 年前

Tobias Woods · 无法在Mac上安装Tesseract OCR

7 年前

Nihal Saranga · 如何使用pip安装github包链接

7 年前

lucians · OCR:检查字母是否在图像(Opencv、Python、Tesseract)的(字符串)中

7 年前

malsatori · 如何在Python中识别图像中的数字?[已关闭]

7 年前

Darshan Patel · 使用Apache Tika+Tesseract提取扫描PDF的速度较慢

7 年前

Faabass · 无法使tesseract在Centos7上工作

7 年前

CarpeDiemKopi · Tesseract OCR眼睛参数“TesserEdit\u write\u images”

7 年前

Leo128 · JTessBoxEditor不会在Ubuntu 16.04(OpenJDK 8或9)上启动

7 年前