library(tesseract)
#tesseract_download("spa") #download the Spanish train data if you haven't already
spanish <- tesseract("spa")
path_string <- "factura.png"
text <- ocr(path_string, engine = spanish)
cat(text)
但结果令人失望。
némâ¦câ¦â¦
â¦r â¦
nw£ccwm ⦠mâ¦â¦ u
mmm â¦"
pz⦠uâ=,:4| nm;
mmmnzvgm 3134
NUMâ vmnscwm
cuaw â¦â¦er
nmcmvcn4 câ¦r vum
£m|unmusnm . u7m
¡â¦una
suma⦠â¦â¦
ncm u|s
m:s .
mm u7m
cmmo 1240
nmrAm auâ¦va m m
m.
515 mu .â¦
â¦
=mmnzmo
a⦠rn¿a> rc.¿⦠â¦â¦
u7m
Rm mmm⦠swmks
â¦â¦ mmm
mâ¦â
Guuumwsucmm
对于每一个收据,我真正需要的只是拉出一个带有单词“equiremio”的行项目,并将其右边的值(这里是41760)。tesseract是否可以被告知只关注某些单词,同时提取数字?