代码之家  ›  专栏  ›  技术社区  ›  ben

我可以使用tesseract ocr软件包从这张图片中提取某些单词吗?

  •  1
  • ben  · 技术社区  · 6 年前

    png image

    library(tesseract)
    #tesseract_download("spa") #download the Spanish train data if you haven't already
    spanish <- tesseract("spa")
    path_string <- "factura.png"
    text <- ocr(path_string, engine = spanish)
    cat(text)
    

    但结果令人失望。

    ném…c……
    …r …
    nw£ccwm … m…… u
    mmm …"
    pz… u—=,:4| nm;
    mmmnzvgm 3134
    NUM“ vmnscwm
    cuaw ……er
    nmcmvcn4 c…r vum
    £m|unmusnm . u7m
    ¡…una
    suma… ……
    ncm u|s
    m:s .
    mm u7m
    cmmo 1240
    nmrAm au…va m m
    m.
    515 mu .…
    …
    =mmnzmo
    a… rn¿a> rc.¿… ……
    u7m
    Rm mmm… swmks
    …… mmm
    m…—
    Guuumwsucmm
    

    对于每一个收据,我真正需要的只是拉出一个带有单词“equiremio”的行项目,并将其右边的值(这里是41760)。tesseract是否可以被告知只关注某些单词,同时提取数字?

    0 回复  |  直到 6 年前