代码之家 › 专栏 › 技术社区 › Isa

PDF中的机械化数据提取和文本识别

ocr computer-vision pdf

Isa · 技术社区 · 7 年前

下面的链接包含了我在谷歌上找到的一张图片。我并不拥有这幅图像,但出于说明目的,我正试图提取位于类似于此的结构化“块”中的信息,并以编程方式处理提取的信息。

所有文本均为打印/打字文本,理论上应具有良好的准确性。我愿意根据需要学习,以使这项工作,但我不知道从哪里开始。我想知道

这是一个一次性练习,意味着它使事情变得“漂亮”,而“哑巴证明”(即不需要GUI)并不重要。

谢谢

1 回复 | 直到 7 年前

Joris Schellekens 7 年前

这可以使用两种工具的组合。iText和Tesseract OCR。伪代码:

推荐文章

bz_jf · CNN训练损失太不稳定了

2 年前

Ze0ruso · 做模型。eval()在代码中的位置有什么关系?

2 年前

melon Z · 为什么平移是本质矩阵的零向量

6 年前

alfa_80 · 在图像/帧序列中查找差异/相似性的算法

6 年前

Liu Hantao · 如何输出cv2返回的结果。将()读入文件

6 年前

mathjunkie · Tensorflow渐变为0,权重未更新

6 年前

Joseph Bullock · OpenCV导入错误mac

6 年前

Jepoy · 如何在人脸检测到微笑时使用Ionic捕捉照片?

6 年前

reshadshuvo123 · 使用Keras图像生成器进行数据扩充使训练速度非常慢

6 年前

mike1952 · 分块使用参数控制录制网络摄像头视频

7 年前