![]() |
1
1
请注意,pdf文件不包含 文本 . 它包含一个对象树,其中一些是包含postscript的简化变体的流,包含 命令 告诉渲染器 字形 放置在何处(或其他用于呈现图形输出的命令)。
我建议使用类似
因此,当您在呈现器中选择“文本”时,您将挂接到呈现器的进程中,该进程将标志符号放在页面上。现在,渲染器可以做出一些努力将字形重新转换为文本,这依赖于(1)在pdf中有相应的表,(2)假设生成pdf的应用程序是如何工作的(例如,它按照与原始文本相同的顺序排列字形)。如果散列此重新翻译的文本,则它始终取决于渲染器用于执行重新翻译的方法。 因此,您的用例(不管它有什么好处)将需要发送方和接收方使用相同的呈现程序。 另一方面,假设嵌入字体或相同字体,呈现是确定的(特别是在相同的呈现器中)。所以最简单的方法就是记录你在页面上的位置和页码,然后发送这些信息。 编辑 如果首先扫描纸质文档,并且需要标记多个矩形区域,请为图像选择某种格式,找到矩形的确切像素位置,将矩形内的像素提取为某种定义的格式(例如rgb 8+8+8),然后散列此数据。然后将矩形位置与散列一起发送。 为了方便起见,您可以将多个扫描图像存储在pdf中,然后使用许多工具从pdf中提取它们,但如何存储图像并不重要,只要您同意某种格式(因为有损压缩可能会更改像素值)。 这将要求您存档扫描的图像(PDF或任何其他形式)。 |
![]() |
Bumboobee · 有没有办法将Pdf放入Swal模型中? 2 年前 |
![]() |
Vik G · R中PDF中的额外字体 6 年前 |
![]() |
Penachia · PDF FontDescriptor标志 6 年前 |
![]() |
Koosh · PDF文档的页数不一致 6 年前 |
![]() |
Juan Antonio · pdftk-使用FDF自动填充PDF表单 6 年前 |