代码之家  ›  专栏  ›  技术社区  ›  rajeevkbc

C#(Asp.net)是否将Pdf转换为txt文件?保持pdf对齐(txt文件中的空格和填充应与pdf文件相同)?[已关闭]

  •  -3
  • rajeevkbc  · 技术社区  · 7 年前

    itextsharp公司 pdfbox 在这两种情况下,我都能够提取文本字符,但对齐方式与pdf文件对齐方式不同,(左边距、顶部等)

    如何在txt文件中保持pdf对齐?

    1 回复  |  直到 7 年前
        1
  •  3
  •   Bruno Lowagie    7 年前

    正如您在试验iText和PdfBox时所经历的那样,您提出的问题是不可能的,因为可移植文档格式定义布局的方式与纯文本格式中建立布局的方式不匹配。

    • 在里面 .txt 文件、对齐、缩进、间距,。。。使用空格字符(如空格)实现( ),换行符( /n ). 和选项卡( /t ).
    • 在里面 .pdf 文件中,通常在单词之间使用单空格字符,但当需要多个空格时,或者在优化单词间距以获得更好的阅读体验的情况下,您会发现绝对定位优于使用空格字符。这个 \n 在内容流中,不会被视为内容的新行,但新行的概念通过新行操作符存在。PDF中根本不存在标签的概念;绝对定位使用 (x, y) 而是使用坐标。

    你的期望是,从PDF到TXT的转换过程可以以某种方式解决这种语法不匹配的问题,这很受欢迎,但这是从一个完全错误的假设开始的:你需要纯文本格式的绝对定位功能,而这种功能根本不存在。你的问题的答案是没有答案。