代码之家  ›  专栏  ›  技术社区  ›  Brant Messenger

如何使用Zend_Pdf从Pdf页面提取文本

  •  2
  • Brant Messenger  · 技术社区  · 14 年前

    有人能帮忙从pdf格式的页面中提取文本吗?

    <?php
    $pdf = Zend_Pdf::load('example.pdf');
    $page = $pdf->page[0];
    

    我假设存在一个页面方法,但我找不到任何可以让我提取内容的东西。

    示例:$page->getContents()$第页->toString()$第页->提取文本();

    ...帮助这快把我逼疯了!

    2 回复  |  直到 14 年前
        1
  •  2
  •   Cal Jacobson    14 年前

    我同意安迪的观点,这似乎没有得到支持。另一种选择是,看看 Shaun Farrell's solution to extracting text from a PDF for use with Zend_Search_Lucene .他用 XPDF ,这也可能满足您的需求。

        2
  •  0
  •   Andy    14 年前

    从…起 the manual 似乎不支持此功能。此外,使用 drawText() function ,它似乎在写图像,而不是简单的“可解码”文本。