![]() |
1
7
您可以使用为索引服务设计/使用的过滤器。它们被设计用来从各种文档中提取纯文本,这对于在文档中搜索非常有用。您可以将它用于Office文件、pdf、HTML等,基本上是任何具有过滤器的文件类型。唯一的缺点是您必须在服务器上安装这些过滤器,因此如果您不能直接访问服务器,这可能是不可能的。有些过滤器是随Windows预装的,但有些过滤器(如PDF)必须自己安装。对于C#实现,请查看本文: Using IFilter in C# |
![]() |
2
5
PDF格式:你有多种选择。
PDF文本:
这将输出包含在第3-7页的文本
如果你忽略了
|
![]() |
3
0
|
![]() |
4
0
使用Word对象模型,这是唯一可靠的方法,因为Word格式是不开放的,并且版本不同。 |
![]() |
5
0
你可能想看看PDFBox。这里有一个指向代码项目页面的链接,向您展示了如何在C中使用它以及其他有用的注释。 http://www.codeproject.com/KB/string/pdf2text.aspx 至于Word,使用Word对象模型的建议可能是最准确的。 |
![]() |
6
0
Docotic.Pdf library 可用于从PDF文件中提取文本。 extract plain text and text with formatting . 还有,一个 collection of words 或者可以使用库的API检索具有边界矩形的字符。
|
|
Robert King · Unity C#语法问题-转换位置 1 年前 |
![]() |
JBryanB · 如何从基本抽象类访问类属性 1 年前 |
|
law · 检查答案按钮的输入字符串格式不正确 2 年前 |
![]() |
i_sniff_ket · 在unity之外使用unity类 2 年前 |