代码之家  ›  专栏  ›  技术社区  ›  Ryan Prior

如何计算复杂文档(.rtf、.doc、.odt等)中的字数?

  •  4
  • Ryan Prior  · 技术社区  · 15 年前

    看看OpenOffice.org的py uno脚本接口和支持的格式列表,将文档加载到一个无头OOo中并调用其单词计数函数似乎是理想的选择。然而,我找不到任何超越基本文档生成的py-uno教程或示例代码,甚至我找到的代码片段也过时了五年,不再工作。

    无论是否使用OOo和Uno,我如何才能获得各种格式文档的可靠字数?

    2 回复  |  直到 15 年前
        1
  •  3
  •   Sleepingrock    15 年前

    并称其为 word-count function

    PyODConverter

    以下是OOo作为无头服务的启动方式:

    soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard

    然后您只需编写一个小的引导程序,在命令行上调用OOo,运行脚本,然后关闭OOo。


        2
  •  2
  •   Tomasz Zieliński    15 年前

    这可能不是您的选项,但如果是这样,您可以将文档上载到Google文档,然后以.txt格式导出。谷歌通常在转换方面做得很好。

    您可以在此处找到相关的API: http://code.google.com/intl/pl/apis/documents/docs/1.0/developers_guide_python.html

    看看登录、上传和导出部分。