代码之家  ›  专栏  ›  技术社区  ›  Sean

在可能的英文单词边界上拆分字符串

  •  1
  • Sean  · 技术社区  · 15 年前

    我最近使用AdobeAcrobat Pro的OCR功能处理了一本日语汉字字典。输出的整体质量通常比我希望的要好一些,但是文本中英文部分的单词边界经常丢失。例如,我的文件中有一行:

    softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself
    

    我可以四处走走,在每个地方插入缺失的单词边界,但这将增加已经是一项重要任务的内容。我希望有一个软件可以像这样分析文本,其中一些单词一起运行,并在可能的单词边界上拆分文本。有这样的包裹吗?

    我正在使用emacs,所以如果所讨论的包已经是emacs包,或者可以很容易地集成到emacs中,那就太好了,这样我就可以简单地将光标放在上面这样的一行上,并重复调用一些命令,在单词边界上按可能正确的降序分割行。

    2 回复  |  直到 14 年前
        1
  •  1
  •   pestilence669    15 年前

    我对已经存在的一切一无所知。

    最简单的方法是将字符串中包含的最长单词集与字典进行简单匹配。当然,可能会有很多单词,所以你必须计划所有的组合和排列。这样做的计算代价很高,但写起来相当快。

        2
  •  0
  •   Sean    14 年前

    我也找不到任何东西,结果又找了一个 interactive approach .

    推荐文章