代码之家 › 专栏 › 技术社区 › Sean

在可能的英文单词边界上拆分字符串

text-analysis

1

Sean · 技术社区 · 15 年前

我最近使用AdobeAcrobat Pro的OCR功能处理了一本日语汉字字典。输出的整体质量通常比我希望的要好一些,但是文本中英文部分的单词边界经常丢失。例如,我的文件中有一行:

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

我可以四处走走,在每个地方插入缺失的单词边界,但这将增加已经是一项重要任务的内容。我希望有一个软件可以像这样分析文本,其中一些单词一起运行,并在可能的单词边界上拆分文本。有这样的包裹吗?

我正在使用emacs,所以如果所讨论的包已经是emacs包,或者可以很容易地集成到emacs中,那就太好了,这样我就可以简单地将光标放在上面这样的一行上,并重复调用一些命令,在单词边界上按可能正确的降序分割行。

2 回复 | 直到 14 年前

1

pestilence669 15 年前

我对已经存在的一切一无所知。

最简单的方法是将字符串中包含的最长单词集与字典进行简单匹配。当然,可能会有很多单词,所以你必须计划所有的组合和排列。这样做的计算代价很高,但写起来相当快。

2

0

Sean 14 年前

我也找不到任何东西,结果又找了一个 interactive approach .