代码之家  ›  专栏  ›  技术社区  ›  Sabuncu

在不使用字典的情况下识别拼写错误的算法类是什么?

  •  2
  • Sabuncu  · 技术社区  · 11 年前

    请考虑以下情况:在一段文本中,字符串“slFile”出现五次,“snlFile”出现一次。后者拼写错误,但请注意,前一个词不在正确的词典中(“slnFile”是一个变量名,表示“visual studio解决方案文件”,只有文本段的作者才有意义)。

    我可以自己想出一个简单的拼写检查实现:在文本段中查找拼写相差一个字符的所有单词对,将频率计数为1的任何单词指示为可疑单词。(我知道这不是一个完美的解决方案。)

    我的问题是:处理这个问题的算法类的名称是什么?

    1 回复  |  直到 11 年前
        1
  •  2
  •   necromancer    11 年前

    计算 Damerau-Levenshtein distance 在词汇表中的所有单词之间。标记那些很少出现并且与经常出现的单词相距特别小的单词。