代码之家  ›  专栏  ›  技术社区  ›  Arshdeep

如何计算两个文本/字符串之间的相似度或差异百分比?

  •  3
  • Arshdeep  · 技术社区  · 14 年前

    进一步解释

    假设我有如下两条线

    我是一个会飞的超级男孩!真正地。

    我是个能打破墙壁的超级男孩! 真正地。

    所以有些字符是相似的 I am super boy who can Really . . 这两个字符串之间是否有可用的百分比相似性/差异。

    2 回复  |  直到 7 年前
        1
  •  4
  •   viggity    14 年前

    你应该看看列文斯坦的距离。

    http://en.wikipedia.org/wiki/Levenshtein_distance

        2
  •  0
  •   Community datashaman    7 年前

    这个 SO answer to a similar question 给出了Levenshtein、JaroWinkler和SmithWatermanGotoh算法的PHP代码。

    我发现Levenshtein和JaroWinkler对于较小的字符串之间的拼写错误通常能给出很好的结果。而史密斯·沃特曼·戈托 is good at comparing sentences 就像你问题中的例子。