![]() |
1
2
怎么样:
|
![]() |
2
2
作为另一种选择,或者除了Levenshtein距离之外,您可以使用 Soundex . 它不是很好,但是可以用来索引数据(这在使用Levenshtein时是不可能的)。 |
![]() |
3
0
谢谢你们的建议。 我使用了4个索引,它们是levenshtein距离除以两个单词的长度之和(相对距离),如下所示:
作为回报,每个值都是1到1000之间的整数值。结果值是以下各项的乘积:
结果令人印象深刻。整个程序的运行速度比我预期的要快得多(在C#for Microsoft SQL Server 2008中将其构建为CLR程序集)。正确选取E1..E4后,整个数据库中非空值的最大索引(最大差异)为765。直到大约300年,几乎没有匹配的公司名称。大约有200家公司有类似的名字,有些公司的名字是相同的,但写的方式非常不同,有缩写、附加词等。当它减少到100个或更少时,几乎所有的记录都包含相同的名字,但写的略有不同,到30个,只有顺序或标点符号可能会有所不同。
我写道 a post on my blog ,以共享此库,以防其他人需要它。 |
![]() |
Dima Malko · 如何在指定符号前添加符号? 2 年前 |
![]() |
shekharsabale · 从列表元素捕获子字符串 2 年前 |
![]() |
Manny · 如何比较Perl中的字符串? 2 年前 |
![]() |
Manan Girdhar · 拆分字符串并仅在java中使用第二部分 2 年前 |
![]() |
AnxiousLuna · Python使用len()获取数组索引数 2 年前 |
![]() |
antonoyaro8 · 数据帧中每列上的Grepl 2 年前 |