藏在文件里
stringdist
具体如下:
雅罗-温克勒距离(
method=jw
0<p<=0.25
)向Jaro距离添加校正项。定义为
d â l · p · d
,在哪里
d
l
通过从输入字符串的开始计算两个字符串之间的第一个字符不匹配的字符数(最多四个)来获得。
因素
p
是一个惩罚因子,在Winkler的工作中通常取0.1。
然而,在
stringdist::stringdist
,
p = 0
默认情况下。因此:
1 - stringdist("advil", c("advi", "advill", "advil", "dvil", "sdvil"),
method = "jw", p = .1)
# [1] 0.9600000 0.9666667 1.0000000 0.9333333 0.8666667
hard-coded in the source of
RecordLinkage::jarowinkler
.