1
5
我已经帮助构建了一些开源工具来实现这一点。 基本上,方法是尝试将其分解并定位到其组成部分,然后智能地比较这些部分。 这两部分问题都很难解决。 第一部分通常称为地址解析。我们使用的是: https://github.com/datamade/usaddress 第二部分有很多名字,但我们称之为模糊匹配。这是我们为此制作的库: https://github.com/datamade/dedupe 我们还提供了一些将它们一起使用的设施: http://dedupe.readthedocs.io/en/latest/Variable-definition.html#address-type |