1
3
如果您使用的是SQL Server 2005或更高版本,则可以在SSIS中使用模糊匹配来执行此任务。我发现这样做的效果比寻找soundex匹配项或编写自己的SQL scode查找近匹配项要好得多。 |
2
1
如果你只是想 可能的 重复的 checksum / binary_checksum 函数会给您一个很好的指示,尽管它只是一个32位的散列,所以根据数据集的大小,您最终可能会得到一些误报。checksum()不区分大小写,binary_checksum()区分大小写。这将为表中的每个记录提供32位散列值:
您可以对具有不同ID值(或不同名称值等)的记录的重复哈希进行自联接匹配,这取决于使给定记录在数据集中唯一的原因。看起来像这样:
这两个函数可以获取参数的任何列列表并提供哈希,因此如果您只想哈希fname、lname、address等列,而不是整个记录,则校验和函数如下所示:
而不是像上面例子中那样的校验和(*)。 |
sqlrobert · SQL-如何查找不包含特定字段值的一组记录 1 年前 |
Nick Fleetwood · 调度语法的LINQ查询 2 年前 |
Mateen Bagheri · 选择表的计数并选择其自身 2 年前 |
Java · 使用交叉应用同时显示两列 2 年前 |