代码之家 › 专栏 › 技术社区 › ghempton

基于模糊数据的交叉引用数据库

cross-reference fuzzy-search sphinx lucene search

ghempton · 技术社区 · 15 年前

我目前正在做一个项目,在这个项目中,我必须用一个规范格式的相同名称的单独列表来匹配大量用户生成的名称。问题在于,用户生成的名称包含许多拼写错误、缩写以及简单无效的数据,这使得很难与规范数据进行交叉引用。有什么建议吗?

这不需要实时完成,在这种情况下,准确度比速度更重要。

目前的想法是:

有人对这些或他们自己的想法有任何反馈吗?

我担心的是,上述方法都不能很好地处理缩写词。有人能给我指出一些机器学习方法来实际搜索扩展的缩写词吗(或者告诉我我疯了)?事先谢谢。

1 回复 | 直到 15 年前

joel.neely 15 年前

首先,我将在您的列表中添加在 Peter Norvig's post on spelling correction .

其次,我会问你在说什么样的“用户生成的名字”。在处理了这两个问题之后,我认为您将用于街道名称的启发式方法与用于人名的启发式方法有所不同。(作为一个简单的例子,“dr”是扩展到“drive”还是“doctor”?

第三,我将研究使用测试来建立一组系数的组合,用于组合各种技术的结果。

推荐文章

vishnu · 内存索引和lucene文件索引有什么区别?

7 年前

MikoÅaj MaÅski · JCR-SQL-contains函数不转义特殊字符?

7 年前

Fabio B. · 如何在Solr中排序/增强产品搜索结果

7 年前

Alex Torrisi · 文档中短语查询匹配数

7 年前

NoName2 · 平均结果的弹性Luence查询

7 年前

Senso Hakai · Lucene analyzer处理yo和ye(俄语字符)

7 年前

hayfreed · Lucene API查询始终返回第一个字典结果

7 年前

ankur bansal · SOLR autocomplete中没有包含空格的查询字符串的响应

7 年前

Jan Pisl · 如何实现Elasticsearch碎片大小的自动控制?

7 年前

tekamed · lucene索引损坏的原因[Alfresco 4.2]

7 年前