代码之家 › 专栏 › 技术社区 › Kim Stacks

如何对混合了英文字母的汉字进行Norvig拼写检查?

spelling spell-checking artificial-intelligence

Kim Stacks · 技术社区 · 8 年前

我的数据库中存储了一个由英文字母、数字和汉字混合书写的产品名称列表。

有一张桌子叫 products 与田野 name_en , name_zh 除其他外。

例如。

AB 10"æºç¿¼

我想知道是否有一种方法可以为一个包含汉字的狭义术语列表做类似的事情?

E、 g.错误销售,如:

A10æºç¿¼
AB 10é¸¡ç¿¼
AB 10é¸¡ä¸
AB 10æ¨å ç¿¼

一切都会迅速 AB 10"æºç¿¼ 作为正确的拼写

我该怎么做?

1 回复 | 直到 8 年前

Community CDub 4 年前

你有一个比诺维格更复杂的问题:

本例中的拼写错误(至少在本例中)主要是由 pinyin 输入法。同一个“jiyi”(英语:飞机机翼)的类型可能会导致不同的中文短语:

 æºç¿¼
 é¸¡ç¿¼
 é¸¡ä¸
 å ç¿¼

在汉语中,要将一个长句分解成具有语义意义的小标记,您需要 segmentation 例如:

é£æºæ¨¡åé¶ä»¶ ->  Before segmentation
é£æº-æ¨¡å-é¶ä»¶   After segmentation you got three phrases separated by '-'.

你可能可以从一系列拼写错误开始实验。我想你可以从你的用户日志中收集一些。使用您的示例,一次找出一个拼写错误:

AB 10é¸¡ç¿¼

A-B-10-é¸¡ç¿¼

(在这里,您可能需要一个中文分割算法来实现é应该一起处理)。

然后,您应该尝试使用编辑距离思想在产品数据库中查找其最近的邻居。注意:

lucene 索引。然后,对于每个用户查询,查询匹配问题被转换为搜索问题,其中我们向搜索引擎发出查询,以在数据库中找到最佳匹配文档。在这种情况下,我相信Lucene可能会负责分段(如果不是,您需要扩展其功能以满足您自己的需要)和标记化。

推荐文章

inf3rno · 无训练集的字符串模式识别

6 年前

Lich · 很难将Alpha-beta修剪实现为minimax算法

6 年前

Freakant · NLTK。检测句子是否是疑问句?

6 年前

Andrey Proskurin · 有没有办法改进我的遗传算法?

6 年前

NASEEM FASAL · 如何跟踪用户兴趣并根据他们的兴趣显示产品

7 年前

Sakhri Houssem · 我们如何计算卷积输出的深度?

7 年前

Samo PoláÄek · sigmoid和tanh的数据集值分布

7 年前

Abhishek Venkataram · 使用tensorflow合并在两台不同计算机上训练的同一模型的权重

7 年前

Randoms · R: 检查培训数据中的变量

7 年前

Shiva Reddy · 了解CNN和RNN之间的基本区别

7 年前