![]() |
1
2
你有一个比诺维格更复杂的问题: 中文输入法本例中的拼写错误(至少在本例中)主要是由 pinyin 输入法。同一个“jiyi”(英语:飞机机翼)的类型可能会导致不同的中文短语:
汉语分词在汉语中,要将一个长句分解成具有语义意义的小标记,您需要 segmentation 例如:
你可能可以从一系列拼写错误开始实验。我想你可以从你的用户日志中收集一些。使用您的示例,一次找出一个拼写错误:
(在这里,您可能需要一个中文分割算法来实现é应该一起处理)。 然后,您应该尝试使用编辑距离思想在产品数据库中查找其最近的邻居。注意:
构建Lucene索引lucene 索引。然后,对于每个用户查询,查询匹配问题被转换为搜索问题,其中我们向搜索引擎发出查询,以在数据库中找到最佳匹配文档。在这种情况下,我相信Lucene可能会负责分段(如果不是,您需要扩展其功能以满足您自己的需要)和标记化。 |
![]() |
inf3rno · 无训练集的字符串模式识别 6 年前 |
|
Lich · 很难将Alpha-beta修剪实现为minimax算法 6 年前 |
|
Freakant · NLTK。检测句子是否是疑问句? 6 年前 |
![]() |
Andrey Proskurin · 有没有办法改进我的遗传算法? 6 年前 |
![]() |
NASEEM FASAL · 如何跟踪用户兴趣并根据他们的兴趣显示产品 7 年前 |
![]() |
Sakhri Houssem · 我们如何计算卷积输出的深度? 7 年前 |
![]() |
Samo PoláÄek · sigmoid和tanh的数据集值分布 7 年前 |
![]() |
Randoms · R: 检查培训数据中的变量 7 年前 |
|
Shiva Reddy · 了解CNN和RNN之间的基本区别 7 年前 |