![]() |
1
11
但是,你想要的结果应该是什么还不清楚。什么样的产品名称
应该
是最相似的吗?同一品牌?同样的颜色?(如果其中任何一个,您可以使用比
由于这不是常规的自然语言文本,您可能有一个非常小的受限词汇表—可能只有几千个标记,而不是普通语言中的几万到几十万个标记。而且,每一个代币可能只出现在少数几个例子中(单个生产商的产品线),绝对不会出现与类似竞争产品的密切相关的术语(因为产品名称
不要
这些因素也会对这种算法提出挑战,因为这种算法需要多种不同的重叠使用词,以及许多含义深浅的词,才能逐渐将向量推进有用的排列。一个小的词汇表可能需要使用一个更小的模型(更低的
很多
你应该举例说明你的“培训”中的实际内容_数据.csv“文件,查看算法实际使用的是什么。请注意
降低
你不需要改变
总的来说,我建议:
根据你真正的“相似性”目标是什么,你仍然可能得不到很好的结果产品名称不是同一种自然语言
另一个需要考虑的基线是将每个产品名称视为一个“单词包”,这会产生一个单词(来自完整词汇表)的热门向量。这些热点向量的余弦相似性(可能有额外的加权)将是一个简单的衡量标准,至少可以捕捉到一些东西,比如把所有的“黑色”物品放得更近一些,或者所有“诺基亚”物品等等。 |
|
user8566323 · Gensim中doc2vec标记中的问题 7 年前 |