1
0
我认为最简单的解决办法是 拯救 在第一个数据集上训练后的嵌入,然后 负载 训练后的模型,并继续训练第二个数据集。这样,您就不应该期望嵌入偏离保存状态太多(除非您的数据集非常不同)。 从所有文档中创建单个词汇也是有意义的:特定文档中不存在的词汇将得到一些随机表示,但它仍然是一个有效的word2vec模型。 示例来自 documentation :
|
Christopher · Doc2Vec的管道和网格搜索 6 年前 |
user2578525 · 生产环境中的文档相似性 6 年前 |
surya · UnpicklingError:加载键“3”无效 6 年前 |