![]() |
1
3
如果你真的有1米长的行,并将它们成对进行比较,你会得到天文数字的比较。SpaCys
什么SpaCys
因此,对你来说,复制这么多对的相似性可能最有效的方法是使用Gensims预训练的word2vec模型来获得整个语料库中每个唯一令牌的语义令牌表示向量,然后对每一行计算其中标记的向量的平均值,然后一旦你有了这1m的文档向量作为numpy数组,你就可以使用numpy或scipy来计算余弦相似性,这比纯Python快得多。 也可以看看这个与你的问题类似的帖子: Efficient way for Computing the Similarity of Multiple Documents using Spacy 我不确定你的代码中的主要目标是什么,但我很确定,计算每个成对的相似性不是必需的,或者至少不是实现该目标的最佳方式,所以请分享更多关于你需要这种方法的上下文。 |
![]() |
2
3
在浏览了答案和其他相关线索之后 Efficient way for Computing the Similarity of Multiple Documents using Spacy ,我设法大大加快了速度。 我现在使用以下代码:
其中texts_1和texts_2具有相同的长度,由要比较的对组成(例如。
在空间负载中添加“排除”导致大约2倍的速度提高。
使用
|
![]() |
July · 如何定义数字间隔,然后四舍五入 1 年前 |
![]() |
user026 · 如何根据特定窗口的平均值(行数)创建新列? 1 年前 |
|
Ashok Shrestha · 需要追踪特定的颜色线并获取坐标 1 年前 |
![]() |
Nicote Ool · 在FastApi和Vue3中获得422 1 年前 |
|
Abdulaziz · 如何对集合内的列表进行排序[重复] 1 年前 |
![]() |
asmgx · 为什么合并数据帧不能按照python中的预期方式工作 1 年前 |