代码之家  ›  专栏  ›  技术社区  ›  SarahData

用coo\u矩阵到csr\u矩阵的重复和计算无矩阵的余弦相似性

  •  1
  • SarahData  · 技术社区  · 6 年前

    我想计算一个数据集的产品之间的余弦相似性。我有超过100000行(row=用户购买事件)和超过80000个产品。

    避免使用 pandas.crosstab

    >  user_id\item_id  1  2  3  4  ...   
    >       1         | 1  1  0  0
    >       2         | 0  1  0  0
    >       3         | 1  0  1  0
    >       4         | 0  0  0  0
    >       5         | 0  0  1  0
    >       ...
    > 
    > Matrix: Whether a user purchased an item or not
    

    我将数据集转换为 scipy.coo_matrix 我想我必须这么做 tocsr() coo_matrix csr_matrix 它对重复项求和(我不希望发生这种情况,我只希望矩阵中有1和0)。

    1 回复  |  直到 6 年前
        1
  •  0
  •   piman314    6 年前

    csr_matrix

    X[X > 1] = 1