代码之家  ›  专栏  ›  技术社区  ›  newleaf

使用pyspark训练隐式推荐系统。星火推荐

  •  0
  • newleaf  · 技术社区  · 3 年前

    有很多关于使用pyspark构建推荐系统的帖子。推荐信。

    我对推荐系统的数据准备有一些疑问。 请点击一篇广泛格式的网站文章,如:

    userId   article1     article2 article2
    u1         null       2          1
    u2         1          null       null
    ...................
    
    

    据派斯帕克说。ml.建议,输入数据需要特定格式,因此上述数据集被融合为长格式。

    我们如何处理这里丢失的数据? 在sklearn中,丢失的数据需要用特定值填充或删除。

    另一个问题是关于特征规范化。 每个用户都有用户行为偏差,有些文章也有条目偏差。用户级规范化和项目级规范化有帮助吗?

    在sklean中,交叉验证具有详细模式,可以打印出一些中间结果。到目前为止,我还没有发现spark CrossValidator有这样的模式。有没有办法从CrossValidator获得中间结果?

    0 回复  |  直到 3 年前