代码之家  ›  专栏  ›  技术社区  ›  JetS79

Scala带标记点的多类分类

  •  0
  • JetS79  · 技术社区  · 4 年前

    我有一个多类分类问题,我想用逻辑回归进行排序。我知道这也可以通过决策树和随机森林来解决,但我希望特别坚持“逻辑回归与LBFGS”。 我把所有的数据都整理好了。我的数据整洁有序地存储在一个数据帧中,其中包含: 标签字段(字符串)、特征向量(特征/数字向量)和第三列“LabelIndex”(表示类的数字)。

    当我对数据帧进行列车测试拆分并尝试将其拟合到:LogisticRegressionWithLBFGS

    val model = new LogisticRegressionWithLBFGS().setNumClasses(10).setIntercept(true).setValidateData(true).run("trainingData")
    

    它不喜欢“运行”部分。

    我正在处理的示例通过以下方式加载数据文件:

    val data = MLUtils.loadLibSVMFile(Spark.sparkContext, "data/mnist.bz2")
    

    (我试图复制这个例子,并插入我自己的数据。但它的格式不同,看起来也不同等) 我正在阅读,我遇到了,我需要将我的数据帧转换为RDD[LabeledPoint]。 我需要绘制地图。

    我很难找到关于如何做到这一点的好信息。

    如何简单地转换如上所述的具有3个字段的数据帧,“标签”(字符串)、“特征”(特征向量)、“索引标签”(双精度) 进入RDD[标记点]?

    0 回复  |  直到 4 年前
        1
  •  0
  •   JetS79    4 年前

    让它工作:

    Can't convert Dataframe to Labeled Point

    这个链接向我展示了如何成功进行转换。