我有一个多类分类问题,我想用逻辑回归进行排序。我知道这也可以通过决策树和随机森林来解决,但我希望特别坚持“逻辑回归与LBFGS”。
我把所有的数据都整理好了。我的数据整洁有序地存储在一个数据帧中,其中包含:
标签字段(字符串)、特征向量(特征/数字向量)和第三列“LabelIndex”(表示类的数字)。
当我对数据帧进行列车测试拆分并尝试将其拟合到:LogisticRegressionWithLBFGS
val model = new LogisticRegressionWithLBFGS().setNumClasses(10).setIntercept(true).setValidateData(true).run("trainingData")
它不喜欢“运行”部分。
我正在处理的示例通过以下方式加载数据文件:
val data = MLUtils.loadLibSVMFile(Spark.sparkContext, "data/mnist.bz2")
(我试图复制这个例子,并插入我自己的数据。但它的格式不同,看起来也不同等)
我正在阅读,我遇到了,我需要将我的数据帧转换为RDD[LabeledPoint]。
我需要绘制地图。
我很难找到关于如何做到这一点的好信息。
如何简单地转换如上所述的具有3个字段的数据帧,“标签”(字符串)、“特征”(特征向量)、“索引标签”(双精度)
进入RDD[标记点]?