代码之家 › 专栏 › 技术社区 › Katherina

cv。glmnet和略去一个CV

glmnet lambda r

Katherina · 技术社区 · 7 年前

我正在尝试使用该函数 cv.glmnet 寻找最佳lambda(使用岭回归)以预测某些对象的归属类别。所以我使用的代码是:

CVGLM<-cv.glmnet(x,y,nfolds=34,type.measure = "class",alpha=0,grouped = FALSE)

事实上,我没有使用K-fold交叉验证,因为我的大小数据集太小,实际上我只有34行。所以,我在 nfolds 我的行数,用于计算一个遗漏CV。

现在,我有一些问题:

1) 首先:有 cv。glmnet公司 功能调整Hyperpameter lambda或同时测试“最终型号”?

2) 有一次我得到了最好的lambda,我该怎么办?我必须使用 predict 作用如果是,如果我使用所有数据查找lambda,我必须使用哪些数据,因为我使用了LOO CV?

3) 如何计算R^2 cv。glmnet公司 作用

1 回复 | 直到 7 年前

missuse 7 年前

以下是回答您的问题的尝试:

1) cv.glmnet 通过使用规范的交叉验证来测试每个lambda的性能。以下是一个示例:

library(glmnet)
data(iris)

找到虹膜预测的最佳lambda:

CVGLM <- cv.glmnet(as.matrix(iris[,-5]),
                   iris[,5],
                   nfolds = nrow(iris),
                   type.measure = "class",
                   alpha = 0,
                   grouped = FALSE,
                   family = "multinomial")

最佳lambda的未命中分类错误为

CVGLM$cvm
#output
0.06

如果您使用LOOCV和best lambda单独进行测试:

z <- lapply(1:nrow(iris), function(x){
  fit <- glmnet(as.matrix(iris[-x,-5]),
                iris[-x,5],
                alpha = 0,
                lambda = CVGLM$lambda.min,
                family="multinomial")

   pred <- predict(fit, as.matrix(iris[x,-5]), type = "class")

  return(data.frame(pred, true = iris[x,5]))
})

z <- do.call(rbind, z)

并检查错误率:

sum(z$pred != z$true)/150
#output
0.06

因此,似乎没有必要使用与cv中相同的方法来测试性能。glmnet,因为它将是相同的。

2) 当您拥有最佳lambda时,您应该使用 glmnet 作用您在使用该模型后要做什么完全取决于您。大多数人训练模型来预测某事。

3) 分类问题的R^2是什么?如果你能解释这一点,那么你就可以计算它。

R^2=解释变化/总变化

就课程而言,这是什么?

无论如何,R^2不用于分类,而是用于AUC、偏差、精度、平衡精度、kappa、joudens J等-其中大多数用于二元分类,但有些可用于多项式分类。

我建议 this 作为进一步阅读

推荐文章

Marc B. · 使用ggplot2创建条形图时“缺少值”

1 年前

deschen · tidyverse与外部向量发生突变,该外部向量的元素是数据帧中的列值

1 年前

Laura · 在Shiny中使用可排序的包拖放名称,这些名称将成为图表

1 年前

Mallikarjun M · 如何使用随机森林进行时间序列预测?

1 年前

ly li · 模型摘要:当表格形状改变时,拟合优度消失

1 年前

C.Robin · 将marginaffects::predictions()的结果连接回main df?

1 年前

monotonic · 如何将格式为“col1+col3+col4”的数据帧的行名转换为一列数字向量“c(1,3,4)”?

2 年前

Shawn Hemelstrand · 为什么我的自定义errorbar函数不能在R中工作?

2 年前

RoyBatty · 统计每个字符在整个数据集中出现的次数

2 年前

stats_noob · R: 记录某个“行为”发生的循环的索引?

2 年前