代码之家  ›  专栏  ›  技术社区  ›  tkja

斯坦福分类器交叉验证平均或聚合度量

  •  1
  • tkja  · 技术社区  · 9 年前

    具有 Stanford Classifier 可以通过设置属性文件中的选项来使用交叉验证,例如10倍交叉验证:

    crossValidationFolds=10
    printCrossValidationDecisions=true
    shuffleTrainingData=true
    shuffleSeed=1
    

    运行此命令将按倍数输出各种指标,例如精度、召回率、精确度/微平均F1和宏平均F1。

    是否有一个选项可以获得所有10个精度/微平均F1或所有10个宏平均F1的平均或聚合分数作为输出的一部分?

    在Weka中,默认情况下,10倍交叉验证后的输出包括所有折叠的平均度量。斯坦福分类器中也有这样的选项吗?有一个最终的准确度、召回率或F1分数可用,并像在Weka中一样针对它优化参数是非常有用的,我想用斯坦福分类器来实现这一点。怎样

    1 回复  |  直到 9 年前
        1
  •  1
  •   StanfordNLPHelp    9 年前

    当我以10倍的速度运行时,我看到了输出。运行此命令时:

    java -cp "*" edu.stanford.nlp.classify.ColumnDataClassifier -prop examples/cheese2007.prop -crossValidationFolds 10
    

    我在输出中看到了这一点(在###折叠9之后)

    [main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - 181 examples in test set
    [main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Cls 2: TP=109 FN=6 FP=7 TN=59; Acc 0.928 P 0.940 R 0.948 F1 0.944
    [main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Cls 1: TP=59 FN=7 FP=6 TN=109; Acc 0.928 P 0.908 R 0.894 F1 0.901
    [main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Accuracy/micro-averaged F1: 0.92818
    [main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Macro-averaged F1: 0.92224 
    [main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Average accuracy/micro-averaged F1: 0.93429
    [main] INFO edu.stanford.nlp.classify.ColumnDataClassifier - Average macro-averaged F1: 0.92247