AUC-COPC指标介绍

版权声明:本文所有内容都是原创,如有转载请注明出处,谢谢。

AUC

AUC 的全称是Area Under Curve,简单的来说就是计算某条线以下的面积。说起AUC,就不得不说ROC(Receiver Operating Characteristic)曲线。计算ROC曲线,我们需要知道两个名词:true positive rate 和 false positive rate。这两个值的计算很简单,比如有10个样本,有7个是正例,3个是负例。那当我们假设都是positive的时候,tpr是0.7,fpr是0.3。那如何计算AUC呢?

  1. 将所有的预估值从大到小进行排序

  2. 将所有的值划分成n个等分

  3. 假设当前的等分点是p, 所有大于p的都看成正例,所有小于p的都看成负例。按照这个规则,计算每个等分之前的tpr和fpr

  4. 把每个等分当成是平的,积分算面积

举个例子

假如有20个样本, 把样本的预测值从大到小排序,如下图:

sortP

那么我们把上面划分成20等分,计算每一个等分上的TPR和FPR,然后画出下面的图:

imageP

这样我们就可以计算 AUC = 0.1 x 0.2 + 0.2 x 0.5 + 0.1 x 0.6 + 0.1 x 0.7 + 0.3 x 0.8 + 0.1 * 0.9 + 0.1 * 1 = 0.02 + 0.1 + 0.06 + 0.07 + 0.24 + 0.09 + 0.1 = 0.68

AUC 的意义

​从上面的图来看,如果auc大,就表示说,我们能很容易的区分正例和负例。但是对于正例和负例,具体的值,我们是不能够确定的。只能够差不多知道,它是正例,另外是负例。所以AUC,比较适合在分类的场景中,而不适合在回归的场景中。但这不表示AUC在回归的场景中,就不重要。在回归的场景中,我们仍然能够部分地看出模型的状况。

COPC

这个主要是用来衡量模型是否收敛,就不多说了。