赞
踩
在学习分类问题的性能度量中,提出了查准率P和查全率R两个概念,可以根据模型结果测算出P值和R值绘制PR曲线,那么PR曲线是怎么绘制出来的呢?
首先我们要理解分类结果混淆矩阵如下:
其中T=True表示真,F=False表示假,P=Positive表示正例,N=Negative表示反例。这样就可以定义查准率P=TP/TP+FP(准确性)和查全率R=TP/TP+FN(完整性)了。查全率和查准率也是此消彼长的。也即是说查全率越高,查准率越低。我们假设真实的正例数量为GP(Ground-truth Positive),真实的反例为GN(Ground-truth Negative),模型推断正例数量为SP(Suspicious-Positive),模型推断的反例数量为SN(Suspicious-Negative)那么我们可以由以下表达式:
G
P
+
G
N
=
S
P
+
S
N
GP+GN = SP + SN
GP+GN=SP+SN
G
P
=
T
P
+
F
N
GP = TP + FN
GP=TP+FN
G
N
=
T
N
+
F
P
GN = TN + FP
GN=TN+FP
S
P
=
T
P
+
F
P
SP = TP + FP
SP=TP+FP
S
N
=
T
N
+
F
N
SN = TN + FN
SN=TN+FN
P
=
T
P
/
(
T
P
+
F
P
)
=
T
P
/
S
P
P = TP/(TP+FP)=TP/SP
P=TP/(TP+FP)=TP/SP
R
=
P
T
/
(
T
P
+
F
N
)
=
T
P
/
G
P
R = PT/(TP+FN)=TP/GP
R=PT/(TP+FN)=TP/GP
从上表我们可以看出,如果要判多更多的阳性(提高查全率R),就要进行更多的判断阳性次数(SP),边际收益的递减的,因此查准率(P)就会下降,这样可以简单的解释PR曲线反相关的原因。
我们通过实验可以做出PR曲线,然后找到P=R的点就是平衡点,我们可以通过平衡点来判断模型的好坏。
###补充说明###
为了形象地记忆,我们可以采用以下的记忆方法:
P:表示阳性,可以想象成男人
TP:表示看上去就是男人的男人,可以想象成直男(詹姆斯)
FN:表示看上去像女人的男人,可以想象成“娘炮”(朱正廷)
N:表示阴性,可以想象成“女人”
TN:表示看上就是女人的女人,可以想象成“直女”(佟丽娅)
FP:表示看上去是男人的女人,可以想象成“假小子”(李宇春)
P= TP/TP+FP: 表示攻当中男人的比例“攻男率”
tpr=TP/m+=TP/TP+FN=R:表示直男率
fpr=FP/m-=FP/FP+TN :表示“假小子率”
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。