导图社区 模型评价指标
对于二类分类器/分类算法,评价指标主要有accuracy, [precision,recall,F-score,pr曲线],ROC-AUC曲线,gini系数。对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。对于回归分析,主要有mse和r2/拟合优度。
编辑于2021-02-11 22:51:38论文《Attention is all you need》细节的整理,包括transformer结构的详解,以及更细节的计算逻辑。
对于二类分类器/分类算法,评价指标主要有accuracy, [precision,recall,F-score,pr曲线],ROC-AUC曲线,gini系数。对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。对于回归分析,主要有mse和r2/拟合优度。
最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。
社区模板帮助中心,点此进入>>
论文《Attention is all you need》细节的整理,包括transformer结构的详解,以及更细节的计算逻辑。
对于二类分类器/分类算法,评价指标主要有accuracy, [precision,recall,F-score,pr曲线],ROC-AUC曲线,gini系数。对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。对于回归分析,主要有mse和r2/拟合优度。
最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。
评价指标
二分类
https://www.zhihu.com/question/30643044/answer/1205433761
confusion matrix
FN: False Negative(假阴性)
FP:False Positive(假阳性)
Recall 查全率
正确的正样本占所有正样本的比例
FN 太多,如果recall 很低,自然风险控制能力就很差(放走了携带病毒的人)
在金融风控领域大多偏向这种思路,我们希望系统能够筛选出所有有风险的行为或用户,然后交给人工鉴别,漏掉一个可能造成灾难性后果
Precision 查准率
正确的正样本占所有被预测为正样本的比例
如果 FP 太多,我们就说这种方法的precision很低,自然这个方法就很浪费(把大量健康人当做携带者处理,成本激增)
在识别垃圾邮件的场景中可能偏向这一种思路,因为我们不希望很多的正常邮件被误杀,这样会造成严重的困扰。
accuracy 准确率
更加全局化的衡量标准,于此同时,带来的问题是这种衡量标准比较粗糙
F1 Score
同时控制风险 ( recall ) 和成本 ( precision )
ROC
confusion matrix 是会受到 threshold 影响的
如果 threshold 是 0.5,那么就会被归到 1 这一类
如果 threshold 是 0.7,则会被归到 0 这一类。
不断的调整 threshold,就能得到不同的 confusion matrix
设的越高,灵敏度就越低
the true positive rate (TP / (TP + FN))
就是前面说的 recall
设的越低,假阳性就越多
the false positive rate (FP / (FP + TN))
阴性其中有多少被错判成了阳性,可以理解成成本
调整 threshold,会让这两个值反向变化
ROC曲线 
曲线下面积就称为 AUC
曲线下面的面积越大,模型就越好
Precision-Recall curve
改变 threshold 也会反向的改变 precision 和 recall
橙色曲线下面包的面积越大越好
什么时候用 ROC,什么时候用 Precision-Recall 呢
像上面新冠病毒的例子,用Precision-Recall比较好,属于data imbalanced的情况。
如果 positive,negative 的数量基本是平衡的,那 ROC 就更常用一些
多分类
针对每个类别计算
Precision
(预测为1且正确预测的样本数)/(所有预测为1的样本数) = TP/(TP+FP)
Recall
(预测为1且正确预测的样本数)/(所有真实情况为1的样本数) = TP/(TP+FN)
F1
2*(Precision*Recall)/(Precision+Recall)
Macro
https://blog.csdn.net/ybdesire/article/details/96507733
Micro
https://blog.csdn.net/ybdesire/article/details/98099809?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1&utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1
聚类效果好坏的评价指标
https://blog.csdn.net/shaiguchun9503/article/details/81976544 https://blog.csdn.net/chixujohnny/article/details/51852633
外部指标
概念
将聚类结果与某个“参考模型”(reference model)进行比较
分类
Jaccard系数
FM指数
Rand指数
内部指标
概念
通过计算簇内的样本距离,以及簇间的样本距离来对聚类结果进行评估
分类
DB指数
Dunn指数
回归模型
(Mean Squared Error,MSE) 均方误差
(Root Mean Squard Error,RMSE) 均方根误差(标准误差)
它的意义在于开个根号后,误差的结果就与数据是一个级别的,可以更好地来描述数据
(Mean Absolute Error,MAE) 平均绝对误差
平均绝对误差能更好地反映预测值误差的实际情况.
R-squared
上面分子就是我们训练出的模型预测的误差和。 下面分母就是瞎猜的误差和。(通常取观测值的平均值)
如果结果是0,就说明我们的模型跟瞎猜差不多。 如果结果是1。就说明我们模型无错误。