导图社区 模型评价指标
对于二类分类器/分类算法,评价指标主要有accuracy, [precision,recall,F-score,pr曲线],ROC-AUC曲线,gini系数。对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。对于回归分析,主要有mse和r2/拟合优度。
论文《Attention is all you need》细节的整理,包括transformer结构的详解,以及更细节的计算逻辑。
最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。
社区模板帮助中心,点此进入>>
互联网9大思维
安全教育的重要性
组织架构-单商户商城webAPP 思维导图。
个人日常活动安排思维导图
域控上线
西游记主要人物性格分析
17种头脑风暴法
python思维导图
css
CSS
评价指标
二分类
https://www.zhihu.com/question/30643044/answer/1205433761
confusion matrix
FN: False Negative(假阴性)
FP:False Positive(假阳性)
Recall 查全率
正确的正样本占所有正样本的比例
FN 太多,如果recall 很低,自然风险控制能力就很差(放走了携带病毒的人)
在金融风控领域大多偏向这种思路,我们希望系统能够筛选出所有有风险的行为或用户,然后交给人工鉴别,漏掉一个可能造成灾难性后果
Precision 查准率
正确的正样本占所有被预测为正样本的比例
如果 FP 太多,我们就说这种方法的precision很低,自然这个方法就很浪费(把大量健康人当做携带者处理,成本激增)
在识别垃圾邮件的场景中可能偏向这一种思路,因为我们不希望很多的正常邮件被误杀,这样会造成严重的困扰。
accuracy 准确率
更加全局化的衡量标准,于此同时,带来的问题是这种衡量标准比较粗糙
F1 Score
同时控制风险 ( recall ) 和成本 ( precision )
ROC
confusion matrix 是会受到 threshold 影响的
如果 threshold 是 0.5,那么就会被归到 1 这一类
如果 threshold 是 0.7,则会被归到 0 这一类。
不断的调整 threshold,就能得到不同的 confusion matrix
设的越高,灵敏度就越低
the true positive rate (TP / (TP + FN))
就是前面说的 recall
设的越低,假阳性就越多
the false positive rate (FP / (FP + TN))
阴性其中有多少被错判成了阳性,可以理解成成本
调整 threshold,会让这两个值反向变化
ROC曲线 
曲线下面积就称为 AUC
曲线下面的面积越大,模型就越好
Precision-Recall curve
改变 threshold 也会反向的改变 precision 和 recall
橙色曲线下面包的面积越大越好
什么时候用 ROC,什么时候用 Precision-Recall 呢
像上面新冠病毒的例子,用Precision-Recall比较好,属于data imbalanced的情况。
如果 positive,negative 的数量基本是平衡的,那 ROC 就更常用一些
多分类
针对每个类别计算
Precision
(预测为1且正确预测的样本数)/(所有预测为1的样本数) = TP/(TP+FP)
Recall
(预测为1且正确预测的样本数)/(所有真实情况为1的样本数) = TP/(TP+FN)
F1
2*(Precision*Recall)/(Precision+Recall)
Macro
https://blog.csdn.net/ybdesire/article/details/96507733
Micro
https://blog.csdn.net/ybdesire/article/details/98099809?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1&utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1
聚类效果好坏的评价指标
https://blog.csdn.net/shaiguchun9503/article/details/81976544 https://blog.csdn.net/chixujohnny/article/details/51852633
外部指标
概念
将聚类结果与某个“参考模型”(reference model)进行比较
分类
Jaccard系数
FM指数
Rand指数
内部指标
通过计算簇内的样本距离,以及簇间的样本距离来对聚类结果进行评估
DB指数
Dunn指数
回归模型
(Mean Squared Error,MSE) 均方误差
(Root Mean Squard Error,RMSE) 均方根误差(标准误差)
它的意义在于开个根号后,误差的结果就与数据是一个级别的,可以更好地来描述数据
(Mean Absolute Error,MAE) 平均绝对误差
平均绝对误差能更好地反映预测值误差的实际情况.
R-squared
上面分子就是我们训练出的模型预测的误差和。 下面分母就是瞎猜的误差和。(通常取观测值的平均值)
如果结果是0,就说明我们的模型跟瞎猜差不多。 如果结果是1。就说明我们模型无错误。