导图社区 AI算法的评价
这是一篇关于AI算法的评价持续完善中 v6.28)的思维导图,主要内容包括:数据评估,其他评估维度,通用模型评估指标。全面概述了AI算法的评价过程及多种评价指标。
编辑于2024-07-02 16:06:54AI算法的评价 (持续完善中 v6.28)
通用模型评估指标
机器学习
分类
统计学指标
个体指标
准确率
预测正确 / 全部样本
精确率
预测为正中实际为正 / 预测为正
灵敏度Sn(召回率、真正率 TPR、1-第二类错误率、1-假阴性率)
意义:正确预测为正 / 所有实际为正  第二类错误率、假阴性率、(漏报、误诊):有病判没病 
特异度Sp(1-第一类错误率、1-假阳性率)
正确预测为阴 / 全部阴  第一类错误率、假阳性率、(假警):没病判有病 
第一类错误率、假阳性率
第一类错误率、假阳性率、(假警):没病判有病 
第二类错误率、假阴性率
第二类错误率、假阴性率、(漏报、误诊):有病判没病 
校准度 ECE
模型可信度或置信度与实际结果之间的一致性
可信度、置信度
模型对其预测的自信程度
综合指标
混淆矩阵

F1分数
灵敏度和特异性互相矛盾,FI分数是二者的调和系数。
ROC曲线
越靠近左上效果越好
AUC·
曲线下方面积 越接近1越好
通用损失函数
基于熵
熵:用于衡量信息的不确定性 高熵意味着数据点之间的差异性较大
交叉熵损失(Cross-Entropy Loss)
二元交叉熵损失(Binary Cross-Entropy Loss)
多标签交叉熵损失(Multilabel Cross-Entropy Loss)
其他
最大化分类间隔(eg:SVM)
合页损失(Hinge Loss)
平方合页损失(Squared Hinge Loss)
基于策略(加权错分样本)
焦点损失(Focal Loss)
指数损失(Exponential Loss)
汉明损失
预测
回归算法、各种感知器、各种神经网络、
通用损失函数
基于差值(距离)
均方误差(Mean Squared Error, MSE)
平均绝对误差(Mean Absolute Error, MAE)
平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)
最大误差(Max Error)
残差图
绘制实际观测值与预测值之间的残差,直观地评估模型的拟合情况和误差分布 
距离
矢量数据
欧式距离
汉明距离
曼哈顿距离
马氏距离
切比雪夫距离
余弦相似度
基于相关性
预测值和真实值之间的相关性、或者预测值是否为正态分布
R-squared
可解释方差分数(Explained Variance Score)
相关系数
衡量实际观测值与预测值之间的线性关系强度
pearson
spearman
kendall
偏相关系数
余弦相似度
基于数据分布
Shapiro-Wilk测试
检验模型预测值是否来自正态分布 预测值的分布接近正态分布,则模型的预测可能更加稳定
自定义损失函数
深度学习
cv 视觉
按任务划分
1. 图像分类(Image Classification)
适用全上述部统计学指标
2. 目标检测(Object Detection)
交并比(Intersection Over Union, IoU)
衡量预测边界框与真实边界框之间的重叠程度
3. 语义分割(Semantic Segmentation):
像素准确率(Pixel Accuracy)
:正确分类的像素数占总像素数的比例。
平均交并比(Mean Intersection over Union, mIoU)
各类别交并比(IoU)的平均值。
频度加权交并比(Frequency Weighted Intersection over Union, fIoU)
考虑类别频率的IoU加权平均值。
平均轮廓重叠误差(Mean Contour Overlap Error, Coefficent of Variation, COV)
:评估分割轮廓与真实轮廓之间的一致性。
4. 实例分割(Instance Segmentation):
边界框精度(Box Accuracy)
正确预测的边界框数量占总预测框数量的比例。
分割精度(Mask Accuracy)
正确预测的分割掩码质量。
5. 姿态估计(Pose Estimation):
平均精度(Average Precision, AP)
:在不同关节位置上的精度平均值。
平均关键点精度(Mean Per Joint Position Error, MPJPE)
关键点位置误差的平均值。
6. 人脸识别(Face Recognition):
验证率(Verification Rate)
在特定阈值下,正确识别同一个人的比例。
识别率(Identification Rate)
在特定阈值下,正确匹配人脸的比例。
7. 风格迁移(Style Transfer):
视觉相似度(Visual Similarity)
评估生成图像与目标风格图像的视觉一致性。
内容保持度(Content Preservation)
评估生成图像与原始内容图像的相似度。
8. 图像超分辨率(Super-Resolution):
峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)
评估重建图像与原始高分辨率图像之间的相似度。
结构相似性(Structural Similarity Index, SSIM)
评估图像的视觉质量和结构相似性。
9. 深度估计(Depth Estimation):
尺度不变损失(Scale-Invariant loss)
一种像素级深度损失,考虑了尺度不变性
双向槽损失(bi-directional chamfer loss)
一种中心稠密损失,用于评估预测深度图与真实深度图之间的差异。
10. 3D重建(3D Reconstruction):
点云重叠度(Point Cloud Overlap)
预测的3D模型与真实模型之间的重叠程度
表面重建误差(Surface Reconstruction Error)
重建表面与真实表面之间的差异。
很多指标都是通用的,底层逻辑一致
nlp 自然语言
详参:https://blog.csdn.net/ph12345687/article/details/130205151
困惑度(Perplexity,PPL)
交叉熵的指数形式,log perplexity和交叉熵cross entropy是等价的
双语评估替补(Bilingual Evaluation Understudy)
衡量机器翻译的好坏,取值范围是[0, 1],越接近1,表明翻译质量越好,主要是基于精确率
ROUGE
主要是基于召回率(recall) 的,可用来衡量生成结果和标准结果的匹配程度
METEOR
综合考虑了精确度和召回率,并使用外部知识源来解决同义词和形态变化问题
CIDEr
Edit Distance
用于衡量两个字符串之间的相似度的指标。它定义为将一个字符串转换为另一个字符串所需的最小编辑操作数
audio 语音
https://blog.csdn.net/weixin_44649780/article/details/135399901
主观
MOS、CMOS、ABX Test、MUSHRA、PESQ
客观
MCD、STOI、F0 RMSE、F0 MSE、 E MSE、Dur MSE、 mel loss、
强化学习
Gen 生成式
大模型
https://www.cnblogs.com/bonelee/p/18152375
大模型评估方法
基准测试
数学推理
GSM8K

常识

CSQA
StategyQA
Date
Sports
SayCan
生成
测试大模型
PandaLLM
主观测试
体验感
涌现能力
模型幻觉
准确性
效率
响应速度
有效回答
无歧视、偏见、刻板影响等
数据评估
数据来源
爬虫
第三方机构购买
自采集
注意版权问题
数据质量
通用评估维度
高质量的数据分布
评估维度
多样性(Diversity)
数据是否代表了不同的视角、特征或类别
平衡性(Balance)
类别分布应尽量平衡,避免某些类别过度表示而其他类别被忽视
代表性(Representativeness)
数据集应代表目标任务或现实世界中的分布
一致性(Consistency)
信噪比(Signal-to-Noise Ratio, SNR)
评估指标
均值
方差
中位数
峰值
偏度
基尼系数、洛伦兹曲线
基于洛伦兹曲线,用来衡量数据分布的不平等程度
特征分布
数据粒度
特征是否足够多,能够提供足够的信息支持分析
特征相关性
特征过多也会影响模型训练效果,浪费计算资源,可以做适当的特征提取
主成分分析
相关系数
数据准确性(Accuracy)
噪声、异常值、空值、非法值、冗余值
数据标注质量(Annotation Quality)
对于标注数据,标注的准确性和一致性至关重要,特别是对于监督学习任务。
数据时效性(Freshness)
可访问性(Accessibility)
是否易于获取和使用,是否有版权或使用限制。
数据覆盖度(Coverage)
数据安规(Data Security & Compliance)
不同数据类型QA
cv
IQA(图像质量评估)
清晰度
对比度
饱和度
色彩准确性
亮度
噪声水平
动态范围
分辨率
纹理细节
失真
伪影
锐度
结构相似性
视觉信息保真度
时间连贯性
nlp
Corpus QA(语料质量评估)
覆盖度(Coverage)
语料库应涵盖目标领域或任务的广泛主题和语境。
代表性(Representativeness)
语料库应代表目标人群的语言使用情况,反映真实世界的语言表达
一致性(Consistency)
语料库中的文本应保持一致的格式和风格,以便于处理和分析。
噪声水平(Noise Level)
语料库中的错误、不完整或无关信息的比例。
更新频率(Freshness)
语料库应定期更新,以包含最新的语言表达和趋势。
多语言性(Multilinguality)
如果语料库包含多种语言,每种语言的语料质量也需要单独评估。
可读性(Readability)
文本是否易于阅读和理解,语言是否流畅。
语义一致性(Semantic Consistency)
文本在语义层面是否连贯一致。
语法正确性(Grammaticality)
文本是否遵循语法规则。
词汇丰富度(Lexical Richness)
语料库中词汇的多样性和复杂性。
语境丰富度(Context Richness)
语料库中的文本是否包含丰富的语境信息,有助于理解语言的使用。
情感表达(Emotional Expression)
文本是否能够表达丰富的情感和态度。
交互性(Interactivity)
对于对话数据,语料库是否包含真实的交互模式。
伦理和偏见(Ethics and Bias)
语料库是否避免了不恰当的内容,是否平衡地代表了不同群体。
audio
1. Speech QA (语音质量评估)
声音特性
清晰度(Clarity)
语音信号是否清晰,没有模糊或失真。
语音强度(Speech Intensity)
音高(Pitch)
语音的音调高低。
语音稳定性(Speech Stability)
语音的音高和响度是否稳定。
声音质量(Voice Quality)
声音的音色和质地。
语音质量
信噪比(Signal-to-Noise Ratio, SNR)
语音信号与背景噪声的比例,高信噪比意味着语音更清晰。
数据多样性(Diversity)
语音数据是否包含不同说话人、口音、方言等。
回声(Echo)
声音在空间中的反射造成的回声。
混响(Reverberation)
声音在封闭空间中的持续回响。
语音内容
语音可懂度(Intelligibility)
语速(Speech Rate)
语音连贯性(Speech Coherence)
语音自然度(Naturalness)
语境信息(Context Information)
语音数据是否包含足够的语境信息,以支持上下文相关的语音处理。
语音处理
说话人识别(Speaker Recognition)
多说话人问题(Multiple Speaker Problem)
语音编辑(Speech Editing)
语音数据是否经过编辑,以消除错误或不自然的部分。
数据集划分
要求
训练集和测试集的数据分布
数据分布要求一致
高质量的数据分布
训练集和测试集比例划分
70:30
80:20
数据集划分方法
固定划分
随机划分
比例划分
分层抽样
交叉验证
自举法
数据量级
过多
占用算力资源、易过拟合
过少
模型欠拟合
其他评估维度
成本、效率维度
基于延迟(时间)
训练时间
推理时间
实时性能
及时反馈的能力(车载)
基于系统效率
FLOPS/GFLOPS/TFLOPS
每单位时间执行浮点操作的次数
吞吐量
单位时间处理数据量
基于模型
模型尺寸
参数规模
存储模型的硬盘空间大小
模型部署所需存储资源
可解释性
泛化能力
鲁棒性
模型面对输入数据微小变化、噪声和异常值等时候仍能保持其性能的能力
对抗性测试
敏感度分析
交叉验证
异常值性能
资源利用率
CPU/GPU/NPU
内存
容错能力
硬件故障或软件错误时继续正常运行的能力
端侧功耗
云侧显存
高优、高敏、高频指标
大模型幻觉
涌现能力
灾难性遗忘
用户维度
操作简单
交互流畅
视觉设计