导图社区 模型的评估与选择
这是一篇关于第六章模型的评估与选择的思维导图,主要内容包括:6.5分类损失,6.4回归损失,6.3性能指标,6.2模型调参,6.1拟合。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
第六章模型的评估与选择
6.1拟合
欠拟合:模型数据特征较少或者模型复杂多样较低。
过拟合:训练集表现好,测试集表现一般。
正则化:提高模型在位置测试数据集上的泛化能力。
L1正则化:LASSO回归。(通过减少特征个数)
L2正则化:岭回归。(通过降低特征权重系数)
6.2模型调参
网格搜索(GridSearchCV):
estimator:选择合适的分类器(KNN...)
param_grid:需要优化的参数的取值:值的类型为字典或列表。 例如:param_grid = {"n_neighbors":[1,3,5,7,9,11]
适用条件:参数较少的时候适用,一般不超过10个。
随机搜索(RandomizedSearchCV)
forest_clf:选择合适的分类器(随机森林...)
param_distribs:需要优化的参数的取值:值的类型为字典或列表。 param_distribs={'n_estimators':range(10,100),'max_depth':range(5,20)} 优点:找到最优参数的可能性比较大,比较省时。
6.3性能指标
错误率:分类错误
精度:分类正确
/样本总数
查准率(准确率)
/分类标记为正确的样本
查全率(召回率)
/所有正确的样本
P-R曲线
包裹情况,优劣关系(学习器B优于学习器C)
平衡点:BEP(查准率=查全率)
F1度量
β<1查准率影响大,β>1查全率影响大,=1标准F1
ROC曲线(Receiver Operating Characteristic )受试者工作特征
面积(AUC:Area under ROC curve)大的为优
AUC= 面积
6.4回归损失
MAE(平均局绝对值误差):mean_absolute_erro(y_ture,y_pred)
MSE(均方误差):mean_squared_erro(y_ture,y_pred)
RMSE(均方根误差)
R2分数:r2_score(y_ture,y_pred)
Huber损失:L1损失函数(MAE);L2损失函数(MSE)
6.5分类损失
平方损失函数(squared_loss)
绝对误差损失函数(absolute_erro_loss)
0-1损失函数(zero_one_loss)
对数损失函数(log_loss)
铰链损失函数(hige_loss)