导图社区 线性模型总结
线性模型总结思维导图,讲述了线性模型的基本形式、线性回归、对数几率回归、线性判别分析、多分类学习等内容。
下图汇总了决策树的相关知识点,包含决策树的目标及注意、ID3算法、C45算法、CART算法、剪枝处理等,收藏下图了解吧!
社区模板帮助中心,点此进入>>
英语词性
法理
刑法总则
【华政插班生】文学常识-先秦
【华政插班生】文学常识-秦汉
文学常识:魏晋南北朝
【华政插班生】文学常识-隋唐五代
民法分论
日语高考動詞の活用
第14章DNA的生物合成读书笔记
线性模型
3.1线性模型的基本形式
线性模型要做的有两类任务
分类任务
分类的核心就是求出一条直线w的参数,使得直线上方和直线下方分别属于两类不同的样本
回归任务
回归就是用来拟合尽可能多的点的分布的方法,我们可以通过拟合的直线知道一个新样本的相关数值
问题描述
试图学得一个通过属性的线性组合来进行预测的函数
函数形式
子主题
向量形式
3.2线性回归
.1 对离散变量的处理
若有“序”(order),则连续化
①若属性值之间存在序关系,可通过连续化将其转换为连续值 如:个子的高中低按有序排列对应{1, 0.5, 0}
否则,转化为 k 维向量。
②若属性之间不存在序关系,假定属性值有k个,则通常转化为k维向量(One-Hot) 如:瓜类的取值黄瓜,西瓜,冬瓜,三类属性值转化为三维向量 若规定取值(黄瓜,西瓜,冬瓜),那么比如冬瓜,对应位置标1,其余位置标0, 进一步而言,可转化为冬瓜(0,0,1),西瓜(0,1,0),黄瓜(1,0,0)
3.3对数几率回归(用线性模型做分类任务)
子二分类的真实标记y∈{0,1},而线性回归模型产生的预测值,为实值,则可将z对应到{0,1}里,最理想的是单位阶跃函数(unit-step function)
优点:将分类进行建模,无需事先假设数据分布,避免假设分布不准确所带来的问题 不仅分类,还可得到近似概率预测,可利用概率辅助决策 对率函数是任意阶可导的凸函数,有很好的数学性质,可方便求取最优解
3.4线性判别分析 (LDA)
LDA 的思想非常朴素: 给定训练样例集, 设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;
3.5多分类学习
3.6类别不平衡问题
一个基本策略是再缩放rescaling。
在实际操作中,再缩放却没那么容易,主要原因是**不一定能有效的基于训练集观测几率去推断真实几率。**因而往往有三类做法: (1)欠采样undersampling:去除一些反例数目,使得正例数目接近于反例数目,再进行学习。需要注意,若直接丢弃反例,可能会造成重要信息丢失,一种方法是利用集成学习机制,将反例划分为若干个集合供不同学习器使用,这样每个学习器就相当于欠采样,而全局看则没有丢失重要信息 (2)过采样oversampling:增加正例数目,为防止过拟合,可对训练集正例进行插值产生额外正例,而不是直接重复采样初始正例样本 (3)阈值移动threshold-moving:直接基于原训练集进行学习,但用训练好的分类器进行预测时,将
3.7梯度下降法