导图社区 机器学习思维导图
这是一篇关于机器学习思维导图,包含线性模型、 决策树、 神经网络、 支持向量机等。
大学计算机之计算思维导学,包括计算思维基础:0和1与机器程序、计算机语言与程序编写、网络化社会基础:计算机网络、网络与社会:互联的世界等。
这是一篇关于儒家的思维导图,介绍了孔子、孟子、荀子、董仲舒、朱熹、王阳明等,结构型知识框架方便学习理解!
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
机器学习思维导图
基本术语
数据集(包含多个样本)
样本(又称特征向量)(包含事物的名称和一个或多个特征)
特征(描述事物的性质)
学习样本
训练集(用于学习的样本集合)
测试集(评估模型的泛化能力)
学习任务分类
有监督学习(分类和回归)(训练样本含有标记)
无监督学习(聚类)(训练样本不含标记)
假设空间(所有特征的组合)
版本空间(假设集合,假设空间与训练集的交集)
归纳偏好(避免“等效”假设的干扰)
一般使用“奥卡姆剃刀”原则
模型评估与选择
泛化误差
过拟合(泛化太弱)
欠拟合(泛化太强)
评价方法
测试集检验
留出法(互斥的集合)
交叉检验法(k-1个子集的并集)
自助法(随机采样)
性能度量
回归任务
一般用均方误差
分类任务
查准率P=TP/(TP+FP)
查全率R=TP/(TP+FN)
比较检验
假设检验
t检验
偏差与方差
线性模型
基本模型
f(x)=w^T*x+b
线性回归
最小二乘法拟合
对数几率回归
极大似然法
多分类学习
决策树
划分最优选择
信息增益
信息熵Ent(D)(样本特征越分散,值越大)
分解为多个二分类问题
信息增益Gain(D,a)(属性a的纯度越大,值越大)
增益率Gain_ratio(D,a)(减少偏好的影响)
基尼指数(选择划分属性)
剪枝处理(处理过拟合问题)
预剪枝
后剪枝
连续与缺失值
连续值处理(取各个区间的中间值作为划分点)
缺失值处理(通过非缺失值属性判断最优划分)
神经网络
神经元模型
模拟神经元细胞的达到电位阈值产生兴奋
感知机与多层网络
感知机(两层神经网络组成)
输入层
输出层
多层神经网络
单隐层前馈网络
双隐层前馈网络
误差逆传播算法(BP算法)
根据隐层神经元误差来调整连接权与阈值
深度学习
增加隐层神经元的层数
支持向量机
间隔与支持向量机
平面划分(产生鲁棒性最优的超平面划分)(w^T*x+b=0)
最大间隔的超平面划分(支持向量机SVM)
对偶问题
拉格朗日乘子法(KKT条件)
SOM算法求解
核函数(解决异面划分问题)
通过核函数进行空间高维映射,使其线性可分
软间隔支持向量机
hinge损失函数
指数损失函数
对率损失函数
正则化
降低过拟合风险
结构风险
经验风险
强化学习
任务与奖励
奖励反馈驱动决策选择
马尔可夫决策(状态转移与奖励值)
K-摇臂赌博机
随机尝试,获取奖励值分布,找出最大奖励动作(仅探索)
执行最大奖励动作(仅利用)
贪心算法
Softmax算法
半监督学习
处理未标记样本
主动学习
对于未标记样本,经模型判断验证后,重新加入训练
聚类假设
相似样本具有相似输出
分类
纯半监督学习
预测待测数据
直推学习
预测未标记数据
半监督SVM
找最大间隔划分超平面
降维与度量学习
k邻近学习
属于监督学习
基于距离度量,寻找最近的k个训练样本
低维嵌入
维数增加,为满足密度要求,样本数指数增长
解决维数灾难,进行降维
聚类
聚类任务
属于无监督学习
划分独立子集,形成簇结构
簇内相似度高,簇外相似度低
外指标
Jaccard系数
FM系数
Rand指数
内指标
BD指数
Dunn指数
距离计算
满足非负性、同一性、对称性、直递性
原型聚类
k均值算法
最小化平方误差
集成学习
(多分类器系统)集成学习概念
结合多个学习器来完成学习任务
多个弱学习器结合
性能提升
Boosting算法
优化训练分布,加权各个基学习器的结果
(加性模型)AdaBoots算法
基学习器进行线性组合
bagging
基于自助采样法分类m个采样集,分别给基学习器学习
简单投票法
简单平均法
随机森林
基于Bagging,加入随机选择训练
泛化能力在随机属性划分中得到提高
贝叶斯分类器
贝叶斯决策论
后验概率
条件风险
最小化总体风险
贝叶斯最优分类器
(似然)类先验概率
(连续属性)极大似然估计
频率估计概率
经验性较强,存在经验误差
(属性独立假设)朴素贝叶斯分类器
估计类先验概率
估计条件概率