导图社区 机器学习
这是一个关于机器学习潘雨驰的思维导图,机器学习正是这样一门学科,人的经验对应计算机中的数据,让计算机来学习这些数据,生成一个算法模型,在面对新的情况中,计算机便能做出有效的判断。
编辑于2025-03-27 16:34:02机器学习
机器学习正是这样一门学科,人的经验对应计算机中的数据,让计算机来学习这些数据,生成一个算法模型,在面对新的情况中,计算机便能做出有效的判断。
基本术语
数据集:所有记录的集合
每条记录:一个实例,一个样本
特征
每个西瓜为一个特征向量
特征数称为维数
训练集:训练样本的集合
测试集:测试样本的集合
泛化能力:机器学习出来的模型适用于新样本的能力
分类:预测值为离散值的问题
回归:预测值为连续值的问题
监督学习:训练数据有标签信息的学习任务
无监督学习:训练数据没有标签信息的学习任务
模型的评估与选择
误差:学习器对样本的实际预测结果与样本真实值之间的差异
训练误差
测试误差
泛化误差
拟合
过拟合:学习能力过强,以至于把训练样本包含的不太一般的特征都学到了。训练误差小,测试误差大。
解决方法
增加训练数据集:提供更全面的信息
交叉验证:更准确地估计模型在未见过的数据上的性能
正则化
合适的特征选择:降低维度,去除噪声特征
降低模型复杂度
欠拟合:学习能力太差,训练集的一般特征都没学好。训练误差和测试误差都大
解决方法
增加迭代次数
评估方法:通常采用一个测试集来测试学习器对新样本的判别能力,将测试误差作为泛化误差的近似
留出法:将数据集划为两个互斥的集合,一个作为训练集一个作为测试集。 划分时要尽量保持数据分布的一致性,常用分层抽样。 单次留出效果不稳定,应当多次划分取平均值。
交叉验证法:将数据集划分为k个大小相同的子集,每次用k-1个作为训练集,余下的一个子集作为测试集。 数据一致性同理
留一法:每个子集中只有一个样本(特殊情况)
自主法:有放回抽样。抽出一个样本再放回,将所有样本用做训练,抽出的样本用做测试。 改变了数据集的分布,一般不用
调参:引入了验证集。基于验证集上的性能进行模型参数选择和调参。
性能度量
错误率与精度
错误率:分类错误的样本数占总样本数的比
精度:分类正确的样本数占总样本数的比
查准率,查全率与F1
查准率P:所有预测的正例中真正的正例有多少
查全率R:有多少正例被查出来
P-R曲线:根据学习器预测的结果,对测试样本进行排序,将最可能是正例的样本排在前面,最不可能是正例的样本排在后面按此顺序,逐个把样本作为正例进行预测,查全率为横轴查准率为纵轴
两个学习器,谁的曲线下面积大谁的性能就更好。但是在通常情况下面积难以估算,所以衍生出了平衡点。 平衡点的取值越高,性能越优。
ROC与AUC
ROC
ROC曲线的纵轴是真正例率,横轴是假正例率
很多学习器是为测试样本产生一个实质或概率预测,然后与分类阈值比较大于阈值则为正例,否则则为反例,我们可以将样本排序分类过程就是以阶段点将样本分为两个部门前一部分为正例,后一部分为反例。
AUC:ROC曲线下的面积
值越大,排序的质量越好 值为1,证明所有的正例都排在了反例的前面 值为0,则相反
代价敏感错误与代价曲线
非均等代价:在现实生活中将正例预测成假例,将假例预测成正例的代价常常是不一样的。 例如在医生诊断的过程中,将无疾病诊断为有疾病只是增多了检查,但将有疾病诊断为无疾病却是增加了生命危险。 在非均等错误代价下,我们希望的是最小化总体代价。
代价曲线:横轴是正例率代价,纵轴是归一化代价 可以直接反映出学习器的总体代价
比较检验:若A在某测试集上的性能优于B,那A学习器比B好的把握有多大
假设检验:假设指的是对样本总体的分布或已知分布中某个参数值的一种猜想,例如假设总体服从泊松分布 。我们可以通过测试获得测试错误率,但直观上测试错误率和泛化错误率不会相差太远,因此可以通过测试错误率来推测泛化错误率的分布,这就是一种假设检验。
交叉验证t检验:对两个学习器进行K折交叉验证时,在同一组的训练或测试集上,学习器A或学习器B会产生一对测试错误率,若两个学习器的性能相同,则测试错误率相同。
McNemar检验:主要用于二分类问题。若两个学习期的性能相同,则A预测正确B预测错误数应等于B预测错误A预测正确数。
Friedman检验和Nemenyi后验检验:F检验可以在多种数据及进行多个学习器性能的比较,基本思想是在同一组数据集上根据测试结果对学习器性能进行排序,若学习器的性能相同,则它们的平均值应该相同。 Nemenyi后续检验计算出平均值差别的临界值域,若两个算法的平均序值差超出了临界值域,则两个算法的性能不同。
偏差与方差
偏差:预测的期望值与真实值的偏差,及刻画了学习算法本身的拟合能力
方差:每一次预测值与预测值的期望之间的差均方 ,刻画了数据扰动所造成的影响
噪声:指数据集中存在的随机误差或不可控的干扰,这些噪声会影响模型的训练和预测性能,使得模型难以准确地你和数据或推广到新的数据集上
泛化性能:学习器预测新样本的性能。由学习算法的能力,数据的充分性以及学习任务本身的难度共同决定
线性模型
定义:试图学得一个线性组合来尽可能的预测新样本的输出值。例如通过历年的人口数据,预测2025年的人口数量。
线性回归
数据预处理: 对于离散属性,若属性间存在序关系,则可通过连续化将其转化为连续值;若不存在序关系,假定有k个属性值,则转化为K维向量。
最小二乘法参数估计
当输入属性只有一个时,使用最小二乘法:找到一条直线,是所有样本到直线上的欧式距离之和最小。 最小二乘参数估计的过程就是最小化均方误差的过程。
当输入属性有多个时,用矩阵的形式来表示数据
对数几率回归:将线性回归问题转化为二分类问题
对数几率函数:将预测值投影到0-1之间,从而将线性回归问题转化为二分类问题。
线性判别分析:将训练样本投影到一条直线上,使得同类的样例尽可能的近,不同类的样例尽可能远
多分类学习:将多分类拆解成若干个二分类任务求解
OVO:给定数据集,假定其中有N个真实类别,将这个类别进行两两配对,产生二分类学习器,在测试阶段,将新样本放入所有的二分类学习器中测试,最终通过投票产生分类结果
OVM:给定数据集,假定其中有N个真实类别,每次取出一个类作为正类,其余所有类作为一个新的反类,从而产生N个二分类学习器,在测试阶段得出N个结果,若仅有一个学习器预测为正类,则对应的类标作为最终的分类结果,若有多个分类器预测为正类,则选取置信度最高的类别作为分类结果
MVM:给定数据集,假定其中有N个真实类别,每次取若干个类为正类,若干个类作为反类,进行M次划分,生成M个二分类学习器,在测试阶段得出M个结果组成一个新的码,与各自类别的编码进行比较,最终通过计算距离最小的类别作为最终的分类结果。
类别不平衡问题
欠采样:训练样本较多的类别
过采样:训练样本较少的类别
再缩放:基于代价敏感学习
决策树
基本概念:决策树是基于树形结构来进行决策的分类算法。
每个非叶节点表示一个特征属性测试
每个分支代表这个特征属性在某值域上的输出
每个叶子节点存放一个类别
每个节点包含的样本集合,通过属性测试被划分子节点中,根节点包含样本全集
划分选择
ID3决策树
递归过程中,每次选择最大信息增益的属性作为当前的划分属性。
C4.5决策树
使用增益率来划分属性
CART决策树
使用基尼指数来划分属性 基尼指数反映的是从样本集中抽取两个样本,其类别标记不一致的概率,因此基尼指数越小越好
剪枝
预剪枝:在表示构造树的过程中,对一个节点考虑是否分支时,首先计算决策数不分枝时,在测试集上的性能,在计算分枝后的性能,若分支对性能没有提升,则选择不分枝。
后剪枝:在构造好一颗完整的决策树后,从最下面的节点开始,考虑该节点分支对模型的性能是否有提升,若无则剪枝,及将该节点标记为叶子节点,类别标记为其包含样本最多的类别
连续值处理: 连续属性离散化技术 最简单的策略是采用二分法对连续属性进行处理,这正是C4.5决策树算法采用的机制
1,首先将连续属性的所有取值按顺序排列,所有相邻属性的均值作为候选划分点
2,计算每一个划分点划分集合后的信息增益
3,选择最大信息增益的划分点为最优划分点
缺失值处理
划分属性:通过在样本集上选取在属性a上没有缺失值的样本子集,计算该样本子集上的信息增益,最终的信息增益等于该样本子集划分后信息增益乘该样本子集占样本集的比重
如何划分到具体的分支上:若该样本子集在属性a上的值缺失,则将该样本以不同的权重及每个分支所含样本的比例划分到所有的分支节点中
神经网络
定义:神经网络一般指的是神经网络学习。神经网络是由具有适应性的简单单元组成的广泛并行互联的网络,他的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。
神经元:如果某神经元的电位超过了一个阈值,那么他就会被激活及兴奋起来,向其他神经元发送化学物质
M P神经元模型: 计算总输入 计算总输入与阈值的差值,通过激活函数传递给其他神经元
sigmoid函数:将较大范围内变化的输入挤压到(0,1)输出值范围内,也称为挤压函数
感知机:由两层神经元组成
输入层:接受外界信号,传递给输入层
输出层:M-P神经元模型
学习方式:首先设定好初始权重,逐个输入样本,比较,调整权重,直至所有样本都预测正确 学习规则:将输出值与样本的真实标记比较,若不一致,则感知机对权重进行调整
多层网络:解决非线性可分问题,如异或问题
输入层
隐层:具有激活函数
输出层:具有激活函数
多层前馈神经网络
特点: 每层神经元与下层神经元完全互联 不存在同层连接 不存在跨层连接
前馈:不存在环或回路结构
神经网络的学习过程就是根据训练数据来调整神经元之间的连接权以及每个神经元的阈值。 换句话说,神经网络学习到的东西都包含在网络的连接权和阈值中。
误差逆传播算法(BP算法)
使用梯度下降法以单个样本的均方误差的负梯度方向对权重进行调节。
1,将误差反向传播给隐层神经元,调节隐层到输出层的连接权重与输出层神经元阈值
2,将误差反向传播给输入层神经元,调节输入层到隐层的连接权重与隐层神经元阈值
全局最小与局部最小: 跳出局部最小,接近全局最小
局部最小解:参数空间中的某个点,其临域点的误差函数值不小于该点的误差函数值。 全局最小解:参数空间中某个点,所有其他点的误差函数值均不小于该点的误差函数值。
策略
以多组不同的参数值初始化多个神经网络,按标准方法训练,迭代停止后,取其中误差最小的解作为最终参数
模拟退火技术:从某一较高温度出发,伴随温度参数不断下降,结合一定的概率突跳特性在解空间中随机寻找目标函数的全局最优解,即在局部最优解能概率性地跳出并最终趋于全局最优
随机梯度下降
1,梯度就是导数 2,梯度下降作用是找到函数的最小值所对应的自变量的值(曲线最低点对应x的值)。记住我们目的是为了找x. 3,梯度下降含义(具体操作)是:改变x的值使得导数的绝对值变小,当导数小于0时候(情况1),我们要让目前x值大一点点,再看它导数值。当导数大于0时候(情况2),我们要让目前x值减小一点点,再看它导数值。当导数接近0时候,我们就得到想要的自变量x了。也就是说找到这个算法最佳参数,使得拟合曲线与真实值误差最小。(理解这段话,就不用硬背公式啦)
其他常见神经网络
RBF网络: 单层前馈神经网络,激活函数是径向基函数,输出层是对隐层神经元的线性组合
ART网络: 无监督学习策略,竞争型学习。 使用该策略时,网络的输出神经元相互竞争,每一时刻仅有一个竞争获胜的神经元被激活,其他神经元的状态被抑制。
SOM网络: 竞争学习型的无监督学习。 将高维输入数据映射到低维空间,同时保持数据在高维空间的拓扑结构。
级连相关网络: 结构自适应网络。 级连指建立层次连接的层级结构;相关是指通过最大化神经元输出与网络误差间的相关性来训练参数。
Elman网络: 递归神经网络,允许出现环状结构,可以让一些神经元的输出反馈回来作为输入信号。
Boltzmann网络: 基于能量的模型。 为网络定义一个能量,能量最小时达到理想状态,而网络的训练就是最小化这个能量函数。
深度学习
增加了隐层数目,增加隐层神经元数目
训练方法
无监督逐层训练
1,预训练:每次训练一层隐节点,把上一层隐节点的输出当作输入来训练,本层隐节点训练好后,输出在座位下一层的输入来训练。
2,全部预训练完成后,再对整个网络进行微调训练。
权共享
令同一层神经元使用完全相同的连接权,这样做可以大大减少需要训练的参数数目。
cnn卷积神经网络
深度学习可以理解为一种特征学习或表示学习,通过多个隐藏来把与输入目标联系不大的初始输入转化为与输出目标更加密切的表示,使原来只通过单层映射难以完成的任务变成可能。及通过多层处理,逐渐将初始的低层特征表示转化为高层特征表示,从而使得最后可以用简单的模型来完成复杂的学习任务。 传统任务中,样本的特征需要人类专家来设计,这称为特征工程。特征好坏对泛化性能有至关重要的影响。而深度学习为全自动数据分析带来了可能,可以自动产生更好的特征。
支持向量机
定义:支持向量机是一种经典的二分类模型,基本模型定义为特征空间中最大间隔的线性分类器,其学习的优化目标就是间隔最大化。
间隔:两个异类支持向量到超平面的距离之和。 超平面距离与它最近的数据点的间隔越大分类的鲁棒性越好。
函数间隔:指的是数据点到决策边界的距离,用来衡量一个点被分类的确信程度。
几何间隔:数据点到超平面的真实距离。 找最大间隔就是找最大几何间隔。
支持向量:最靠近两条虚边界线的向量
对偶问题
定义:优化等价的问题,就是将一个原始目标函数的最小化转化为它的对偶函数最大化的问题
优点: 使用对偶问题容易求解。 通过对偶问题求解,出现了向量内积的形式,从而能更加自然的引出核函数。
核函数
由于普通的超平面只能解决线性可分的问题,对于线性不可分的问题,如异或问题,我们需要使用和函数将其进行推广。 解决线性不可分的问题时,常常采用映射的方式将低维原始空间映射的高维特征空间,使得数据集在高维空间中变得线性可分,从而再使用线性学习器分类。 如果原始空间为有限维,及属性数有限,那么总是存在一个高维特征空间使得样本线性可分。 在求解的过程中,只要涉及了高维特征空间中的内积运算,由于特征空间的维数可能非常大,甚至可能出现无穷维,根本无法进行内积运算,此时引出核函数。 核函数可以直接计算隐式映射高维特征空间后的向量内积,而不需要显示的写出映射后的结果。他虽然完成了将特征从低维到高维的转换,但最终却是在低维空间中完成向量内积计算与高维特征空间中的计算等效。
软间隔
硬间隔:所有样本都划分正确。 软间隔:允许某些数据点不满足约束,同时又使得不满足约束的样本尽可能的少。
正则化
正则化也称规范化,就是说给损失函数加上一些限制,通过这种规则去规范他们在接下来的循环迭代中不要自我膨胀。
L1正则化
L 1是模型各个参数的绝对值之和
为模型加入先验,简化模型,使权值稀疏,由于权值的稀疏,从而过滤掉一些无用特征,防止过拟合
L2正则化
L2是模型各个参数的平方和的开方值
他会使得权值减小,一定程度上也能和L1一样起到简化模型加速训练的作用,同时可以防止模型过拟合
支持向量回归SVR
使到超平面最远的样本点的距离最小
核方法
基于核函数的学习方法统称为核方法,即 通过核化(引入核函数)来将线性学习器拓展为非线性学习器。
贝叶斯分类器
贝叶斯决策论
是在概率论框架下实施决策的基本方法。 对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记,最小化所有样本的条件风险总和。
后验概率(新信息出现后A的概率)=先验概率(A概率)x可能性函数(新信息带来的调整)
假设有一种疾病,他的发病率是万分之一,现有一种测试可以检验一个人是否得病的准确率为99.9%,它的误报率为0.1%。那么如果一个人被查出患有此种疾病,实际上患有的可能性有多大? 通过先验概率(发病率)和条件概率(测试准确率、误报率),计算后验概率(实际患病概率)。
极大似然估计
一种根据数据采样来估计概率分布的经典方法。 常用的策略是先假定总体具有某种确定的概率分布,在基于训练样本对概率分布的参数进行估计。 核心思想是:估计出的参数使得已知样本出现的概率最大,即使得训练数据的似然最大。
步骤
1,写出似然函数
2,对似然函数取对数并整理
3,求导数,令偏导数等于塞塔,得到似然方程组
4,解似然方程组,得到所有参数及为所求
朴素贝叶斯分类器
提出理由:原始的贝叶斯分类器最大的问题在于联合概率密度函数的估计,首先需要根据经验来假设联合概率分布,其次当属性很多时,训练样本往往覆盖不够,参数的估计会出现很大的偏差,为了避免这个问题,提出朴素贝叶斯分类器。
思想:朴素贝叶斯分类器采用了属性条件独立假设,即样本数据的所有属性之间相互独立。
半朴素贝叶斯分类器
对属性条件的独立性,假设进行一定程度的放松。 适当考虑一部分属性间的相互依赖信息。
独依赖估计:假设每个属性在类别之外,最多依赖于一个其他属性
TAN:使用最大带权生成树,简约属性间的依赖关系
步骤: 1,计算任意两个属性之间的条件互信息 2,以属性为节点构建完全图,任意两个节点之间边的权重设为i 3,构建此完全图的最大带权生成树,挑选根变量,将边置为有向 4,加入类别节点Y,增加从Y到每个属性的有向边
贝叶斯网
结构:有向无环图
定义:简言之,把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络。其主要用来描述随机变量之间的条件依赖,用圈表示随机变量,用箭头表示条件依赖。
学习:贝叶斯网学习的首要任务是根据训练数据来找出结构最恰当的贝叶斯网。 评分搜索是求解这一问题的常用方法, 先定义一个评分函数,以此估计贝叶斯网与训练数据的契合程度,然后基于这个评分函数来寻找结构最优的贝叶斯网。
推断: 贝叶斯网训练好之后就能用来回答查询,通过已知变量观测值来推测待查询变量的过程称为推断,已知变量观测值称为证据。
EM算法
估计参数应变量的算法,也称为期望最大算法,迭代是方法
简单来说: 假设我们想估计A B这两个参数在开始状态下,二者都是未知的,但如果知道了A的信息就可以得到B的信息,反过来知道了,B也就得到了A。可以考虑首先赋予A某种初值,以此可以得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。
基本思想
E步:若样本服从的分布参数已知,则可以根据已观测到的训练样本推断出隐变量的期望值
M步:若期望值已知,则运用最大似然法估计出新的分布参数值
重复这个过程,直到隐变量和期望值不再变化
代表算法:K-means聚类算法 (将样本的类别看作隐变量)
随机选择类中心,将样本点划分到类簇中,重新计算类中心,不断迭代直至收敛。
集成学习
个体与集成
集成学习:通过构建并结合多个学习器来完成学习任务,有时称为多分类器系统,基于委员会的学习。
个体学习器
同质集成:基学习器
异质集成:组件学习器
集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能,这对弱 学习器尤为明显,集成学习通常是针对弱学习器产生的,而基学习器有时也被直接称为弱学习器
若要获得好的集成,则应满足两个要求: 个体学习器要有准确性 个体学习器的输出要有差异性
Boosting
机制: 增加一个基学习器,在训练过程中预测错误样本的权重,使得后续基学习器更加关注这些打标错误的训练样本,尽可能纠正这些错误,一直向下串行直至产生需要的T个基学习器
Adaboost:Boosting族算法
权值与样本分布的更新都是围绕着最小化指数损失函数进行的
1,初始化训练数据的权值分布,每一个训练样本在最开始时都被赋予相同的权值。 2,训练弱分类器,在训练过程中,如果某样本点已经被精确的分类,那么在构造下一个训练集中,它的权值就被降低,相反他的权值提高。 3,将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后,加大分类误差率小的弱分类器的权重,使其在最终的分类函数中起着较大的决定作用,相反,降低分类误差率大的分类器的权重,使其在最终的分类函数中起着较小的决定作用。
学习方法
重赋权法: 对每一个样本增加一个权重,这时涉及到样本属性与标签的计算,都需要乘上一个权值
重采样法:根据各个样本的权重,对训练数据进行重采样,初始时样本权重一样,每个样本被采样到的概率一致,每次从N个原始的训练样本中,按照权重有放回采样个N个样本作为训练集,然后计算训练集错误率,然后调整权重,重复采样,集成多个基训练器
关注于降低偏差
Bagging与随机森林
Bagging
一种并行式的集成学习方法,即基学习器的训练之间没有先后顺序可以同时进行。 采取有放回的采样方式选取训练集,对于包含M个样本的训练集,进行M次有返回的随机采样操作,从而得到某个样本的采样集。重复进行,可以猜到T个包含某个样本的数据集,从而训练出T个基学习器,最终对这T个基学习器的输出进行结合。
通过样本的扰动来增加基学习器之间的多样性
关注于降低方差
随机森林:Bagging的一个拓展体
基学习器为决策树,多棵树组成森林,随机则在于选择划分属性的随机,
基学习器的多样性
样本扰动:采取有放回采样的方式添加样本扰动
属性扰动:在基决策树训练的过程中,在选择划分属性时,随机森林先从候选属性集中随机挑选出一个包含K个属性的子集,再从这个子集中选择最优划分属性
随机森林的起始性能往往相对较差,特别是在基层中只包含一个学习器时,但随着学习器数目的增加,随机森林通常会收敛到更低的泛化误差。
结合策略
平均法
个体学习器性能相差较大时用加权平均法
个体学习器性能相近时用简单平均法
投票法
绝对多数投票法: 若某标记得票过半,则预测为该标记,否则拒绝预测
相对多数投票法: 预测为得票最多的标记,若同时有多个标记获得最高票,则从中随机选取一个
加权投票法: 通过类标记或类概率进行投票
学习法
stacking:首先训练出T个基学习器,对一个样本,他们会产生T个输出,将这T个基学习器的输出与该样本的真实标记作为新的样本,M个样本就会产生Mx T个样本集,来训练出一个新的投票学习器
好处
使用单个学习器可能因误选而导致泛化性能不佳,结合多个学习器会减少这一风险
降低陷入局部极小的风险
某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中,此时若使用单学习器则肯定无效,而通过结合多个学习器,由于相应的假设空间有所扩大,有可能学得更好的近似
多样性
误差- 分歧分解: 构建泛化性能强的集成,个体学习器应好而不同。 个体学习器准确性越高,多样性越大则集成越好。
多样性度量:度量集成中个体分类器的多样性,即 估算个体学习器的多样化程度。
不合度量,相关系数,Q-统计量,K-统计量
多样性增强
数据样本扰动:利用具有差异的数据基来训练不同的基学习器
输入样本扰动:随机选取原空间的一个子空间来训练基学习器
输出样本扰动:对训练样本的类标稍作变动或对基学习器的输出进行转化
算法参数扰动:通过设置不同的参数, 例如在神经网络中,随机初始化权重与随机设置隐含层节点数
强化学习
基本概念
状态,动作,策略:在某个状态下执行某种动作,这就是一种策略
定义:监督学习和强化学习都是在试图寻找一个映射,从已知的属性或状态推断出标记或动作,这样强化学习中的策略,相当于监督学习中的分类或回归器,强化学习,并没有监督学习那样的标记信息,通常都是在尝试动作后才能获得结果,因此强化学习是通过反馈的结果信息不断调整之前的策略,从而算法能够学到在什么样的状态下选择什么样的动作可以获得最好的结果
强化学习任务:马尔可夫决策过程
机器处在一个环境中,每个状态为机器对当前环境的感知,机器只能通过动作来影响环境,当机器执行一个动作后,会使得环境按某种概率转移到另一个状态,同时,环境会根据潜在的奖赏函数反馈给机器一个奖赏。 综合而言,强化学习主要包含四个要素:状态,动作,转移概率,减少函数
强化学习的主要任务就是通过在环境中不断地尝试,根据尝试获得的反馈信息调整策略,最终形成一个较好的策略,机器根据这个策略便能知道在什么状态下应执行什么动作。
策略的优劣取决于长期执行这一策略后的积累奖赏:可以使用积累奖赏来评估策略的好坏,最右策略则表示,在初始状态下一直执行该策略后,最后的累积奖赏值最高。
T步累积奖赏:执行该策略T步的平均奖赏的期望值
r折扣累计奖赏:一直执行到最后,同时越往后的奖赏权重越低
k-摇臂赌博机
€-贪心(epsilon)
就像 **“吃饭选餐馆”**,ε-贪心让你在 **“去最喜欢的店”** 和 **“试试新店”** 之间平衡,避免错过更好选择。 例子:每天选餐馆吃饭 - **已知信息**:你常去的3家餐馆A、B、C,历史评分:A(4星)、B(3星)、C(5星)。 - **目标**:找到最好吃的餐馆,但偶尔尝试新店可能有惊喜。 ε-贪心决策规则 1. **ε概率(如10%)→ 探索**: **随机选一家餐馆**(比如突然试试C)。 *目的*:避免死守已知高分,可能发现C更好吃。 2. **1-ε概率(如90%)→ 利用**: **选当前评分最高的餐馆**(直接去A)。 *目的*:最大化当前已知收益,减少踩雷。 为什么需要ε-贪心? - **长期更优**:早期多探索(试新店),后期多利用(锁定最佳)。 - **适应变化**:餐馆可能换厨师,偶尔试新能发现变化。
softmax
简单解释:Softmax算法** 就像 **“按评分概率选餐馆”**,Softmax让你根据每家店的**“口碑分数”**分配尝试概率,高分店几率高,但低分店也有机会,避免错过隐藏好店。 例子:每天选餐馆吃饭** - **已知信息**:餐馆A、B、C的评分(Q值):A(80分)、B(60分)、C(90分)。 - **目标**:高分店多去,但低分店偶尔尝试(可能评分不准或新菜惊喜)。 Softmax决策规则 Soft Max函数将一组值转化为一组概率值越大对应的概率越高,因此当前平均奖赏之高的动作被选中的几率也大。 为什么用Softmax? - **灵活平衡**:高分店大概率去,低分店小概率试,兼顾收益与探索。 - **动态调整**:通过τ值控制“冒险程度”(高温多探索,低温求稳定)。
有模型学习:已知状态空间,动作空间,转移概率,奖赏函数
策略评估
状态值函数:从某种状态出发,需要某种策略带来的累积奖赏
动作值函数:从某种状态出发,执行某种动作后,再使用某种策略带来的累积奖赏
当模型已知时,策略的评估问题转化为一种动态规划问题,即以填表格的形式自底向上,先求解每个状态的单步累积奖赏,再求解每个状态的两步累积奖赏,一直迭代逐步求解出每个状态的T步累积奖赏
策略改进
理想的策略应当能使每个状态的累积奖赏之和最大,简单理解就是不管处于什么状态,只要通过该策略执行动作,总是能得到较好的结果。因此对于某个给定的策略,我们需要对其进行改进, 从而得到最优的值函数。
改进策略的方式:将策略选择的动作改为当前最优动作 。 选择当前最优动作,相当于将所有的概率都赋给奖赏值最大的动作,因此每次改进都会使得值函数单调递增。
生成最优策略的方法:先给定一个随机策略,对该策略进行评估,然后再改进,接着再评估,再改进,一直到策略收敛不再发生变化。
免模型学习
蒙特卡罗强化学习:受K摇臂赌博机的启发,一种直接的策略评估代替方法是多次采样,然后求取平均累积奖赏来作为期望奖赏的近似,这称为蒙特卡罗强化学习。
时序差分学习:结合了动态规划与蒙特卡罗方法的思想,能做到更高效的免模型学习。 蒙特卡罗强化学习算法通过考虑采样轨迹,克服了模型未知给策略估计造成的困难。此类算法需在完成一个采样轨迹后再更新策略的值估计,前面介绍的基于动态规划的策略迭代和值迭代算法在执行每一步策略后就进行值函数更新。两者相比蒙特卡罗强化学习算法的效率,低得多这里的主要问题是蒙特卡罗强化学习算法没有充分利用强化学习的MDP结构。
值函数近似
值函数:关于有限状态的“表格值函数” (假定强化学习任务是在有限的空间状态上进行,每个状态可以用一个编号来指代)
就像 **“用智能评分系统代替手写笔记本”**,值函数近似让你用一个**“预测模型”**估算每个状态(或状态-动作)的值,避免在超多可能性中逐个记录,高效处理复杂问题。 ### **例子:给城市所有餐馆评分** - **传统表格法**: - 你有一本笔记本,每去一家新餐馆就新增一页记录评分。 - **问题**:城市有1万家餐馆,本子太厚,查分慢,且无法预测未去过的餐馆评分。 - **值函数近似**: - 你训练一个智能模型,输入餐馆特征(位置、菜系、价格),输出预测评分。 - **优点**: 1. **节省存储**:不再需要记录每家店的评分,只需保存模型参数。 2. **泛化能力**:预测未去过餐馆的评分(如:“市中心+川菜+人均100元”可能评4星)。 3. **高效更新**:模型根据新数据自动调整评分预测,无需手动修改。
模仿学习
直接模仿学习:直接模仿人类专家的“状态-动作”对
逆强化学习:从人类专家提供的范例数据中反推出奖赏函数。
规则学习
基本概念:机器学习中的规则通常是指语意明确,能描述数据分布所隐含的客观规律或领域概念,可写为“若…则…”形式的逻辑规则。
规则体:前提,由逻辑文字组成的合取式 规则头:后果
好处:与神经网络,支持向量机这种黑箱模型相比,规则学习具有更好的可解释性,能使用户更直观的对判别过程有所了解,而且表达力强。此外,逻辑规则的抽象描述能力在处理一些高度负责AI的任务时具有显著优势,例如在问答系统中,有时可能遇到非常多,甚至无穷种的可能的答案,此时若能基于逻辑规则进行抽象表述或推理,则将带来极大的便利
好瓜⬅️(根蒂=蜷缩)^(肚部=凹陷) 「好瓜=(纹理=模糊)
规则1长度为二,通过判断两个逻辑文字的赋值来对示例进行判别,符合该规则样本的称为被该规则覆盖。被规则覆盖的样本是好瓜,但未被规则覆盖的未必不是好瓜,只有像规则二这样被否好瓜为头的规则覆盖的才不是好瓜。
当同一个示例被判别结果不同的多条规则覆盖时,则称发生了冲突,解决冲突的办法称为冲突消解。常用的策略有投票法,排序法,元规则法等。 投票法是将判别相同规则数量最多的结果作为最终结果。排序法是在规则集合上定义一个顺序,在发生冲突时使用排序最前的规则。元规则法是根据领域知识事先设定一些元规则,即关于规则的规则,然后根据员规则的指导来使用规则及
命题规则,一阶规则,原子命题,原子公式,谓词,量词。
序贯覆盖
定义:规则学习的目标是产生一个能覆盖尽可能多的样例的规则集。 最直接的做法是序贯覆盖,及逐条归纳,在训练集上每学习到一条规则,就将该规则覆盖的训练样例去除,然后以剩下的训练样例组称训练集重复上述过程。由于每次只处理一部分数据,因此也被称为分治策略。
产生规则的方式
自顶向下:即从比较一般的规则开始,逐渐添加新文字,以缩小规则覆盖范围,直到满足预定条件为止。
自底向上:即从比较特殊的规则开始,逐渐删除文字以扩大规则覆盖范围,直到满足条件为止。
剪枝优化
定义:规则生成本质上是一个贪心搜索过程,需要有一定的机制来缓解过拟和的风险,最常用的方法是剪枝。通常是基于某种性能度量指标来评估增删逻辑文字前后的规则性能,从而判断是否需要进行剪枝。
一阶规则学习:描述对象间的关系 (颜色更深(x,y))
最小一般泛化
目的:把特殊规则转为更一般的规则
例子:csdn
逆归结
归纳原理:一些为此演算中的演绎推理能用一条十分简洁的规则描述,这就是数理逻辑中著名的归纳原理
定义:逆归结是一种逻辑推理方法,主要用于从目标子句出发,通过与知识库中的子句进行归结操作,逐步减少目标子句中的文字,直到证明目标子句成立。
步骤:将目标子句转化为否定形式,选择知识库中的子句进行归结,重复此过程,直至得到空子句或无法继续归结。
概率图模型
机器学习最重要的任务是根据一些以观察到的证据来对位置变量进行估计和推测。在概率模型中,利用已知变量推测书位置变量的分布称为推断,其核心是如何基于可观测变量推测出位置变量的条件分布。 具体来说,假定关心的变量集合为Y,可观测变量集合为O,其他变量集合为R,生成式模型考虑联合分布,判别式模型考虑条件分布。
概率图模型:是一类用图来表达变量相关关系的概率模型。他以图为表示工具,最常见的是用一个节点表示一个或一组的变量,节点之间的边表示变量间的概率相相关关系,即变量关系图。
有向图模型(贝叶斯网)
隐马尔可夫网:通过可见的现象和概率模型,还原不可见的状态变化逻辑 结果最简单的动态贝叶斯网,主要用于时序数据模型,在语音识别、自然语言处理等领域有广泛应用
有两个变量:状态变量与观测变量。状态变量一般是未知的,观测变量是已知的。
两个规则: 1,观测变量的取值仅依赖于状态变量 2,下一个状态的取值仅依赖于当前状态。通俗来说就是现在决定未来,未来与过去无关,这就是著名的马尔可夫性。
无向图模型(马尔可夫网)
马尔可夫随机场:用无向边来表达变量间的依赖关系
若任意两节点间都有边连接,则称该子集为一个团,如果再加一个点便不能成团,则称该子集为极大团
势函数:用来定义多个变量的概率分布函数,其中每一个极大团对应一个势函数,一般团中的变量关系也体现在它所对应的极大团中,因此常常基于极大团来定义变量的联合分布函数。
分离集:若结点集A中结点到B中节点都必须经过C,则称C为分离集
分类
全局马尔可夫性:给定两个变量子集的分离集,则这两个变量子集条件独立
局部马尔可夫性:给定某变量的邻接变量,则该变量与其它变量条件独立
成对马尔可夫性:给所有其他变量,两个非连接变量条件独立
条件随机场(判别式无向图模型):已知全局观测的条件下,协同标注最优标签序列。
简单解释:条件随机场(CRF) 就像 “编辑团队协作写稿”,条件随机场(CRF)在**已知整篇文章内容(观测序列)**的前提下,让每个编辑(标签)不仅看自己负责的段落,还参考前后同事的修改意见,最终协同输出最优修订版。 例子:团队修订文章 假设一篇长文被拆成多个段落,由不同编辑负责修订(如校对错字、调整语气)。 观测序列:原文的每个段落内容(如“今天天汽晴”)。 标签序列:编辑的修订结果(如“今天天气晴”)。 CRF的核心规则 全局协作: 第2段编辑发现第1段改成了“天气”,自己也会倾向将“天汽”改为“天气”,保持全文一致。 数学表示:通过特征函数衡量标签间的关系(如相邻编辑修改一致性得分)。 条件依赖: 修订结果仅依赖观测数据(原文)和相邻标签,无需全局联合建模。 对比MRF:MRF需建模所有标签的联合概率,而CRF直接建模条件概率P(标签∣观测)。
学习与推断
变量消去
信念传播
近似推断
MCMC采样
变分推断
话题模型
半监督学习
概念
定义:半监督学习是一种介于监督与非监督学习之间的学习算法
主动学习:在实际生活中,常常会出现一部分样本有标记而较多样本无标记的情形,例如,做网页推荐时,需要让用户标记出感兴趣的网页,但是少有用户愿意花时间来提供标记。若直接丢弃掉无标记样本集,使用传统的监督学习方法,常常会因训练样本的不充足,使得其刻画总体分布的能力减弱,从而影响了学习期的泛化性能。 解决方法是先使用有标记的样本数据集训练出一个学习器,再基于学习器对未标记的样本进行预测,从中挑选出不确定性高或分类置度低的样本来咨询专家并进行打标,最后使用扩充后的训练集重新训练学习器,期目标是使用尽量少的、 有价值的咨询来获得更好的性能。
分类
纯半监督学习
直推学习
生成式方法
定义:是直接基于生成式模型的方法,此方法假设所有数据都是由同一个潜在的模型生成的。 这个假设使得我们能够通过潜在的参数将未标记数据与与学习目标联系起来,而未标记数据的标记则可看作模型缺失的参数,通常可以基于E M算法进行极大似然估计求解。 此类方法的区别主要在于生成式模型的假设,不同的模型假设将产生不同的方法。
半监督SVM
监督学习中的SVM试图找到一个划分超平面,使得两侧支持向量之间的间隔最大,即最大划分间隔思想
半监督学习则是考虑超平面穿过数据低密度的区域
TSVM是半监督支持向量机中的最著名代表: 其核心思想是,尝试为未标记样本找到合适的标记指派, 使得超平面划分后间隔最大化。 与SVM一样,TSVM也是针对二分类问题的学习方法。 求解过程:首先对未标记样本进行各种可能的标记指派,即尝试将每个未标记样本分别作为正例或反例,然后在所有这些结果中,寻求一个所在样本上间隔最大化的划分超平面。一旦划分超平面得以确定,为标记样本的最终标记指派就是其预测结果。
图半监督学习
定义:给定一个数据集,我们可以将其映射为一个图,数据集中每个样本对应于图中的一个节点,这两个样本之间的相似度很高或相关性很强,则对应节点之间存在一条边,边的强度正比于样本之间的相似度或相关性。可将有标记样本所对应的节点想象为染过色,而为标记样本所对应的节点尚未染色,于是半监督学习就对应于颜色在图上扩散或传播的过程。由于一个图对应了一个矩阵,这就使我们能基于矩阵运算来进行监督学习算法推导与分析。
基于分歧的方法
定义:通过多个学习器之间的分歧(多样性)来利用未标记样本数据,协同训练就是其中的一种经典方法 协同训练:最初是针对于多视图数据而设计的,多视图数据指的是样本对象具有多个属性集,每个属性集则对应一个视图。 基本思想:首先基于有标记样本数据,在每个视图上都训练一个初始分类器,然后让每个分类器去挑选分类置信度最高的样本,并赋予标记,并将带有伪标记的样本数据传给另一个分类器去学习,从而共同进步 视图:具有相容性和互补性。相容性是指单个视图数据训练出的学习器的输出空间是一致的;互补性是指不同视图所提供的信息是相辅相成的,实际上这里体现的是集成学习的思想。
半监督聚类
定义:聚类是一种典型的无监督学习任务,然而在现实聚类任务中,往往能获得一些额外的监督信息,于是可以通过半监督聚类来利用监督信息以获得更好的聚类效果
监督信息类型
必连与勿连:前者样本一定属于同一个簇,或者样本必不属于一个簇
监督信息有少量的标记样本
计算学习理论
基础知识
定义:通过计算来研究机器学习的理论,简而言之,其目的是分析学习任务的本质。例如在什么条件下可以进行有效的学习,需要训练多少样本能获得较好的精度等,从而为机器学习算法提供理论保证。
PAC学习理论(概率近似正确理论)
举例说明: 对于非线性分布的数据及若使用一个线性分类器,则该线性分类器对应的假设空间就是空间中所有可能的超平面,显然假设空间不包含该数据及的目标概念,所以称数据集对该学习是不可分的。 给定一个数据集D,我们希望模型学到的假设尽可能的与目标概念一致,这边是概率近似正确。
概念:从样本空间到标记空间存在着很多映射,我们将每个映射称为概念。
假设空间:给定学习算法,他所有可能概念的集合称为假设空间
一致(可分):若一个算法的假设空间包含目标概念,则称该数据集对该算法是可分的,也称一致的
有限假设空间
可分情形:目标概念属于假设空间
不可分情形: 目标概念不存在于假设空间中,这是我们就不能像可分情形那样从假设空间中寻找目标概念的近似。但当假设空间给定时,必然存在一个假设的泛化误差最小,若能找出此假设的有效近似,也不失为一个好目标,这便是不可知学习。
VC维
定义:现实中的学习任务,通常都是无限假设空间,例如d维实数域空间中的所有超平面等,因此要对此种情形进行可学习研究,需要度量假设空间的复杂度
增长函数:对于给定数据集,假设空间中的每个假设都能对数据集的样本赋予标记, 因此一个假设对应这一种达标结果不同假设对数据集 的达标结果可能是相同的,也可能是不同的。随着样本数量m的增大,假设空间对样本集D的打包结果也会增多,增长函数则表示假设空间对m个样本的数据集D打标的最大可能结果数,因此增长函数描述了假设空间的表示能力与复杂度
稳定性
定义:关键性考察的是当算法的输入发生变化时,输出是否会随之发生较大的变化。
特征选择与稀疏学习
概念
特征:属性 相关特征:对于当前学习任务有用的属性 无关特征:对当前的学习任务没有用的特征 特征选择:从给定的特征集合中选择出相关特征子集的过程 数据预处理:特征选择是一个重要的数据预处理过程
为什么进行特征选择?
1,属性过多会造成维度灾难。若能从中选出重要的特征,使得后续学习过程仅需在一部分特征上构建模型,则维度灾难问题会大为减轻
2,去除不相关特征会降低学习任务的难度
子集搜索与评价
如何生成候选子集?
前向搜索:初始将每个特征当作一个候选特征子集,然后从当前所有的候选子集中选择出最佳的特征子集;接着在上一轮选出的特征子集中添加一个新的特征,同样的选出最佳特征子集;最后直到选不出比上一轮更好的特征子集
后向搜索:初始将所有特征作为一个候选特征子集;接着尝试去掉上一轮特征子集中的一个特征,并选出当前最优的特征子集;最后知道选不出比上一轮更好的特征子集
双向搜索:将前向搜索与后向搜索结合起来,即在每一轮中既有添加操作也有剔除操作
过滤式选择(Relidf)
定义:过滤式方法是一种将特征选择与学习器训练相分离的特征选择技术,即首先将相关特征挑选出来,再使用选择出的数据子集来训练学习器
猜中近邻:同类样本的最近邻,两者属性的距离越小越好
猜错近邻:异类样本的最近邻,两者属性距离越大越好
包裹式选择
定义:将后续学习器也考虑进来作为特征选择的评价准则。包裹式选择可以看作是为某种学习器量身定做的特征选择方法。
经典的包裹式特征选择方法:LVW
定义:在拉斯维加斯框架下使用随机策略来进行特征子集对搜索。 (拉斯维加斯算法:采样越多,越有机会达到最优解,不一定会给出解,给出的解一定是正确解。 例如用一千把钥匙开一把锁。) (蒙特卡罗算法:采样越多,越近似最优解,但给出的解不一定是正确解。 例如,在一百个苹果中找最大的,先拿出一个,再随机拿一个,如果比原来的大,则留下,如果比原来的小,则继续拿。)
嵌入式选择
定义:将特征选择与学习器训练完全融合的特征选择方法,即将特征选择融入学习器 的优化过程中
正则化
稀疏表示与字典学习
定义:当样本数据是稀疏矩阵时,对学习任务来说会有不少的好处,例如很多问题变得线性可分,储存更为高效。对于一个稠密矩阵,若我们能通过某种方式找到其合适的稀疏表示,则可以使得学习任务更加简单高效,我们称之为稀疏编码或字典学习
压缩感知
在现实任务中,常希望根据部分信息来恢复全部信息。例如在数据通讯中要将模拟信号转化为数字信号,然而为了便于传输存储在实践中,人们常对采样的数字信号进行压缩,这有可能会损失一些信息而在信号传输的过程中,由于信道出现丢包问题,又可能损失部分信息,那么接收方基于收到的信号能否精确 的重构出原信号呢?压缩感知为解决此问题提供新的思路。
压缩感知利用信号的稀疏性,通过少量随机采样和数学优化算法(如L1最小化),从远低于传统采样率的数据中高精度重建完整信息,实现“少采样,多复原”。
降维与度量学习
概念
维数:样本的特征数
维数灾难:维数特别大
具体表现: 在高维情形下,数据样本将变得十分稀疏,因为此时要满足训练样本采样的总体样本分布数目是一个不可触及的天文数字,训练样本的稀疏使得其代表总体分布的能力大大减弱,从而削减了学习器的泛化能力; 同时当维数很高时,计算距离也变得十分复杂,因此,支持向量机使用核函数进行“低维计算,高维表现”。
解决方法:降维 通过某种数学变化,将原始高维空间转变到一个低维的子空间。 在这个子空间中,样本的密度将大幅提高,同时计算距离也变得容易。
对于降维后会丢失数据的问题: 虽然训练数据是高维的,但学习任务相关,也许仅仅是其中一个低维子空间空间,也称一个低维嵌入,如数据属性中存在噪声属性,相似属性或冗余属性等,对高维数据进行降维,能在一定程度上达到提炼低维优质属性或降噪的效果。
k近邻学习(KNN)
定义:给定某个测试样本,KNN基于某种距离度量在训练集中找出与其距离最近的K个带有真实标记的训练样本,然后基于这k个 邻居的真实标记来进行预测。
这是一种典型的监督学习方法,分类任务采用投票法,回归任务则采用平均法。 虽然是一种监督学习方法,但是他却没有显式的训练过程,而是当有新样本需要预测时,才来计算出最近的k个邻居,因此KNN是一种典型的懒惰学习方法。
KNN算法的核心在于k值的选取以及距离的度量,一般通过交叉验证法来选取一个适当的k值
距离度量
而对于距离的度量,不同的度量方法得到的k个近邻不尽相同,从而对最终的投票结果产生了影响。
k值
k值太小导致过拟合,k值太大导致欠拟合。
多维缩放(MDS)
定义:不管是用核函数升维还是对数据降维,我们都希望原始空间的样本点之间的距离在新空间中基本保持不变,这样才不会使得原始空间样本之间的关系及总体分布发生较大的变化,多为缩放正是基于这样的思想,MDS要求原始空间样本之间的距离在降维后的低维空间中得以保持。
令降维后的样本坐标Z被中心化 ,中心化是指将每个样本向量减去整个样本级的均值向量,故所有样本向量求和得到一个零向量 。
主成分分析(PCA)
定义: 通过一个线性变换,将原始空间中的样本投影到新的低维空间中。 简单理解这一过程:PCA采用一组新的基来表示样本点,其中每一个基向量都是原来基向量的线性组合,通过使用尽可能少的新基向量来表示出样本,从而达到降维的 目的。 假设用d‘个新基向量来表示原来样本,实际上是将样本投影到一个由d’个基向量确定的一个超平面,要用一个超平面对空间中所有高维样本进行恰当的表达, 最理想的情形是:这些样本点都能够在超平面上表出,且这些表出在超平面上都能够很好地分散开来。
性质
最近重构性:样本点到超平面的距离足够近,即尽可能地在超平面附近。
最大可分分性:样本在超平面上的投影尽可能的分散开来,即投影后的坐标具有区分性。
核化线性降维
若我们的样本数据点本身就不是线性分布,那如何用一个超平面去近似表出呢? 因此也就引入了核函数,及先将样本映射到高维空间,再在高维空间中使用PCA线性降维。
流形学习
定义:一种借助拓扑流行概念的降维方法,流形是指在局部与欧式空间同胚的空间,即在局部与欧式空间具有相同的性质,能用欧式距离计算样本之间的距离。这样即使高维空间的分布十分复杂,但是在局部上仍满足欧式空间的性质,基于流形学习的降维正是这种“领域保持”的思想。
分类
等度量映射
出发点:高维空间中的直线距离具有误导性,因为有时高维空间中的直线距离在低维空间中是不可达的。因此利用流形在局部上与欧式空间同胚的性质, 可以使用近邻距离来逼近测地线距离。(图片) 如图,低维嵌入流形上的测地线距离不能用高维空间的直线距离计算,但能用近邻距离来类似。 计算两点之间的最短路径,可以用迪杰斯特拉算法和弗洛伊德算法。
局部线性嵌入
核心思想:保持样本在局部领域内的线性关系
步骤: 1,构建邻接图 2,计算所有点对的测地线距离 3,使用多维缩放将侧地线距离映射到低维空间
度量学习
遇到维数灾难时,需要将原空间投影到一个合适的低维空间中,接着在低维空间进行学习任务,从而产生更好的性能。事实上,不管高维空间还是低维空间都潜在对应一个距离度量,因此,可以直接学习出一个距离度量来等效降维。 度量学习是机器学习中一个重要领域,目的是通过学习一个合适的距离度量函数,使得在特征空间中相似的样本更接近,不相似的样本更远。度量学习的核心目标是通过优化距离度量,提升分类,聚类,检索等任务的性能。
聚类
聚类任务
无监督学习:训练样本的标记信息是未知的,目标是通过对无标记样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。
簇:聚类试图将数据集中的样本划分为若干个通常是不相交的子集
性能度量
外部指标:将聚类结果与某个参考模型的结果比较,以参考模型的输出为标准来评价聚类好坏。
内部指标:不依赖任何外部模型直接对剧类的结果进行评估,即相似的样本尽可能地聚在一起,不相似的样本尽可能分开。
距离计算
连续属性:可以直接被学习器所用
离散属性
属性之间存在序关系:将其转化为连续值
属性之间不存在序关系:转化为向量的形式
原型聚类:通过参考一个模版来完成聚类
k- means算法
首先随机指定类中心,根据样本与类中心的远近划分类簇,接着重新计算类中心,迭代直至收敛。
若将样本的类别看作隐变量,类中心看作样本的分布参数,这一过程正是通过E M算法的两步走策略而计算出,其根本目的是为了最小化平方误差函数E。
学习向量化LVQ
使用真实类标记辅助聚类: 首先LVQ根据样本的类标记,从各类中分别随机选出一个样本作为该类簇的原型,从而组成了一个原型特征向量组,接着从样本集中随机挑选一个样本,计算其与原型向量组中每个向量的距离,并选取最小的原型向量所在的类簇作为他的划分结果,在于真实类标比较。 若划分正确,则对应原型向量向这个样本靠近一些若划分结果不正确,这队友原型向量向这个样本远离一些
高斯混合聚类
采用高斯分布来描述原型 现假设每个类簇中的样本都服从一个多为高斯分布,那么空间中的样本可以看作由k个多维高斯分布混合而成
簇划分是由原型对应后验概率确定
高斯混合模型参数由极大似然估计确定
密度聚类
从样本分布的角度来考察样本之间的可连接性,并基于可连接性不断拓展。
DBSCAN算法
概念: 领域,核心对象,密度直达,密度可达,密度相连
找出一个核心对象所有密度可达的样本集合形成簇
步骤:首先从数据集中任选一个核心对象A,找出所有A密度可达的样本集合,将这些样本形成一个密度相连的类簇,直到把所有的核心对象都遍历完。
层次聚类
基于树形的聚类方法,常用的是自底向上的结合策略
步骤
初始化,把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度
寻找各个类之间最近的两个类,把它们归为一类(这样类的总数就少了一个)
重新计算新生成的这个类与各个旧类之间的相似度
重复,直到所有的样本点都归为一类
如何计算类间相似度
单链接:取类间最小距离 包容性过强
全链接:取类间最大距离 包容性不强
均链接:取类间两两平均距离 从全局出发顾全大局
正则化
### **简单解释:正则化(Regularization)** 就像 **“防止学生死记硬背,逼他理解规律”**,正则化通过给模型增加“约束”,防止它过度依赖训练数据的细节,提升泛化能力。 ### **例子:考试复习** - **问题**:学生通过刷题备考,但考试题目可能和练习题不同。 - **过拟合**:学生死记硬背所有题目的答案(模型复杂),遇到新题直接懵。 - **正则化**:逼学生总结通用解题思路(简化模型),即使遇到新题也能应对。 ### **正则化如何操作?** 1. **L1正则化(Lasso)**: - **规则**:惩罚绝对值大的权重,迫使模型“忘记”不重要的细节。 - **效果**:让部分权重归零(特征选择),只保留关键解题步骤。 - **例子**:复习时划掉无关公式,只记核心知识点。 2. **L2正则化(Ridge)**: - **规则**:惩罚平方值大的权重,限制权重过大。 - **效果**:让权重趋近于小值但不为零(平滑模型),平衡所有知识点。 - **例子**:复习时淡化复杂推导,关注通用方法。 ### **实际应用场景** - **线性回归**:防止系数过大,避免对噪声敏感。 - **神经网络**:减少过拟合,提升图像分类泛化能力。 - **推荐系统**:平衡用户行为数据和通用偏好,避免过度个性化。 ### **一句话总结** 正则化:**“限制死记硬背,逼模型学规律”**,通过惩罚复杂模型,在拟合数据与泛化能力间找平衡。
对比
### **对比普通马尔可夫链** | **模型** | **核心特点** | **例子** | |----------------|-----------------------------|----------------------------| | **马尔可夫链** | 状态直接可见,无隐藏层 | 根据今天天气预测明天天气 | | **隐马尔可夫** | 状态不可见,需通过观测推断 | 通过症状推测疾病发展过程 |
简单解释:隐马尔可夫模型(HMM) 就像 “听声音猜房间里的活动”,HMM让你通过**“听到的动静”(观测序列)推测“看不见的动作”**(隐藏状态),比如通过水声、笑声、呼噜声,猜出某人在做饭、看电视还是睡觉。 例子:通过声音猜测屋内活动 假设你站在屋外,只能听到声音,看不到里面的人在做什么。 隐藏状态(真实活动):做饭、看电视、睡觉。 观测序列(听到的声音):水声、笑声、呼噜声。 HMM核心三要素 状态转移概率: 当前活动切换的概率。比如: 做完饭后,70%可能去看电视,30%可能睡觉。 看完电视,50%继续看,50%睡觉。 观测概率: 每个活动产生不同声音的概率。比如: 做饭时:水声(80%),笑声(10%),呼噜声(0%)。 看电视时:水声(10%),笑声(70%),呼噜声(20%)。 初始状态概率: 第一天活动的初始分布。比如: 做饭(60%),看电视(30%),睡觉(10%)。
简单解释:马尔可夫随机场(MRF) 就像 “邻居装修风格互相影响”,马尔可夫随机场(MRF)认为,每个节点的状态(如家庭装修风格)受其邻居直接影响,而无需全局协调,最终形成整体和谐或规律。 例子:社区装修风格 假设一个社区有多个家庭,每家装修风格受邻居影响: 节点:每个家庭。 边:邻居关系(相邻家庭有连接)。 状态:装修风格(如现代、复古、田园)。 MRF的核心规则 邻居效应: 你家如果和邻居都选现代风,大家满意;若你突然改复古,邻居会觉得突兀。 数学表示:通过“势函数”衡量邻居间风格的一致性(现代+现代得分高,现代+复古得分低)。 全局能量最低: 社区整体会趋向于“能量”最低的状态(即邻居间风格冲突最少)。 优化目标:找到让所有邻居风格搭配最和谐的配置。