导图社区 人工智能
这是一篇关于人工智能的思维导图。-条直线可以将空间分为切分两个区域,相当于分为了两个类别。根据数据位于的区域来判断属性
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
人工智能
预测
预测空间
假设不同的属性取值,会导致怎样的标签
样本空间
由若干条样本组成
一条样本的组成
属性
标签
属性(x)->标签(y),就是计算机根据属性给的预测类别
分类
定义
输出为物体的类别
K近邻算法
方法步骤
1.输入待分类的样本
2.选出K个与待预测样本最相近的样本
决定因素:距离d
1.欧式距离
2.曼哈顿距离
3.汉明距离
3.由K个选出的样本进行投票,决定类别
1.直接投票法
2.加权投票法
如wi=1/d(x1,xi)
4.输出预测的类别
缺点
k值选择要适当。k偏小则参与的数据点偏少,结果易受噪声点的影响;k偏大使得不相近的样本也参与了决策,影响决策的准确性
回归
输出为一个确定的值
线性回归
最小二乘法y=wx+b
w
b
应用
二分类应用
一条直线可以将空间分为切分两个区域,相当于分为了两个类别。根据数据位于的区域来判断属性
线性判别分析
由数据点在线性直线的投影来判断属于哪个类别,这就要求同一个类别的投影要相近(同一个类别内的斜内方差小),不同类别的投影要相距较远(不同类别的中心点相距较远)
拆解和预测
多分类应用
纠错输出码(ECOC)
编码是指类别在分类器得到的属性值,类别(x)--->分类器(映射关系f)-->属性值(y)
对于一个分类器,它对不同的类别赋予的属性值是不一样的,相当于一个映射关系f,对于不同的x,映射得到的y是不一样的
同一个类别在不同的分类器上的属性值可以一样的,也可以是不一样的,相当于同一个x在映射关系f下得到的y可以是一样的,也可以是不一样的
有几个分类器,就有几个属性值
OvO(one vs one)
每一个分类器仅能分别两个类别,如f1只能分辨C1,C2型,
分辨n个类别就需要n(n-1)/2个
编码特点就是只有1和-1,没有0这种中立
OvR(one vs rest)
每一个分类器仅分别是否为Ci,如f1用于判断是C1类别还是除C1以外的类别
分辨n个类别就需要n个
MvM(many vs many)
将类别随机划分为2组,然后一组至少有2个类别,分类器输出待测样本属于哪组类别
编码特点就是只有1和-1,也有0这种中立
“0"无论是和"0" "1" "-1"的汉明距离均为0.5
决策树
信息熵Entropy(S)(香农熵)
含义
用于衡量S包含信息的纯度,值越小所含信息类别越少,越纯;值越大所含信息类别越多,越不纯
公式
其中n为S的类别总数
实例
信息增益Gain(A,S)
定义:基于属性A对S进行划分所能降低的熵值(降低不确定性)
编码意义:
信息增益率Gain_ratio
决策树生成ID3算法
先生成代表训练集全集的根结点
如果结点对应的样本都属于同一类,那么将视该节点为叶节点
否则,使用信息增益选择当前最优样本划分属性作为根节点的子节点
对该划分属性的每个取值创建一个分枝以对样本进行划分
迭代2–4直至没有剩余属性可以用来进一步划分样本
以当前非叶节点分支处的多数样本类别创建叶节点
假设空间属性除了确切的取值外,我们还可以假设该属性为无限制,用“*”来标记,认为他无论取何值,都对预测的标签值无影响
样本空间是根据现实情况获得的,所以在每一个样本里,每一个属性都得是确切的取值,不存在“*”的取值情况