导图社区 K最近邻算法
这是一篇关于K最近邻算法的思维导图,主要内容包括:K最近邻算法的优劣势,K最近邻算法模型评价,K最近邻算法的分类与回归,K最近邻算法的原理,概念。
这是一篇关于机器学习的思维导图,主要内容包括:机器学习的项目架构,机器学习的Python工具包,机器学习中的数据结构,机器学习中的函数。
这是一篇关于机器学习的思维导图,主要内容包括:概念:如果机器通过所谓的训练(training)找到了一个函数,对于已有的1000组人脸数据,它都能够根据美女的各种特征,大致推断出这个人是否是美丽的。那么,再给另一批数据,就很有希望用同样的函数(模型)推断出这另一批人是否是美丽的。已有的1000组人脸数据,就叫作训练数据集(training dataset)。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
K最近邻算法
概念
简称KNN算法,是机器学习中最简单的一种分类算法
定义
如果一个样本在特征空间中的k个最相似(最邻近)样本中的大多数属于某一个类别,则该样本也属于这个类别
K:设定的最近邻样本的个数
K最近邻算法的原理
欧氏距离
也称欧几里得距离,是最常见的距离度量,衡量的是多维空间中两个点之间的绝对距离
分类
K取值的原则
K值一般不取偶数
K值过小:容易受到异常点的影响
K值过大:产生样本均衡的问题
K最近邻算法的分类与回归
分类问题是用于将事物打上一个标签,通常结果为离散值
回归问题通常是用来预测一个值,回归是对真实值的一种逼近预测
K最近邻算法模型评价
分类算法模型精度的评价
混淆矩阵
准确率
精确率
召回率:召回率越高,代表实际情况被准确预测出来的概率越高
F1分数
AUC-ROC曲线
K最近邻算法的优劣势
优点
简单,易于理解,易于实现, 无需估计参数
训练时间为零。它没有显示的训练,不像其它有监督的算法会用训练集train一个模型
既可以处理二分类问题,也可以处理多分类问题
KNN可以处理分类问题,也可以处理回归问题
缺点
计算量太大
可理解性差,无法给出像决策树那样的规则
对训练数据依赖度特别大,对训练数据的容错性太差
对K取值的依懒性太强,不合适的K值导致分类结果错误
分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化
定量输出称为回归
定性输出称为分类
K值过大,就相当于用较大领域中的训练实例进行预测,缺点是容易使预测结果与实际发生较大偏差,K值的增大就意味着削弱了样本的实际特征,容易发生欠拟合
第三章 K最近邻算法