导图社区 机器学习
这是一篇关于机器学习的思维导图,主要内容包括:概念:如果机器通过所谓的训练(training)找到了一个函数,对于已有的1000组人脸数据,它都能够根据美女的各种特征,大致推断出这个人是否是美丽的。那么,再给另一批数据,就很有希望用同样的函数(模型)推断出这另一批人是否是美丽的。已有的1000组人脸数据,就叫作训练数据集(training dataset)。
这是一篇关于K最近邻算法的思维导图,主要内容包括:K最近邻算法的优劣势,K最近邻算法模型评价,K最近邻算法的分类与回归,K最近邻算法的原理,概念。
这是一篇关于机器学习的思维导图,主要内容包括:机器学习的项目架构,机器学习的Python工具包,机器学习中的数据结构,机器学习中的函数。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
机器学习
人工智能与机器学习
创始人
Arthur Samuel
概念:运用计算机的运算能力从大量数据中发现一个“函数”或“模型”,并通过它来模拟现实世界事物间的关系,从而实现预测或判断的功能。
核心:使用算法解析数据,从中学习,然后对新数据做出决定或预测
人工智能
努力将通常由人类完成的智力任务自动化
机器学习的类别
机器学习算法分类
有监督学习
概念:通过现有的训练数据集建模,再用模型对新的数据样本进行分类或者回归分析的机器学习方法。
训练数据集
样本特征变量
分类标签
解决问题的方法
分类
目标:对样本的类标签进行预测,判断样本属于哪一个分类
结果:离散的数值
回归
目标:预测一个连续的数值或者是范围
无监督学习
概念:没有数据训练集的情况下,对没有标签的数据进行分析并建立合适的模型,以便给出问题的解决方案。
聚类问题:没有标签的情况下,把数据按照其特征的性质分成不同的簇
关联规则可以找到特征之间的影响关系
其他
机器学习的新热点
深度学习
概念:层数较多、结构比较复杂的神经网络的机器学习技术
用途:图像、音频、视频等非结构化数据的处理
强化学习:智能体如何基于环境而做出行动反应,以取得最大化的累积奖励。并不一定每次都选择最优动作,而是在探索(未知领域)和利用(现有知识)之间找到平衡
概念:如果机器通过所谓的训练(training)找到了一个函数,对于已有的1000组人脸数据,它都能够根据美女的各种特征,大致推断出这个人是否是美丽的。那么,再给另一批数据,就很有希望用同样的函数(模型)推断出这另一批人是否是美丽的。已有的1000组人脸数据,就叫作训练数据集(training dataset)。另一批人脸数据,就叫作测试数据集(test dataset)。
模型的泛化
在训练数据集上建立一个模型,之后会把这个模型用于新的之前从未见过的数据中
模型对于新数据的预测越准确,模型的泛化度越高
判断标准
过拟合:如果基于训练集建立的模型过于复杂,以至于这个模型在拟合训练数据集时表现非常好,但是在测试数据集的表现差,说明模型出现了过拟合的问题
欠拟合:如果模型过于简单,连训练数据集的特点都不能完全考虑到的话,那么这样的模型在训练数据集和测试数据集的得分都会非常差,说明模型出现了欠拟合的问题
只有模型在训练数据集和测试数据集得分都比较高的情况下,我们才会认为模型对数据拟合的程度刚刚好,同时泛化的表现也会更出色
第一章 绪论