导图社区 机器学习
这是一篇关于机器学习的思维导图,主要内容包括:机器学习的项目架构,机器学习的Python工具包,机器学习中的数据结构,机器学习中的函数。
这是一篇关于K最近邻算法的思维导图,主要内容包括:K最近邻算法的优劣势,K最近邻算法模型评价,K最近邻算法的分类与回归,K最近邻算法的原理,概念。
这是一篇关于机器学习的思维导图,主要内容包括:概念:如果机器通过所谓的训练(training)找到了一个函数,对于已有的1000组人脸数据,它都能够根据美女的各种特征,大致推断出这个人是否是美丽的。那么,再给另一批数据,就很有希望用同样的函数(模型)推断出这另一批人是否是美丽的。已有的1000组人脸数据,就叫作训练数据集(training dataset)。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
机器学习
机器学习中的函数
激活函数:常用于人工神经网络和深度学习中,主要的作用是在机器学习算法中实现非线性的、阶跃性质的变换。其中sigmoid函数在逻辑回归中也有重要的应用
kaggle比赛中的经典数据集——Titanic数据集
机器学习中的数据结构
张量:机器学习程序中的数字容器,本质上就是各种不同维度的数组。把张量的维度称为轴,轴的个数称为阶
标量(0阶张量)
向量(1阶张量)
矩阵(2阶张量)
3维张量
4D(阶)张量——图像数据
构成
长
宽
颜色深度
数据集大小
形状
样本
图像高度
图像宽度
5D(阶)张量——视频数据
帧
高度
宽度
机器学习的Python工具包
Numpy
Pandas
Scipy
Matplotlib
Sklearn
机器学习的项目架构
问题定义
数据的收集和预处理
数据收集
可视化:用Excel表和各种数据分析工具从各种角度(如列表、直方图、散点图等)看一看数据。对数据有了基本的了解, 才方便进一步分析判断
向量化:把原始数据格式化,使其变得机器可以读取
数据清洗:利用数据处理工具来把“捣乱”的 “坏数据”(冗余数据、离群数据、错误数据)处理掉,把缺失值补充上
特征缩放:数据标准化和规范化等。 对数据特征分布的转换,目标是使其符合正态分布(均值为 0,标准差为 1)
特征工程:通过子特征的选择来减少冗余特征,使初始测量数据更简洁,同时保留最有用的信息。 把现有的特征进行转换、强化、组合,创建出来新的、更好的特征
数据预处理原则
全部数据应转换成数字格式(即向量、矩阵、3D、4D、5D)的数组(张量)
大范围数据值要压缩成较小值,分布不均的数据特征要进行标准化
异质数据要同质化(homogenous),即同一个特征的数据类型要尽量相同。例如学生成绩作为特征的时候 要将“A、B,优良、97分,65分”进行数据类型的统一
选择机器学习模型
训练机器,确定参数
参数种类
内部参数
权重
偏置
超参数
属于训练和调试过程中的参数
超参数调试和性能优化
评估模型将数据划分成
训练集
验证集
测试集
作用
损失函数评估内部参数。例如回归问题的均方误差函数、分类问题的交叉熵函数,都是内部参数的评估方法。 损失函数指出了当前模型针对训练集的预测误差
验证过程中的评估,既评估了模型的内部参数,也评估了模型的超参数 验证过程评估了当前模型在验证集上的误差
只有深度学习模型才能够处理5D张量数据
用来度量图像中有多少颜色信息可用于显示或打印像素,其单位是“位(Bit)”,所以颜色深度有时也称为位深度。常用的颜色深度是1位、8位、24位和32位。1位有两个可能的数值:0或1。较大的颜色深度(每像素信息的位数更多)意味着数字图像具有较多的可用颜色和较精确的颜色表示
1.实现从特征到结果的一个特定推断 2.机器学习得到的函数是事物之间的关系的体现
第二章 机器学习的准备知识