导图社区机器学习的基本术语上

机器学习的基本术语上

机器学习的基本术语上思维导图，读西瓜书总结得到的基本概念。

编辑于2019-04-14 01:16:05

社区模板帮助中心，点此进入>>

机器学习基本术语

什么叫机器学习？

假设用P来评估计算机程序在某任务类 T 上的性能，若一个程序通过利用经验 E 在 T 任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。

数据集(date set) : 这组记录的集合

样本(sample)：其中的每条记录是关于一个事件的描述

标记(label)：这里关于示例结果的信息，例如"好瓜"

样例(example)：拥有了标记信息的示例，称为"样例"

标记空间(label space)，输出空间:一般地，用(Xi,Yi)表示第i个样例，其中Yi∈Y 是示例Xi的标记，Y是所有标记的集合，

属性(attribute)，特征(feature)：“色泽”,“根蒂”,“敲声”

属性值(attribute value)：属性上取的值，如“青绿”

属性空间(attribute space)，样本空间(sample space)，输入空间：属性张成的空间，例如，我们把“色泽”,"根蒂"，“敲声”作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间。

特征向量(feature vector)：每个西瓜都可在这个空间找到自己的坐标位置，由于空间的每个点对应一个坐标向量，因此我们把一个样本称为一个"特征向量"

真相，真实(ground-truth)：这种潜在规律自身称为真相，学习过程就是为了找出或逼近真相

假设(hypothesis)：学得模型对应了数据的某种潜在规律，称为假设

训练集(training set)：由训练样本组成的集合

训练样本(training sample)：其中每个样本称为一个训练样本

训练数据(training date)：训练过程中使用的数据

学习(learning)，训练(training)：从数据中学到模型的过程，这个过程通过执行某个学习算法来完成

一般地，令D={X1,X2,...Xm}表示包含m个示例的数据集，每个示例由d各属性描述，则每个示例(样本)Xi=(Xi1;Xi2;...Xid)是d维样本空间 X 中的一个向量，xi∈ X,其中 Xij 是 Xi 在第j个属性上的取值，d称为样本维数。