什么叫机器学习?
假设用P来评估计算机程序在某任务类 T 上的性能,若一个程序通过利用经验 E 在 T 任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
样本(sample):其中的每条记录是关于一个事件的描述
标记(label):这里关于示例结果的信息,例如"好瓜"
样例(example):拥有了标记信息的示例,称为"样例"
标记空间(label space),输出空间:一般地,用(Xi,Yi)表示第i个样例,其中Yi∈Y 是示例Xi的标记,Y是所有标记的集合,
属性(attribute),特征(feature):“色泽”,“根蒂”,“敲声”
属性值(attribute value):属性上取的值,如“青绿”
属性空间(attribute space),样本空间(sample space),输入空间:属性张成的空间,例如,我们把“色泽”,"根蒂",“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间。
特征向量(feature vector):每个西瓜都可在这个空间找到自己的坐标位置,由于空间的每个点对应一个坐标向量,因此我们把一个样本称为一个"特征向量"
真相,真实(ground-truth):这种潜在规律自身称为真相,学习过程就是为了找出或逼近真相
假设(hypothesis):学得模型对应了数据的某种潜在规律,称为假设
训练集(training set):由训练样本组成的集合
训练样本(training sample):其中每个样本称为一个训练样本
训练数据(training date):训练过程中使用的数据
学习(learning),训练(training):从数据中学到模型的过程,这个过程通过执行某个学习算法来完成
一般地,令D={X1,X2,...Xm}表示包含m个示例的数据集,每个示例由d各属性描述,则每个示例(样本)Xi=(Xi1;Xi2;...Xid)是d维样本空间 X 中的一个向量,xi∈ X,其中 Xij 是 Xi 在第j个属性上的取值,d称为样本维数。