导图社区 1.1 机器学习基本术语
学习(learning)训练(training):从数据中学得模型的过程;预测:通过对训练集(里面都是样例)进行学习,建立从输入空间(X)到输出空间(Y)的映射。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
基本术语
数据集(data set):示例的集合
记录1:(色泽=青绿;根蒂=蜷缩;敲声=浊响)
记录2:(色泽=乌黑;根蒂:稍蜷;敲声=沉闷)
...
记录n:(色泽=浅自;根蒂 硬挺;敲声=清脆)
D = { X1, X2 , X3 ... Xm }:表示有m个示例的集合
示例(instance)样本(simple)特征向量(feature vector):
关于一个事件或对象的描述
属性(attribute)特征(feature)
属性构成空间称为
属性空间(attribute space)
样本空间(simple space)
输入空间
标记:关于示例结果的信息(拥有标记的示例称为样例)
标记构成的空间为
标记空间(label space)
输出空间
属性(特征)个数 = 样本的维数
学习(learning)训练(training):从数据中学得模型的过程
训练集(training set)
训练样本(training asmple)
学习任务
监督学习(supervised learning):训练数据拥有标记信息
分类(classification):预测结果是离散的
二分类(binary classification)
正类(positive class)
负类(反类)(negative class)
通常令输出空间Y = { +1 ,-1 } 或 Y = { 0 ,1 }
多分类(multi-class classification)
通常令| Y |>2
回归(regression):预测结果是连续的
通常令 Y = R (R 为实数集)
无监督学习(unsupervised learning):无标记信息
聚类(clustering):将训练集中的示例分成若干组(簇 cluster)
自动形成的簇对应一些潜在概念的划分
在聚类学习中使用的训练样本通常不带标记信息(事先不知道这些潜在概念)
测试(testing)
测试样本(testing simple)
学得模型(学习器learner)、假设(hypothesis)
对应数据中某种潜在规律(真相、真实ground-truth)
学习过程的目的是逼近真相
也可看成是学习算法在给定数据和参数空间中的示例化
泛化(generalization):机器学习目标是使习得模型更好适应新样本
预测:通过对训练集(里面都是样例)进行学习,建立从输入空间(X)到输出空间(Y)的映射