导图社区 大数据挖掘技术第七章
主要介绍了大数据在经济管理中的应用第七章节内容,包括聚类分析、分类分析、关联规则、监督学习、无监督学习。
主要介绍了大数据在经济管理中的应用第二章节内容,包括云计算、物联网、大数据与云计算,物联网的关系 、人工智能。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
大数据挖掘技术
聚类分析
概念:是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同类数据尽可能分离
技术:
K-means
优点:1.属于无监督学习,无需准备训练集;2.原理简单,实现起来较为容易;3.结果可解释性较好
缺点:1.聚类数目K是一个输入参数;2.对于异常点,离群点敏感;3.使用数值型数据
层次聚类
凝聚式层次聚类
分裂式层次聚类
与分类区别:
分类:类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,在对未分类的数据进行分类。属于监督学习。
聚类:事先不知道数据会分几类,通过聚类分析将数据聚合成几个群体,聚类不需要对数据进行训练和学习。属于无监督学习。
分类分析
目的:获得一个分类函数或分类模型(常称分类器),该模型能把数据库中的数据项映射到某一个给定类别
技术:KNN,SVM,决策树(ID.3)
关联规则
关联规则:反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术在,用于从大量数据中挖掘出有价值的数据项之间的相关关系
监督学习
定义:根据已有的数据集,知道输入和输出结果之间的关系,根据这样的已知关系,训练得到一个最优模型
分类:回归,分类
优点:确切的知道每一个训练样本所属的类别; 利用训练样本学习分类器,对未知类别样本分类; 关键问题
无监督学习
定义:我们不知道数据集中数据,特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系
优点:利用无监督样本集,希望能够学习出某种规律性的东西,构造相应的分类器