导图社区 数据挖掘与大数据分析
数据挖掘的主要挖掘任务(关联规则挖掘、分类、聚类、噪声检测)和经典算法,介绍大数据分析的常见方法、思想及工具。
编辑于2022-04-19 16:31:14这是一篇关于IELTS Economic Reading Vocabul的思维导图,主要内容包括:1. Basic Economic Concepts,2. Market and Trade,3. Economic Policies and Regulation,4. Economic Phenomena and Trends,5. Impacts and Consequences。
这是一篇关于雅思经济类阅读常用单词的思维导图,主要内容包括:一、经济基本概念,二、市场与贸易,三、经济政策与调控,四、经济现象与趋势,五、影响与后果。
这是一篇关于气候变化话题核心词汇(附中文)的思维导图,主要内容包括:一、基本概念,二、温室气体与污染物,三、气候变化影响,四、应对措施与政策,五、相关术语与行动。
社区模板帮助中心,点此进入>>
这是一篇关于IELTS Economic Reading Vocabul的思维导图,主要内容包括:1. Basic Economic Concepts,2. Market and Trade,3. Economic Policies and Regulation,4. Economic Phenomena and Trends,5. Impacts and Consequences。
这是一篇关于雅思经济类阅读常用单词的思维导图,主要内容包括:一、经济基本概念,二、市场与贸易,三、经济政策与调控,四、经济现象与趋势,五、影响与后果。
这是一篇关于气候变化话题核心词汇(附中文)的思维导图,主要内容包括:一、基本概念,二、温室气体与污染物,三、气候变化影响,四、应对措施与政策,五、相关术语与行动。
数据挖掘
第一章 数据挖掘概论
数据清理:消除噪声和删除不一致数据
数据集成:多种数据源可以组合在一起
数据选择:从数据库中提取与分析任务相关的数据
数据变换:把数据变换和统一成适合挖掘的形式
数据挖掘:核心步骤,使用智能方法提取数据模式
模式评估:根据兴趣度度量,识别代表知识的真正有趣的模式
知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识
数据挖掘的主要任务
(1)关联分析 (关联规则挖掘/亚组发现)
发现数据之间的关联规则,这些规则展示属性/值频繁的在给定的数据中所一起出现的条件。
广泛的用于购物篮数据分析。
(2)聚类分析
将类似的数据归类到一起,形成一个新的类别进行分析。
最大化类内的相似性和最小化类间的相似性
(3)分类/预测
找出描述和区分数据类/概念的模型,用以使模型能预测未知的对象类标签。(如决策树、人工神经网路)
(4)孤立点(离群点)分析
孤立点:一些与数据的一般行为或模型不一致的孤立数据
通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。
第二章 认识数据与数据预处理
一、认识数据
基本概念
数据是对描述对象的抽象;
数据集:数据对象的集合;
数据对象:记录、点、向量、模式、事件、样本、案例、观测或实体;
属性:用于刻画对象的基本性质或特性;
属性也称作:变量、特性、字段、特征或维。
属性值:是赋予属性的数或符号
属性类型
分类型(Categorical)
标称(Nominal)-(特殊:二元)
例: ID 号、眼球颜色、邮政编码
序数( Ordinal )
例: 军阶 、 GPA、用 {tall, medium, short}表示的高
数值型(Numerical)
区间(Interval)
例: 日历、摄氏或华氏温度.
比率(Ratio)
例: 开氏温度、长度、计数
离散 vs. 连续属性
离散属性(Discrete Attribute)
- 有限或无限可数个值
例: 邮政编码、计数、文档集的词
- 常表示为整数变量或字符串变量
连续属性(Continuous Attribute)
- 属性值为实数
例: 温度、高度、重量.
- 实践中, 实数只能用有限位数字的数度量和表示.
- 连续属性一般用浮点变量表示.
通常,标称、序数属性为离散的,区间和比率属性是连续的。
对称 vs. 非对称二元属性
二元属性(binary attributes)
离散属性的特例
仅取两个不同值,0/1、真/假、是/否、男/女.
常用0、1表示
对称的二元属性
两个值一样重要
例如,性别
非对称的二元属性
通常,一个值比另一个更重要
重要的值通常比较少出现,通常用1表示
例如,化验结果{阴性,阳性},其中阳性较少,但更值得关注
2、数据类型
记录数据
数据矩阵
如果数据对象都具有固定个数的数值属性,则可以把数据对象看做多维空间中的点,其中每个维代表一个不同的属性
这种数据可以用一个 m n 矩阵表示, 其中 m 行, 每行代表一个对象, n 列, 每列代表一个属性
文档数据
购物篮数据(事务数据)
图数据(Graph)
万维网
基于图的数据 (1)
带有对象之间联系的数据
分子结构
基于图的数据 (2)
具有图形对象的数据
对象具有结构,即对象包含具有联系的子对象
例: 苯分子的球—棍图,包含碳原子(黑色)和氢原子(灰色)
有序(Ordered)数据
时序数据
有序数据: 时序数据
有序数据有多种, 常常涉及时间或空间序
时序数据(sequential data),也称时间数据(temporal data)
时间次序重要, 但具体时间不重要
例:事务序列
序列数据
序列数据(sequence data)
时间序列数据(time series data)
基因序列数据
- 基因组序列数据
空间数据
空间数据
- 具有空间属性,如位置或区域
例: 不同的地理位置收集的气象数据(降水量、气温、气压)
右图每月是全球温度空间数据,显示多月是时间-空间的温度数据(Spatial-Temporal Data)
数据的统计描述
中心趋势度量
(均值,众数,中位数,中列数)
例子:salary(千美元)如下:
30,31,47,50,52,52,56,60,63,70,70,110.
均值(mean):总和/个数
加权平均:考虑权重的均值
中列数:数据集的最大和最小值的平均值
大数据 :近似值估计(线性插值方法)
众数(mode): 在集合中出现最频繁的值。
对于非对称的单峰数据,有以下经验关系:
mean-mode ~ 3 * (mean-median)
数据的散布
(极差,四分位数,四分位数极差,五数概括,盒图)
极差:max-min
四分位数(quantile)
四分位数极差(距离)
IQR=Q3-Q1
方差
标准差
五数概括:[ min,Q1,median,Q3,max]
盒图表示 ( summary 函数)
可视化
分位数图(观察单变量数据分布)
Xi (i=1,…, N) 递增排列的数据
分位数-分位数图
刻画一个分布到另一个分布是否有漂移
( qqplot 函数)
直方图:刻画数据的整体分布情况 (hist函数)
散点图:数据的具体分布(<= 3维)
相似性度量
1、标称属性数据
标称变量(Nominal variable)是二元变量的拓广, 它可以取多于两种状态值, 如, red, yellow, blue, green
相异性度量方法:
m:状态取值匹配的变量数目, p: 变量总数
2、二元变量属性数据
计算二元变量的相似度
(1)首先获取列联表(contingency table)
对称: 二元变量的两个状态具有同等价值
不对称: 二元变量的两个状态的输出不是同样重要
(2)对称的二元变量的相异度计算----简单匹配
不对称的: 二元变量的两个状态的输出不是同样重要
Note:对于非对称的相似度, 负匹配数目t被忽略.
3、序数型变量数据
序数型变量的值可以映射为秩(rank). 例如, 假设变量f有Mf个状态, 这些有序的状态定义了一个排列1,…,Mf
相异度计算可以用类似于区间标度变量的方法处理
- 设第i 个对象变量f 的值为 xif , 用对应的秩rif 替代xif, 其中 rif ∈{1,…,Mf }
- 将每个变量的值域映射到[0, 1]区间, 以便每个变量都具有相同的权重: 用下式替换rif
4、数值属性数据
使用距离来度量两个数据对象之间的相似性/相异性
常用的距离包括:闵可夫斯基(Minkowski) 距离:
其中 i = (xi1, xi2, …, xip)和 j = (xj1, xj2, …, xjp) 是两个 p-维数据对象(q 正整数)
如果q = 1, d是曼哈坦 (Manhattan)距离
如果 q = 2, d是欧几里德(Euclidean)距离 :
Note:可以使用加权的距离, 如加权的欧几里德距离
数据标准化
(1) 计算平均绝对偏差:
其中
(2)计算标准化的度量值
使用平均绝对偏差比使用标准差更具有鲁棒性
5、混合型数据
如何计算混合类型变量描述的对象的相异度?
基本思想:将不同类型的变量组合在单个相异度矩阵中, 把所有变量转换到共同的值域区间[0.0, 1.0]上
6、相似性度量方式
余弦相似性(向量内积空间的夹角)
余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。
将向量根据坐标值,绘制到向量空间中。如最常见的二维空间。
求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征,这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。
马氏距离 (考虑数据局部分布)
马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离'.其中σi 是 xi 的标准差.
相关系数 (皮尔森系数)
KL散度(数据分布比较)
在概率论或信息论中,KL散度( Kullback–Leibler divergence),又称相对熵(relative entropy),是描述两个概率分布P和Q差异的一种方法。它是非对称的,这意味着D(P||Q) ≠ D(Q||P)。特别的,在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布。有人将KL散度称为KL距离,但事实上,KL散度并不满足距离的概念,应为:1)KL散度不是对称的;2)KL散度不满足三角不等式。对一个离散随机变量或连续的随机变量的两个概率分布P和Q来说,KL散度的定义分别如下所示。