导图社区 近似查询处理
大数据近似查询处理思维导图,包括在线查询、线下查询、结合机器学习三个板块的内容,希望对你有帮助!
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
大数据近似查询处理
在线查询
线上近似查询
基于在线样本
在查询时抽样
在执行查询时将抽样加入查询计划中,并根据样本上的查询处理结果估计 整体数据上的查询处理结果
在线样本需针对每一 个查询建立,且无需预先获取数据分布等先验知识
在线聚集
通过增加样本量逐步提高结果准确性,当结果准确性满足需求后,可以提前中止查询
Join通过在基于连接关系建立连接图上随机游走的方式获取多表样本进行在线聚集
此外还有多种在线聚集方法
线下查询
线下近似查询
基于线下数据概要
线下样本
基于数据分布或统计信息建立
比线上样本获取耗时更多、准确性更高,且可以存储用于多个查询
简单的随机抽样方法并不能够为均匀分布以外的数据分布提供高质量的样本
为了提高估计结果的准确性
分层抽样
BlinkDB
VerdictDB
数据方块或预聚集查询
通过存储预先计算的特定范围的聚集查询结果来估计未来的查询结果
新方法:将查询结果视为变量,从而根据旧查询估计新查询,该方法能够以低误差估计稀有数据
AQP++将抽样与数据方块相结合,根据预计算的聚集查询结果和由抽样估计的新旧查询的差值来估计新查询的结果
结合机器学习
数据驱动的机器学习模型
通过历史数据或样本数据模拟数据分布或数据之间的关系
基于机器模型获取样本
学习抽样
基于学习的分层抽样方法
从样本中学习分类器用于评价数据元组对复杂查询的贡献得分
根据与预测得分相关的概率进行分层抽样
在利用机器学习方法提高复杂查询执行效率的同时,能够和抽样方法一样为结果提供置信区间
生成样本
通过深度学习模型学习数据分布生成样本
不接触原数据进行采样
避免从大数据中采样的代价,提高采样效率
DBEst
通过样本数据建立密度模型和回归模型
DeepDB
通过和积网络模型模拟数据分布概率模型
EntropyDB
基于最大熵模型建立数据摘要,通过在模型上进行概率推断来回答查询
查询驱动的机器学习模型
模拟历史查询中查询和结果之间的关系
ML-AQP
无需接触数据或数据样本,仅根据历史数据建立模型