导图社区 深入浅出数据分析
该导图整理总结记录了数据分析基本步骤、实验方法、最优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧等数据分析人员应知应会的技术。
编辑于2021-01-13 09:59:00🔍 **MySQL 多表查询全解析,破解数据关联的奥秘!** 🚀 当单表查询无法满足需求,多表查询便成为数据库开发的核心技能。本思维导图全面解析 **MySQL 多表查询技巧**,助你轻松驾驭复杂数据关联。
MySQL 排序与分页:让数据呈现更高效! 在数据库查询中,数据排序和分页是提升查询效率与用户体验的关键。本思维导图直观展示 ORDER BY 排序技巧和 LIMIT 分页策略,帮助你轻松掌握: 🔹 排序数据——多列排序、ASC/DESC 关键字、优化查询性能 🔹 分页查询——LIMIT、OFFSET 机制,让大数据查询更流畅 🔹 性能优化——避免常见的分页陷阱,让查询又快又准 💡 一张图秒懂排序与分页原理,助你写出高效 SQL,畅游数据世界!快来探索吧! 🎯✨
MySQL运算符全解析,轻松掌握数据计算! 在SQL世界里,运算符是数据处理的魔法工具!本思维导图系统梳理了 MySQL运算符的五大核心类别: ➊ 算术运算符 ——数值计算,轻松驾驭数据运算! ➋ 比较运算符 ——数据比对,精准筛选目标信息! ➌ 逻辑运算符 ——多条件查询,让SQL更智能! ➍ 位运算符 ——进阶数据处理,掌握二进制操作! ➎ 运算符优先级 ——避免计算混乱,SQL执行更高效! 🌟 一张图快速掌握MySQL运算符,让你的查询更精准、逻辑更清晰、性能更高效! 🚀 快来探索吧!✨
社区模板帮助中心,点此进入>>
🔍 **MySQL 多表查询全解析,破解数据关联的奥秘!** 🚀 当单表查询无法满足需求,多表查询便成为数据库开发的核心技能。本思维导图全面解析 **MySQL 多表查询技巧**,助你轻松驾驭复杂数据关联。
MySQL 排序与分页:让数据呈现更高效! 在数据库查询中,数据排序和分页是提升查询效率与用户体验的关键。本思维导图直观展示 ORDER BY 排序技巧和 LIMIT 分页策略,帮助你轻松掌握: 🔹 排序数据——多列排序、ASC/DESC 关键字、优化查询性能 🔹 分页查询——LIMIT、OFFSET 机制,让大数据查询更流畅 🔹 性能优化——避免常见的分页陷阱,让查询又快又准 💡 一张图秒懂排序与分页原理,助你写出高效 SQL,畅游数据世界!快来探索吧! 🎯✨
MySQL运算符全解析,轻松掌握数据计算! 在SQL世界里,运算符是数据处理的魔法工具!本思维导图系统梳理了 MySQL运算符的五大核心类别: ➊ 算术运算符 ——数值计算,轻松驾驭数据运算! ➋ 比较运算符 ——数据比对,精准筛选目标信息! ➌ 逻辑运算符 ——多条件查询,让SQL更智能! ➍ 位运算符 ——进阶数据处理,掌握二进制操作! ➎ 运算符优先级 ——避免计算混乱,SQL执行更高效! 🌟 一张图快速掌握MySQL运算符,让你的查询更精准、逻辑更清晰、性能更高效! 🚀 快来探索吧!✨
深入浅出数据分析
分解数据
确定
了解及确定问题
客户将帮助你确定问题
你的客户可能:
相当了解或不甚了解自己的数据
相当了解或不甚了解自己的问题或目标
相当了解或不甚了解自己的业务
目标明确或优柔寡断
头脑清醒或稀里糊涂
富有直觉或善于分析
要点
你对客户了解越深,你的分析越有可能派上用场
心智模型
你对外界的假设和你确信的观点就是你的心智模型
务必尽量明确你的心智模型
统计模型取决于心智模型
心智模型大大决定观察结果
一种心智模型会让你注意到外界的一些特点, 另一种心智模型会让你注意到外界的另一些特点
最好使用正确的心智模型
心智模型应当包括你不了解的因素
一定要指出不确定因素,小心防范并填补知识空白,继而提出更好的意见
这种“反查”方法会揭示出未知信息,而不是已知信息
未雨绸缪方能防备不测风云
分解
将大问题分解为颗粒级的小问题
将问题划分为可管理、可解决的组块
通过回答从大问题分解出来的小问题,你就可以找到的大问题的答案
将数据分解为更小的组块
提炼重要的因子
对原始数据表进行汇总,找出高效的比较因子
找到感兴趣的比较对象,分解汇总数据
通过比较各项汇总数据在脑子里形成一个概念,即客户的业务是如何开展的
原始数据
所获得的新数据若未经任何处理,即称为原始数据
原始数据在你要进行的数据运算中发挥作用,几乎总是要调节数据
千万要保存原始数据,必须能够将自己的工作结果与原始数据进行比较
密切关注需要了解的数据
评估
评估组块
评估分解组块的关键是比较
让自己介入分析
意思:做出自己的明确假设,并以自己的信用为自己的结论打赌
细查数据
深入挖掘数据
决策
提出建议
确保自己的意见传达到位
将分析形成报表供制定决策
提交给客户的报告要以得到客户理解,鼓励客户以数据为基础作出明确的决策为重点
展示分析结果
报告
背景
在报告中写下自己和客户的假设是个不错的办法
数据解说
分析大餐;用简单的图形解说自己的结论
建议
报告要简练、专业、直截了当
与客户沟通
实验
比较法
务必使用比较法
统计与分析最基本的原理之一,数据只有相互比较才会有意义
必须进行明确的比较
比较是破解观察数据的法宝
比较越多,分析结果越正确,对观察研究尤其如此
收集观察数据往往是通过实验取的更有用数据的第一步
寻找原因
因果图
将所想到的事物之间的联系画出来
用图形形象地表示你的理论
观察研究法
被研究的人自行决定自己属于哪个群体的一种研究方法
观察分析法充满混杂因素
混杂因素就是研究对象的个人差异,它们不是你试图进行比较的因素, 最终会导致分析结果变差
混杂因素分组
为了控制观察研究混杂因素,将数据拆分为更小的数据块
小数据块更具同质性
重点
分析结论要有意义
实验研究法
决策分组
策略实验
你需要对这些策略进行实验,目的是了解哪种策略最有效
基本控制
控制组
一组体现现状的处理对象,未经过任何新的处理(也称对照组)
以控制组为基准
好的实验总是有一个控制组(对照组),使分析师能够将检验情况与现状进行比较
没有控制组就意味着没有比较,没有比较就意味着无法对所发生的情况进行判断
历史控制法
用过去的数据作为控制数据
历史控制法通常偏向于你力图进行检验的对象的成功方面,因为很难选出和你所测试的组真正相似的控制组。总体上说,你应该对历史控制法表示怀疑
同期控制法
控制组与实验组在同样的时期内经历同样的事
实验会毁于混杂因素
为了有效地进行比较,各个组必须相同
精心选择分组,避免混杂因素
随机性
随机选择相似组
将对象随机分配到各个组,最终的结果是:可能成为混杂因素的那些因素最终在控制组和实验组中具有同票同权
通过随机选择组成各个组的成员,组与组之间将非常相似,因而具有可比性
随机控制
随机控制是各种实验的黄金标准
随机控制实验能让你最大限度地接近数据分析的核心:证明因果关系
设计完善
准备就绪,开始实验
收集结果
组与组进行相互比较,分析结果
审视结果
沟通难题
避免解雇
顶级数据分析师懂得妥当地报告有可能令人沮丧的消息
最优化
控制范围
无法控制的因素
可以控制的因素
要得到有关能控制的因素和不能控制的因素的可靠数字
需要的数据
能控制的变量受到约束条件的限制
决策变量是能控制的因素
目标函数
为了解决一个最优化问题,需要将决策变量、约束条件及希望最大化或最小化的目标合并成一个目标函数
借助目标函数发现目标
最大化或最小化的对象就是目标,目标函数可以帮助找出最优化结果
简易数学表达公式
C 1 X 1 +C 2 X 2 =P
每个“C”表示一个约束条件
每个“X”表示一个决策变量
“P”是目标,即期望最大化或最小化对象
有些优化问题使用的目标函数更为复杂
任何最优化问题都有一些约束条件和一个目标函数
目标函数探讨
列出有约束条件的产品组合
图形多元化
在同一张图形里绘制多种约束条件
可以将任何数量的约束条件画在这张图形上,然后考虑有可能采用的产品组合
可行区域
产品组合所在的由约束线围成的空间
合理的选择都出现在可行区域里
每当在图形中增加约束条件,可行区域就会发生变化
可以通过可行区域来找出最优点
最优模型
根据约束条件及目标函数定义模型
模型的限制
模型仅仅是在你所规定的约束条件下告诉你最优值
你的分析工具不可避免地会简化实际情况,但如果你的假设和数据都是正确的,那么这些工具就相当可靠
你的目标应该是尽量创建最有用的模型, 让模型的不完美相对于分析目标变得无足轻重
“一切模型都是错误的,但其中一些是有用的”
著名统计学家George Box
按照分析目标校正假设
你无法规定全部假设,但只要缺失一个重要假设条件,分析结果就是错误的
规定的假设条件详尽程度由分析的重要性来决定
提防负相关变量
不要假定两种变量是不相关的
创建模型时,务必要规定假设中的各种变量的相互关系
你的假设立足于不断变化的实际情况
做好修改模型的准备
最优化思维
可以用开阔的思维方式来思考最优化
最优化思维方法的最终目的是得出自己希望实现的目标,然后小心地鉴别会影响实现这个目标的约束条件
用软件处理数字
用电子表格实现最优化
解释最优化结果
整理数据
过程规划
清理混乱数据的根本在于准备
设想数据集的最终外观
区分混乱数据中重复出现的模式
分拆数据列
通过分割符将数据分成多个列
消除乱码
清楚重复数据
关系数据库
数据表之间的相互关系
数据库就是一系列相互有特定关系的数据
用关系数据库管理关系
误差
外插法
用回归方程预测数据范围以外的数值称为外插法
若使用外插法,就需要指定附加假设条件,明确表示不考虑数据集外发生的情况
机会误差
机会误差=实际结果与模型预测结果之间的偏差
机会误差又称为残差
误差数据
机会误差分布(残差分布)
回归线周围的残差分布说明了模型的多种特点
通过一个统计值体现出典型的点(或称为观察结果)相对于回归线的平均偏移量
量度方式
标准偏差
描述的是一个变量
标准偏差描述的是平均值周围的分布情况
均方根误差
指出两个变量之间的关系
均方根误差描述的是回归线周围的分布情况
用均方根误差定量表示残差分布
分区
将数据拆分为几个组称为分割
如果为几个分组分别创建预测模型比单独使用一个模型更能减小误差,则应进行分割
分割的根本目的是管理误差
将数据分割为几个分组后,统计结果更敏感, 更能体现各个分区内的情况,从而有助于管理误差
预测与解释的平衡效果
优秀的回归分析兼具解释功能和预测功能
零误差就是没有任何预测能力
分析应该介于具有完全解释功能和具有完全预测功能之间
控制误差
分区模型能更好地处理误差
回归
算法:为了完成某个计算而执行的任何过程
用散点图比较两种变量
直线能为客户指明目标
使用平均值图形预测每个区间的数值
回归线预测
回归线就是准确地贯穿平均值图中的各个点的直线
回归线对于具有线性相关特点的数据很有用
是否线性相关
相关性即两种变量之间的线性关系
如果要呈现线性关系,散点图上的点就需要大致沿着直线分布
相关性可强可弱,可以用相关系数进行量度,相关系数也叫作r
r的范围为-1至1,0表示无相关性,1和-1表示两个变量完全相关
预测方程
利用线性方程对直线进行数学表达
回归方程与散点图密切相关
直方图
直方图体现每组数据的发生频数
直方图不同区间之间的缺口即数据点之间的缺口
启发法
选取一两个变量,然后根据这些变量对整个系统做出结论,这就是在用启发法
启发法是从直觉走向最优化的桥梁
直觉看到的是一个选项,启发法看到的是多个选项
大多数思维活动都是启发式的
启发法定义
心理学定义:用一种更便于理解的属性代替一种难解的、令人困惑的属性
计算机科学定义:一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案
最优化能得出全部可选答案
快省树
描述启发法的图形被称为快省树,快是指完成这个过程费时不多,省是指不需要大量认知资源
固定模式
固定模式必定具有启发性
固定模式行之有效,但大多数情况下,固定模式会导致做出欠缺推理的结论
主观概率
认识主观概率
如果用一个数字形式的概率来表示自己对某事的确认程度,所用的就是主观概率
主观概率是根据规律进行分析的巧妙方法,尤其是在预测孤立事件却缺乏从前在相同条件下发生的事件的可靠数据的情况下
标准偏差
标准偏差量度分析点与平均值的偏差
修正主观概率
贝叶斯规则是修正主观概率的好办法
使用贝叶斯规则求主观概率的根本在于找出在假设成立的条件下,证据出现的概率
贝叶斯统计
条件概率
即以一件事的发生为前提的另一件事的发生概率
基础概率
小心基础概率谬误
简化
用简单的整数思考复杂的概率
搜集到新数据后,用贝叶斯规则处理基础概率
公式
P(L|+)=P(L)P(+|L)/(P(L)P(+|L)+P(~L)P(+|~L))
P(L):基础概率
贝叶斯规则可以反复使用
利用贝叶斯规则可以逐渐增加新信息
新信息会改变基础概率
假设检验
有用的假设
模型(或假设)与证据相符,没有证据证明是否正确
因果关系网
相关变量
变量之间可以正相关,也可以负相关
将正相关和负相关关系绘制到一个网络,该网络就是心智模型
现实世界中的各种原因成网络关系,而非线性关系,线性等于直觉
形成假设
假设几个方案
用某种方法将假设与证据及心智模型综合在一起,从而找出正确答案
用手头的资料进行假设检验
证伪求真
假设检验的核心是证伪
请勿试图选出最合理的假设,只需剔除无法证实的假设
这就是假设检验的基础:证伪
满意法
选出看上去最可信的第一个假设,其余不作处理
证伪法
对所有假设进行透彻分析
进行假设检验时,要使用证伪法,回避满意法
证伪法让人们对各种假设感觉更敏锐,从而防止掉入认知陷阱
证伪法及其它
证伪法可能无法剔除所有假设
权衡各种假设
通过观察诊断性对证据和假设进行比较
只要证据能够帮助你按照强弱程度对假设进行排列,它就具有诊断性
诊断性
诊断性是证据所具有的一种功能,能够帮助你评估所考虑的假设的相对似然,如果证据具有诊断性,就能帮助你对假设排序
借助诊断性找出否定性最小的假设
只要能够帮助你评估各种假设的相对强度,证据和数据就具有诊断性
进行假设检验时,重点是要识别和找出诊断证据,非诊断数据不会给你带来任何进展
剔除非诊断证据
无法一一剔除所有假设,但可以判定哪个假设最强
数据图形化
体现数据
若数据庞杂,记住分析目标,目光停留在和目标有关的数据上,无视其他
让数据变美观不是要解决的问题
明确起步点
妥善比较
数据图形化的根本在于正确比较
明确能够实现目标的基本比较对象
优秀图形特点
展示数据
高明的比较
展示多个变量
散点图
散点图是探索性数据分析的奇妙工具
用散点图发现因果关系(即一个变量影响另一个变量的关系)
通常用散点图的X轴代表自变量(假想为原因的变量),用Y轴代表应变量(假想为结果的变量)
不必论证自变量是影响应变量的原因,因为是在探索数据,而原因正是探索目标
图形多元化
最优秀的图形都是多元图形
能对三个以上变量进行比较的图形就是多元图形
尽量让图形多元化最有可能促成最有效的比较
同时展示多张图形,体现更多变量
优秀的图形设计有助于思考
当你描述你的数据图形时,需要论述可相互换用的两种因果模型或图解
提出假设
确定假设