导图社区 程序员统计思维知识点总结分享
程序员统计思维知识点总结分享:程序员的统计思维:第一个孩子出生晚吗、统计方法、全国家庭成长调查、表和记录。
编辑于2022-11-22 11:38:13 广东程序员统计思维知识点总结分享
程序员的统计思维
引言
学科
概率论
主要研究随机事件
量化可能性
统计学
根据数据样本推测总情况
大部分基于概率
计算
量化分析的工具
本书目的
让程序员通过编程理解概率论和统计学
第一个孩子出生晚吗
经验之谈的问题
观察的数量太少
选择偏差
有此问题的更有兴趣参加讨论
确认偏差
相信的人会提供支持示例,怀疑的人会引用反例
不准确
统计方法
收集数据
描述性统计
计算能总结的统计量
评测各种可视化方法
探索性数据分析
寻找模式、差异等特征
检查不一致性
确认局限性
假设检验
判断是否是随机因素造成的
估计
全国家庭成长调查
研究方法
横断面研究
一群人某个时间点的情况
纵贯研究
一段时间反复观察同一群人
周期
被调查者和队列
过采样
表和记录
记录、字段、表
重编码
显著性
直观效应
问题
如果不一样,其他汇总统计量如何?
有没有可能是一样的,即差异是随机的?
不是统计显著
有没有可能是选择偏差或实验设置的错误导致的?
描述性统计量
均值和平均值
均值
mean
平均值
average
区别
均值是根据上述公式计算出来的一个汇总统计量
平均值是若干种可用于描述样本典型值或集中趋势的汇总统计量之一
方差
方差
离均差
标准差
分布
直方图
频数
数据集中一个值出现的次数
概率
频数/样本数量n
归一化
概率质量函数
PMF
归一化的直方图
直方图的表示
绘制直方图
matplotlib.pyplot
直方图的特征
众数
最频繁值
最适合描述典型值
形状
异常值
远离众数的值
可能
罕见情况
错误
问题
某些明显差异来源于样本数量不同
表示概率质量函数
Pmf和Hist的区别
Hist将值映射到一个整数,而Pmf映射到浮点数
均值
方差
绘制概率质量函数
方法
柱状图
值不多时
折线图
值多且较平滑时
异常值
对一定比例的最高/低值修剪
其他可视化方法
差异
相对风险
区间
条件概率
汇报结果
累计分布函数
选课人数之谜
原因
学生每学期上课门数多于教授授课门数
上小班的学生少,上大班的学生多
过采样
PMF的不足
问题
数据多时,每个值的概率降低,随机噪声影响变大
解决
数据分组
确定分组区间大小需要技巧
累计分布函数
CDF
百分位数
百分等级
原始分数不高于你的人在所有人的比例×100
由百分等级计算值
排序后搜索
效率低
用百分等级计算相应的百分位数索引
CDF
值到其在分布中百分等级的映射
CDF(x):样本中小于等于x的值的比例
CDF的表示
回到调查数据
条件分布
根据某个条件选择的数据子集的分布
随机数
在生成服从给定分布的随机数时,CDF很有用
再抽样
根据已有样本生产随机样本的过程
从总体获得样本的方法
有放回
无放回
汇总统计量小结
中位数
median
百分等级50的值
其他定义
样本元素偶数时,取中间两个的均值
四分差
25和75百分等级通常用来检查分布是否对称
等于75和25百分等级之间的差
连续分布
指数分布
观察一系列事件间的间隔时间,若事件在每个时间点发生的概率相同,则间隔时间的分布近似指数分布
lambda:决定了分布的形状
均值
1/lambda
中位数
log2/lambda
如何确定
画出取对数后的互补累计分布函数CCDF
应该是一条直线
n较小时
经验分布不会很好符合连续分布
评价两者间相似性:从连续分布中生成样本,看与数据的匹配情况
随机数
random.expovariate
指定lambda
帕累托分布
xm:分布的位置(最小值)
alpha:形状
中位数
如何判断
两条数轴都取对数后,其CCDF是直线
随机数
random.paretovariate
只能指定alpha
xm默认为1
Zipf
关于各种单词使用频率差异的观察结论
在一段文本中,单词频数的分布近似于帕累托分布
威布尔分布
广义上的指数分布
random.weibullvariate
正态分布
CDF
没有准确表达
误差函数表示
miu:均值
delta:标准差
Python3.2已实现math.erf函数
正态概率图
秩变换
含义
对n个服从正态分布的值排序
第k个值分布的均值称为第k个秩变换
近似解
方法
从正态分布中生成一个跟数据集大小一样的样本
将数据集中的值排序
画出数据集中排序后的值跟第一步生成的随机值的散点图
对大数据集效果很好
对小数据集,通过生成m(n+1)-1个服从正态分布的值提升效果
n:数据集的大小
m:放大因子
曲度表示数据集跟正态分布的差异
对数正态分布
一组数值做对数变换后服从正态分布
CDF和正态分布一样
logx代替原来的x
均值
标准差
复杂
为什么需要模型
连续分布
抽象
舍弃一些无关紧要的细节
数据压缩
生成随机数
ICDF(逆CDF)
计算
首先,产生0-1间服从均匀分布的值
然后选择x=ICDF(p),求解x
概率
引言
事件
试验
成功,失败
频率论
贝叶斯认识论
事件发生的可信度
概率法则
P(AB)=P(A)P(B)
A、B独立
条件概率
P(A|B)=P(AB)/P(B)
P(AB)=P(A)P(B|A)
P(AB)<=P(A)
蒙提霍尔问题(三门问题)
庞加莱
买面包问题
变异系数
delta/miu
其他概率法则
互斥
P(A|B)=P(B|A)=0
P(A or B) = P(A) + P(B)
P(A or B) = P(A) + P(B) - P(AB)
二项分布
n:试验次数
p:成功概率
k:成功次数
连胜和手感
人们对随机过程的直觉和事实存在差距
聚类错觉
看上去有某种特点的聚类实际是随机的
检查聚类是否有意义
蒙特卡罗模拟
优点
易实现
缺点
对罕见事件模拟需要很长时间
贝叶斯定理
P(A|B)=P(B|A)P(A)/P(B)
通常用于解释某一特定现象的证据E如何影响假设H的概率
P(H|E)=P(H)P(E|H)/P(E)
历时性
P(H):先验概率
P(H|E):后验概率
P(E|H):似然值
P(E):归一化常量
分布的运算
偏度
度量分布函数不对称程度的统计量
对于一个给定的序列xi
m2:均方离差
m3:立方离差
负的偏度向左偏,此时左侧会比右侧延伸的更长
应用不多,容易被异常值干扰
其他方法
比较均值和中位数
均值更易受极端值影响
皮尔逊中值偏度系数
miu:均值
miu1/2:中位数
鲁棒性,对异常值不敏感
随机变量
代表产生随机数的过程
一般用大写字母表示
随机数
概率密度函数PDF
定义
CDF的导数
指数分布
正态分布
例
X落在区间[-0.5, 0.5)的概率
卷积
两个随机变量和的分布是两个概率密度的卷积
正态分布的性质
正态分布对线性变换和卷积运算是封闭的
X'=aX+b
Z=X+Y
中心极限定理
大量服从某种分布的值加起来,所得的和会收敛到正态分布
条件
独立性
同分布
均值和方差有限
收敛速度取决于原来分布的偏度
分布函数之间的关系框架
假设检验
引言
检查差异是偶然还是确实存在的
显著性
该情况在一次试验中不大可能发生
假设检验
原假设
基于一种假设的系统模型
认为观测到的效应是由偶然造成的
p值
原假设下,出现直观效应的概率
解释
基于p值大小,推测观测到的效应是否具有统计显著性
均值差异的检验
重抽样
重新随机抽取足够多次样本,看差值分布
差值大于等于实际上观测差值的即p值
阈值的选择
错误
I类错误
假阳性
II类错误
假阴性
阈值
通常选择5%
即假阳性的精确概率
效应
双边检验
单边检验
p值约双边的一半
解释统计检验结果
古典解释
p值小于阈值,可以说在统计学上显著,但不能得到效应真实存在的结论
实际解释
p值越低,越相信正确性
贝叶斯统计解释
交叉验证
训练集
测试集
报道贝叶斯概率的结果
即使初始指定的概率不同,最终的后验概率会倾向于收敛
似然比
不再关注后验概率
贝叶斯因子
卡方检验
检验的统计量
卡方统计量
Oi:观测到的数值
Ei:期望数值
高效再抽样
功效
统计功效
在原假设为假时,检验的结果为阳性的概率
依赖于
样本数量
效应的大小
设置的阈值
估计
关于估计的游戏
估计
估计量
其他方法
修剪异常值,再用剩下的估计
中位数
均方误差MSE
不存在异常值时,样本均值会最小化MSE
m:游戏次数
缺点
误差的损失函数不是对称的,就不是最优策略了
极大似然估计量MLE
方差估计
样本方差
有偏估计
足够多时是个很好的估计量
少时会低估
无偏估计
误差
无法估计
指数分布
极大似然估计
中位数
置信区间
点估计
用估计量产生一个值来估计参数
置信区间
缺失率alpha来描述置信区间
指数分布
n:样本数量
很难用分析的方法推导,要用模拟的形式估计
贝叶斯估计
可信区间
贝叶斯置信区间
后验概率
贝叶斯估计的实现
删失数据
有些数据被系统性的排除在外了
贝叶斯估计很容易处理删失数据
火车头问题
相关性
标准分数
相关
解决
将所有的值转为标准分数,引出皮尔逊相关系数
将所有的值转为百分等级,引出斯皮尔曼相关系数
标准分数
miu:均值
delta:标准差
Z的形状与X相似
协方差
衡量相关变量变化趋势是否相同
假设有序列X和Y
他们与其均值离差
协方差
n:序列长度(X、Y相同)
简单,但不常用
无法解释
单位没有意义
相关性
皮尔逊相关系数
取值在-1到1之间
1或-1:完全相关
0:不一定毫无关系
只能衡量两个变量间线性关系
对异常值敏感
用PyPlot画散点图
加扰动
引入透明度参数
hexbin
斯皮尔曼秩相关
可以用在存在异常值和变量分布非常不对称的情况
过程
计算序列中数值的秩
秩:某个值在序列中从小到大排序后的位置
计算皮尔逊相关系数
另一种对异常值不敏感的方法
对原始数据做一个变换
使之后的结果接近正态分布
再算皮尔逊相关系数
最小二乘拟合
目的
估计斜率
预测的残差
alpha:截距
beta:斜率
最小化残差
平方和最小
原因
不再有负数
越大的残差相当于权重越大
在残差服从均值0,方差delta2的正态分布,且在残差与x独立假设下
最小二乘估计结果和极大似然估计量相同
最小二乘法估计的计算简单
损失函数
最小二乘拟合
计算两个序列的均值,X的方差,协方差
估计斜率
估计截距
拟合优度
自变量
用于预测的值
因变量
要预测的值
确定系数R2
线性最小二乘
相关性和因果关系
从相关得出因果
利用时间的先后关系
不能排除其他事
利用随机性
随机对照试验
自然试验
回归分析