导图社区程序员统计思维知识点总结分享

程序员统计思维知识点总结分享

程序员统计思维知识点总结分享：程序员的统计思维：第一个孩子出生晚吗、统计方法、全国家庭成长调查、表和记录。

编辑于2022-11-22 11:38:13 广东

统计思维

凝

他的近期作品查看更多>>

程序员统计思维知识点总结分享

社区模板帮助中心，点此进入>>

凝

他的近期作品查看更多>>

相似推荐
大纲

互联网9大思维
- 38.2k
- 971
- 2.4k
- 402
- 0
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 17.3k
- 3
- 186
- 9
- 1
Kacyun
域控上线
- 3.5k
- 169
- 11
- 4
- 0
jackrao
python思维导图
- 8.2k
- 551
- 242
- 7
- 0
(*^▽^*)
css
- 3.0k
- 1
- 43
- 3
- 0
A张舫
CSS
- 5.3k
- 271
- 189
- 33
- 0
journey
计算机操作系统思维导图
- 6.8k
- 353
- 208
- 16
- 0
journey
计算机组成原理
- 3.3k
- 98
- 70
- 8
- 0
journey
IMX6UL(A7)
- 2.0k
- 41
- 5
- 0
- 0
Handler XU
考试学情分析系统
- 2.7k
- 51
- 10
- 1
- 0
蒋龙

程序员统计思维知识点总结分享

程序员的统计思维

引言

学科

概率论

主要研究随机事件

量化可能性

统计学

根据数据样本推测总情况

大部分基于概率

计算

量化分析的工具

本书目的

让程序员通过编程理解概率论和统计学

第一个孩子出生晚吗

经验之谈的问题

观察的数量太少

选择偏差

有此问题的更有兴趣参加讨论

确认偏差

相信的人会提供支持示例，怀疑的人会引用反例

不准确

统计方法

收集数据

描述性统计

计算能总结的统计量

评测各种可视化方法

探索性数据分析

寻找模式、差异等特征

检查不一致性

确认局限性

假设检验

判断是否是随机因素造成的

估计

全国家庭成长调查

研究方法

横断面研究

一群人某个时间点的情况

纵贯研究

一段时间反复观察同一群人

周期

被调查者和队列

过采样

表和记录

记录、字段、表

重编码

显著性

直观效应

问题

如果不一样，其他汇总统计量如何？

有没有可能是一样的，即差异是随机的？

不是统计显著

有没有可能是选择偏差或实验设置的错误导致的？

描述性统计量

均值和平均值

均值

mean

平均值

average

区别

均值是根据上述公式计算出来的一个汇总统计量

平均值是若干种可用于描述样本典型值或集中趋势的汇总统计量之一

方差

离均差

标准差

分布

直方图

频数

数据集中一个值出现的次数

概率

频数/样本数量n

归一化

概率质量函数

PMF

归一化的直方图

直方图的表示

绘制直方图

matplotlib.pyplot

直方图的特征

众数

最频繁值

最适合描述典型值

形状

异常值

远离众数的值

可能

罕见情况

错误

问题

某些明显差异来源于样本数量不同

表示概率质量函数

Pmf和Hist的区别

Hist将值映射到一个整数，而Pmf映射到浮点数

均值

方差

绘制概率质量函数

方法

柱状图

值不多时

折线图

值多且较平滑时

异常值

对一定比例的最高/低值修剪

其他可视化方法

差异

相对风险

区间

条件概率

汇报结果

累计分布函数

选课人数之谜

原因

学生每学期上课门数多于教授授课门数

上小班的学生少，上大班的学生多

过采样

PMF的不足

问题

数据多时，每个值的概率降低，随机噪声影响变大

解决

数据分组

确定分组区间大小需要技巧

累计分布函数

CDF

百分位数

百分等级

原始分数不高于你的人在所有人的比例×100

由百分等级计算值

排序后搜索

效率低

用百分等级计算相应的百分位数索引

CDF

值到其在分布中百分等级的映射

CDF(x)：样本中小于等于x的值的比例

CDF的表示

回到调查数据

条件分布

根据某个条件选择的数据子集的分布

随机数

在生成服从给定分布的随机数时，CDF很有用

再抽样

根据已有样本生产随机样本的过程

从总体获得样本的方法

有放回

无放回

汇总统计量小结

中位数

median

百分等级50的值

其他定义

样本元素偶数时，取中间两个的均值

四分差

25和75百分等级通常用来检查分布是否对称

等于75和25百分等级之间的差

连续分布

指数分布

观察一系列事件间的间隔时间，若事件在每个时间点发生的概率相同，则间隔时间的分布近似指数分布

lambda：决定了分布的形状

均值

1/lambda

中位数

log2/lambda

如何确定

画出取对数后的互补累计分布函数CCDF

应该是一条直线

n较小时

经验分布不会很好符合连续分布

评价两者间相似性：从连续分布中生成样本，看与数据的匹配情况

随机数

random.expovariate

指定lambda

帕累托分布

xm：分布的位置（最小值）

alpha：形状

中位数

如何判断

两条数轴都取对数后，其CCDF是直线

随机数

random.paretovariate

只能指定alpha

xm默认为1

Zipf

关于各种单词使用频率差异的观察结论

在一段文本中，单词频数的分布近似于帕累托分布

威布尔分布

广义上的指数分布

random.weibullvariate

正态分布

CDF

没有准确表达

误差函数表示

miu：均值

delta：标准差

Python3.2已实现math.erf函数

正态概率图

秩变换

含义

对n个服从正态分布的值排序

第k个值分布的均值称为第k个秩变换

近似解

方法

从正态分布中生成一个跟数据集大小一样的样本

将数据集中的值排序

画出数据集中排序后的值跟第一步生成的随机值的散点图

对大数据集效果很好

对小数据集，通过生成m(n+1)-1个服从正态分布的值提升效果

n：数据集的大小

m：放大因子

曲度表示数据集跟正态分布的差异

对数正态分布

一组数值做对数变换后服从正态分布

CDF和正态分布一样

logx代替原来的x

均值

标准差

复杂

为什么需要模型

连续分布

抽象

舍弃一些无关紧要的细节

数据压缩

生成随机数

ICDF（逆CDF）

计算

首先，产生0-1间服从均匀分布的值

然后选择x=ICDF(p)，求解x

概率

引言

事件

试验

成功，失败

频率论

贝叶斯认识论

事件发生的可信度

概率法则

P(AB)=P(A)P(B)

A、B独立

条件概率

P(A|B)=P(AB)/P(B)

P(AB)=P(A)P(B|A)

P(AB)<=P(A)

蒙提霍尔问题（三门问题）

庞加莱

买面包问题

变异系数

delta/miu

其他概率法则

互斥

P(A|B)=P(B|A)=0

P(A or B) = P(A) + P(B)

P(A or B) = P(A) + P(B) - P(AB)

二项分布

n：试验次数

p：成功概率

k：成功次数

连胜和手感

人们对随机过程的直觉和事实存在差距

聚类错觉

看上去有某种特点的聚类实际是随机的

检查聚类是否有意义

蒙特卡罗模拟

优点

易实现

缺点

对罕见事件模拟需要很长时间

贝叶斯定理

P(A|B)=P(B|A)P(A)/P(B)

通常用于解释某一特定现象的证据E如何影响假设H的概率

P(H|E)=P(H)P(E|H)/P(E)

历时性

P(H)：先验概率

P(H|E)：后验概率

P(E|H)：似然值

P(E)：归一化常量

分布的运算

偏度

度量分布函数不对称程度的统计量

对于一个给定的序列xi

m2：均方离差

m3：立方离差

负的偏度向左偏，此时左侧会比右侧延伸的更长

应用不多，容易被异常值干扰

其他方法

比较均值和中位数

均值更易受极端值影响

皮尔逊中值偏度系数

miu：均值

miu1/2：中位数

鲁棒性，对异常值不敏感

随机变量

代表产生随机数的过程

一般用大写字母表示

随机数

概率密度函数PDF

定义

CDF的导数

指数分布

正态分布

例

X落在区间[-0.5, 0.5)的概率

卷积

两个随机变量和的分布是两个概率密度的卷积

正态分布的性质

正态分布对线性变换和卷积运算是封闭的

X'=aX+b

Z=X+Y

中心极限定理

大量服从某种分布的值加起来，所得的和会收敛到正态分布

条件

独立性

同分布

均值和方差有限

收敛速度取决于原来分布的偏度

分布函数之间的关系框架

假设检验

引言

检查差异是偶然还是确实存在的

显著性

该情况在一次试验中不大可能发生

假设检验

原假设

基于一种假设的系统模型

认为观测到的效应是由偶然造成的

p值

原假设下，出现直观效应的概率

解释

基于p值大小，推测观测到的效应是否具有统计显著性

均值差异的检验

重抽样

重新随机抽取足够多次样本，看差值分布

差值大于等于实际上观测差值的即p值

阈值的选择

错误

I类错误

假阳性

II类错误

假阴性

阈值

通常选择5%

即假阳性的精确概率

效应

双边检验

单边检验

p值约双边的一半

解释统计检验结果

古典解释

p值小于阈值，可以说在统计学上显著，但不能得到效应真实存在的结论

实际解释

p值越低，越相信正确性

贝叶斯统计解释

交叉验证

训练集

测试集

报道贝叶斯概率的结果

即使初始指定的概率不同，最终的后验概率会倾向于收敛

似然比

不再关注后验概率

贝叶斯因子

卡方检验

检验的统计量

卡方统计量

Oi：观测到的数值

Ei：期望数值

高效再抽样

功效

统计功效

在原假设为假时，检验的结果为阳性的概率

依赖于

样本数量

效应的大小

设置的阈值

估计

关于估计的游戏

估计

估计量

其他方法

修剪异常值，再用剩下的估计

中位数

均方误差MSE

不存在异常值时，样本均值会最小化MSE

m：游戏次数

缺点

误差的损失函数不是对称的，就不是最优策略了

极大似然估计量MLE

方差估计

样本方差

有偏估计

足够多时是个很好的估计量

少时会低估

无偏估计

误差

无法估计

指数分布

极大似然估计

中位数

置信区间

点估计

用估计量产生一个值来估计参数

置信区间

缺失率alpha来描述置信区间

指数分布

n：样本数量

很难用分析的方法推导，要用模拟的形式估计

贝叶斯估计

可信区间

贝叶斯置信区间

后验概率

贝叶斯估计的实现

删失数据

有些数据被系统性的排除在外了

贝叶斯估计很容易处理删失数据

火车头问题