导图社区 现代基础统计学
"统计学是数据科学的语言!这本《现代基础统计学》从抽样调查到时间序列分析,系统构建统计思维框架核心内容涵盖概率论、重要分布、假设检验(t检验/ANOVA)、回归分析(线性/非线性)和非参数方法。
编辑于2025-09-30 21:41:30现代基础统计学
第0章 统计学基础
0.1 定义与本质
收集:调查、试验、观测、互联网、物联网
描述:图表+数值特征
推断:样本→总体(参数估计+假设检验)
建模:回归+时间序列
本质:科学+艺术+哲学(随机性度量)
0.2 基本概念
总体:所有研究对象(N 有限/无限)
样本:总体子集(n 样本量)
抽样单元:构成样本的个体
变量类型
属性变量(定性)
名义:无顺序(性别、颜色)
顺序:有顺序(评价、等级)
数值变量(定量)
离散:可数(家庭孩子数)
连续:不可数(身高、温度)
参数 vs 统计量
参数:总体数值(μ, σ²)
统计量:样本数值(x̄, s²)
0.3 基础内容框架
数据收集与描述(Ch1-3)
统计推断(Ch4-7)
统计建模(Ch8-11)
第1章 抽样调查
1.1 核心定义
总体、个体、样本、样本量 n
有限总体 vs 无限总体
抽样框:完整列表(员工名册、学号)
1.2 调查方式对比
| 方式 | 成本 | 回收率 | 质量 | 适用场景 | |----|----|----|----|----| | 面对面 | 高 | 高 | 高 | 政府入户 | | 电话 | 中 | 中 | 中 | 商业回访 | | 邮寄 | 低 | 低 | 低 | 早期问卷 | | 网络 | 极低 | 低 | 低 | 热点投票 |
1.3 概率抽样(随机=可估计误差)
简单随机抽样
抽签、随机数表、Excel =RAND()
例题:88 名学生抽 10 人(RAND 示例)
有放回 vs 无放回
系统抽样(等距)
步骤:排序→k=N/n→随机起点→每隔 k 抽 1
例题:商场 3000 顾客抽 300,k=10
分层抽样
步骤:分层→按比例→层内随机
例题:UIC 新生 1000 人按英语成绩分 4 层抽 100
整群抽样
步骤:分群→随机选群→群内全调查
例题:徐汇区 13 街道抽 2 街道
1.4 非概率抽样(快速但不可估误差)
方便、配额、判断、滚雪球、志愿者
1.5 误差来源
抽样误差:随机性,可计算
非抽样误差:设计/测量/录入/无回答
第2章 数据图形描述
2.1 属性变量图表
条形图
纵轴:频数/百分比/均值
例题:上网程度四分类人数
帕累托图
降序条形+累积折线
二八法则:80%问题来自20%原因
例题:软件失败因素
饼图
扇形角度=百分比
限制:类别≤6,否则难比较
2.2 数值变量图表
茎叶图
保留原始值,适合 n≤100
例题:56 人年龄茎叶图
直方图
面积=频数;分组五步法
例题:年龄直方图→右偏
与条形图区别:连续、面积、无间隙
2.3 二维数据
散点图:两数值变量
例题:女性期望寿命 vs GDP
列联表:两属性变量
分层直方图:属性+数值
2.4 时间序列图
横轴时间,纵轴指标
成分:趋势+季节+周期+随机
例题:苏宁 vs 中金黄金 2009 股价
2.5 空间数据
地图色块/图标
例题:淘宝 2011 网购地图
第3章 数值特征
3.1 中心趋势
均值
公式:x̄=Σxi/n
缺点:受极端值影响
例题:香港收入被富豪拉高
中位数
步骤:排序→取中间
例题:9 人通勤时间→M=95
众数
出现次数最多;可多个
截尾平均
去 α% 极端值后再平均
例题:比赛评分去头尾
3.2 离散程度
极差:R=max-min
方差:σ²=Σ(xi-μ)²/N;s²=Σ(xi-x̄)²/(n-1)
标准差:σ, s
变异系数:CV=s/x̄(单位less)
例题:苏宁 vs 中金黄金股价波动
3.3 百分位数与箱线图
Q1=25%, Q2=50%, Q3=75%
IQR=Q3-Q1
箱线图五数:Min-Q1-Q2-Q3-Max
离群值:<Q1-1.5IQR 或 >Q3+1.5IQR
例题:29 学生成绩箱线图
3.4 加权平均
公式:x̄w=Σwi xi, Σwi=1
应用:课程总评、物价指数、人均 GDP
第4章 概率论
4.1 概率定义
古典:等可能
经验:频率
主观:信念
4.2 事件运算
交∩、并∪、补¬、独立、互斥
加法:P(A∪B)=P(A)+P(B)-P(A∩B)
例题:法国酒或葡萄酒概率
4.3 条件概率
P(A|B)=P(A∩B)/P(B)
独立⇔P(A∩B)=P(A)P(B)
全概率+贝叶斯(因果倒置)
例题:肝癌检测阳性→真患癌概率
4.4 随机变量
离散:概率表、均值μ=Σxi pi, 方差σ²=Σ(xi-μ)²pi
连续:概率密度 f(x), 面积=概率
4.5 随机模拟
蒙特卡洛:随机数→统计量→结论
例题:生日悖论 n=23, P>0.5
第5章 重要分布
5.1 二项分布 B(n,p)
条件:①固定n ②独立 ③两结果 ④成功概率p不变
公式:P(X=k)=C(n,k) p^k (1-p)^(n-k)
均值=np;方差=np(1-p)
例题:章鱼保罗 14 次猜中 13 概率
5.2 几何分布 G(p)
首次成功所需试验数
P(X=k)=(1-p)^(k-1) p;均值=1/p
5.3 泊松分布 P(λ)
单位时间/空间事件数
P(X=k)=e^-λ λ^k /k!;均值=方差=λ
例题:高速公路 1 km 事故数
5.4 正态分布 N(μ,σ²)
密度:f(x)=1/(√(2π)σ) e^(-(x-μ)²/(2σ²))
标准正态:Z=(X-μ)/σ
经验法则:μ±σ:68.3%, ±2σ:95.4%, ±3σ:99.7%
例题:开机时间击败 94%→x=43 s
5.5 抽样分布
χ²(k):独立 Z² 和
t(k):Z/√(χ²/k)
F(m,n):(χ²₁/m)/(χ²₂/n)
第6章 样本推断
6.1 推断框架
点估计、区间估计、假设检验
6.2 中心极限定理
n≥30,x̄≈N(μ,σ²/n)
模拟:右偏总体→n↑→x̄趋正态
6.3 均值区间估计
σ已知
CI:x̄ ± zα/2·σ/√n
σ未知
CI:x̄ ± tα/2(n-1)·s/√n
SPSS:分析→描述→探索→均值置信区间
6.4 比例区间估计
p̂=x̄(0-1)
CI:p̂ ± zα/2√[p̂(1-p̂)/n]
例题:iPhone 购买意愿 32%
6.5 样本量
均值:n=(zα/2 σ/E)²
比例:n=zα/2² p(1-p)/E²
预调查→s→迭代
第7章 假设检验
7.1 基本步骤
假设:H0 vs Ha
统计量:Z or t
拒绝域 or p 值
结论:拒绝/不拒绝 H0
7.2 关键概念
α:I 类错误(真拒)
β:II 类错误(假接)
p 值:当前最小 α
单侧 vs 双侧
7.3 t 检验(σ未知)
t=(x̄-μ0)/(s/√n) ~ t(n-1)
SPSS:分析→比较均值→单样本 t
7.4 两总体均值比较
σ已知:Z 检验
σ未知:
F 检验方差齐性→若齐:合并方差 t 检验;若不齐:Welch t
SPSS:分析→比较均值→独立样本 t
配对样本
差值 d→单样本 t
SPSS:分析→比较均值→配对样本 t
7.5 比例比较
大样本 Z 检验
SPSS:分析→描述→交叉表→卡方
7.6 方差分析 ANOVA
单因素:F=MSB/MSW
多重比较:LSD/Tukey
SPSS:分析→比较均值→单因素 ANOVA
第8章 回归分析
8.1 线性相关
皮尔逊 r=Σ(xi-x̄)(yi-ȳ)/√[Σ(xi-x̄)²Σ(yi-ȳ)²]
-1≤r≤1
8.2 一元线性回归
模型
Y=β0+β1X+ε
最小二乘
min Σ(yi-ŷi)²
β1=Σ(xi-x̄)(yi-ȳ)/Σ(xi-x̄)²; β0=ȳ-β1x̄
评价
R²=SSR/SST
F 检验:整体显著
t 检验:β1≠0
诊断
残差图:线性/等方差/正态/异常值
SPSS:分析→回归→线性→图→残差
8.3 多元线性回归
模型:Y=β0+β1X1+…+βpXp+ε
变量选择:前进、后退、逐步
多重共线性:VIF>10 需处理
SPSS:分析→回归→线性→方法→逐步
8.4 非线性回归
可线性化:倒数、对数、多项式
非线性最小二乘:迭代(Levenberg-Marquardt)
第9章 属性数据检验
9.1 拟合优度
H0:分布=指定分布
χ²=Σ(O-E)²/E ~ χ²(k-1)
SPSS:分析→非参数→卡方
9.2 列联表独立性
H0:两变量独立
χ²=Σ(O-E)²/E ~ χ²((r-1)(c-1))
期望频数 E=(行合计×列合计)/总合计
SPSS:分析→描述→交叉表→统计→卡方
条件:期望频数≥5(否则 Fisher 精确)
第10章 非参数检验
10.1 符号检验
中位数 vs 假设值
正负号个数~B(n,0.5)
10.2 Wilcoxon 符号秩
配对差→绝对值→秩→正负秩和
10.3 秩和检验(Mann-Whitney)
两独立样本混合排秩→秩和
10.4 Kruskal-Wallis
多独立样本秩→H 统计量~χ²(k-1)
10.5 Spearman 等级相关
rs=1-6Σd²/(n(n²-1))
适用:顺序数据/离群值
第11章 时间序列分析
11.1 成分分解
趋势 T、季节 S、周期 C、随机 I
加法 Y=T+S+C+I;乘法 Y=T×S×C×I
11.2 平滑法
移动平均:k 期平均
加权移动平均:线性/指数权
指数平滑:ŷt+1=αyt+(1-α)ŷt
Excel:数据分析→指数平滑
11.3 趋势预测
线性趋势:回归对时间 t
多项式趋势:二次/三次
11.4 分解预测步骤
计算季节指数(同期平均法)
去季节:Y/S
拟合趋势:回归
预测:趋势×季节
Excel:数据分析→移动平均/回归
附录
A 分布表
正态、χ²、t、F、Wilcoxon 临界值
B SPSS 操作速查
探索:直方图、箱线图、Q-Q 图
交叉表:卡方
比较均值:t、ANOVA
回归:线性、逐步
非参数:符号、秩和、K-W
C Excel 函数
二项:BINOMDIST(k,n,p,累积)
正态:NORMDIST(x,μ,σ,累积);NORMINV(概率,μ,σ)
t:TINV(双尾概率,df)
χ²:CHIINV(右尾概率,df)
F:FINV(右尾概率,df1,df2)