导图社区 FRM 1级 数量
FRM 1级 数量思维导图:包含概率论,全概率公式,离散概率分布,连续概率分布,:性质、公式、查表混合分布:低频高损事件,一维随机变量等等
编辑于2022-05-05 20:16:21数量
概率论
概率
全概率公式
计算非条件概率
贝叶斯公式
先验概率
后验概率
信息调整因子
越接近0越有用
一维随机变量
分布
离散概率分布
伯努利分布
二项分布
独立重复n次伯努利实验
泊松分布
出现average关键词或者n,p只出现一个
一段时间内事件平均发生次数
连续概率分布
均匀分布
正态分布
X,Y相互独立服从正态分布
对数正态分布
x服从对数正态分布,lnx服从正态分布
lnx服从正态分布,x服从对数正态分布
抽样分布:性质、公式、查表
t分布
肥尾,对称,均值为0
卡方分布
右偏
F分布
右偏
混合分布:低频高损事件
矩
一阶矩
中位数&分位数
inter-quartile range(IQR)=
分位数
步骤
数列从小到大排序
计算每个数之间间隔的百分比,5个数,构成4个间隔,每个间隔25%
无法取到整数的进行线性插值
算数平均
众数
期望
性质
X、Y相互独立
二阶矩
方差
X,Y相互独立
协方差
相关系数(标准化协方差)
线性关系
三阶矩:对称性
偏度-尾巴的方向
左偏,负偏
右偏,正偏
四阶矩:陡峭,尾巴薄厚
峰度
标准正态-峰度=3
尖峰肥尾,矮峰收尾,与正态分布比
矩的性质
峰度不变
BLUE
best estimator should be unbiased and linear
linear:线性计算的估计量
unbiased:样本均值等于总体均值
best:最小方差的线性无偏估计量
二维随机变量-离散
协方差
相关系数
独立同分布 iid
数理统计
评价统计量
无偏:样本均值期望等于总体均值
有效:无偏且线性前提下,方差最小
一致:样本容量越大,样本参数越接近总体参数
定理
大数定律:样本容量增加,样本均值满足一致性
中心极限定理:未知分布转化为近似正态
条件
1、简单随机抽样
2、总体的均值&方差有限
3、样本容量超过30
样本统计量结论
1、服从正态分布
2、均值为μ
3、方差为
也为标准误
置信区间
定义:
示例:
要素
置信水平:1-α
显著性水平:α(显著错误的水平)
对应关系-双尾
90%置信区间 ->置信因子
95%置信区间 ->置信因子
99%置信区间 ->置信因子
假设检验
基本思想:单次抽样,小概率事件不会发生
步骤
1、立假设:原假设,备择假设
备择假设作为挑战者
2、选检验统计量
3、定显著性水平
4、定决策规则
5、计算检验统计量
6、判断:是否拒绝
p值:拒绝原假设最小显著性水平(“接受”的最大错误率)
越小越拒绝
p只与α比
7、决策
错误
第一类错误:拒真:α
多重检验容易发生第一类错误
第二类错误:受伪:β
统计检验力:1-β,拒伪,挑战成功,pk掉原假设,证明出原假设是错的
线性回归
最小二乘法
假设
1、残差期望为0
2、自变量方差严格大于0
同方差假设
3、独立同分布
4、残差的条件方差为常数
5、无极端异常值
高斯-马尔科夫定理
参数为最优线性无偏估计量 BLUE
有效
无偏
线性
回归分析
识别极端值
cook距离
大于1是极端值
挑选合适模型的方法
一般到特殊GtS
大模型删减变量至所有系数显著
1、找出所有相关变量
2、去掉显著性低(贡献)的统计量
3、重复步骤2,直到都显著
m-fold cross-validation
多个模型,数据分为m份,1份验证,其余训练,选残差方差最小模型
二值变量
n个相关二值变量,只需加入n-1变量,否则完全共线性
模型评估
TSS=ESS+RSS
总平方和TSS
total sum of squares
解释平方和ESS
explained sum of squares
残差平方和RSS
residual sum of squares
可决系数
一元
解决多元回归中,增加自变量可决系数不下降,反而增大的问题
可能小于0
回归标准差
anova table
significance F: F统计量查表得到的P-value
联合假设检验:整体检验多个参数
F统计量
模型错误
遗漏变量偏误:有解释变量被放在了残差中
取决于
遗漏变量对因变量的影响
遗漏变量与自变量的相关性
模型简单
bias偏误大
无关变量
标准误增大
variance方差大
违反回归假设
异方差:残差的方差不是常数
发现:残差项图
条件异方差conditional heteroskedasticity
方差和x有关
影响
影响1:回归系数不有效,但无偏、一致
只影响标准误,不影响系数大小
影响2:回归系数方差不准
过小:易拒真
过大:易受伪
检验:white检验
解决方法
异方差稳健标准差:解决影响1
加权最小二乘法WLS:解决影响2
多重共线性
完全共线性:一个自变量能被其他自变量线性组合表示
不完全多重共线性:2个or以上自变量高度相关
影响:方差大,但无偏
检验
t检验时没有一个系数显著不为0(任意单看每一个变量都觉得可有可无),但F显著,R方大
自变量间相关系数大,>0.7
解决
去掉相关性高的
逐步回归分析
时间序列
概述:时间序列→去趋势→去季节性→是否随机游走→差分去随机游走→噪声→判断协方差平稳→判断白噪声→判断使用的模型ACF&PACF
协方差平稳
均值有限且为常数
方差有限且为常数
自协方差只与滞后阶数有关,与时间点无关
对称性
自相关函数 ACF
相关系数
偏相关函数 PACF
自回归后的系数
白噪声
条件
均值为0
方差有限且为常数
序列不相关,自协方差,自相关系数均为0
独立白噪声
高斯白噪声
独立且正态
检验残差是否为白噪声
原假设:时间序列是白噪声
统计量:检验自相关系数
Box-Pierce Q统计量
Ljung-Box Q统计量
比BPQ更优秀
卡方分布
时间序列模型
平稳
移动平均模型 MA(1)
μ长期平均项
Wold定理
任意均值为0且协方差平稳的时间序列都能写成无穷多项白噪声变量的线性组合
定义:时间序列的变动由现在以及过去每期的冲击累积而成
矩
均值 μ
方差
ACF截尾, PACF衰减
MA(q): q+1阶开始截尾
一直平稳,短记忆力
自回归模型AR(1)
定义:t时刻与之前时刻的关系,关系系数φ绝对值小于1时收敛&协方差平稳
矩
均值
方差
ACF衰减,PACF截尾
AR(q): q+1阶开始截尾
含之前项,长记忆力
自回归移动平均模型ARMA
ACF、PACF均衰减
AR部分平稳则整体平稳
季节性因素
商业数据不季度调整,宏观数据季度调整
引入季节性滞后变量
非平稳
趋势性
线性趋势模型
多次趋势模型
对数线性模型
季节性
注意二值变量的多重共线性问题
随机游走
即φ=1的AR模型
检验:单位根
非平稳,滞后算子多项式中有(1-L)的因式
检验:Augmented Dickey-Fuller,ADF检验
原假设:有单位根,非平稳
影响
伪回归
不均值复归
ARMA模型建模,时间序列服从Dickey-Fuller分布
DF分布
非对称
关键值依赖样本容量
关键值需考虑模型中趋势项
收益率、波动率、相关系数
收益率
单利复利转换
金融资产收益率分布检验
Jarque-Bera,JB统计量
检验服从正态分布
原假设:偏度为0,峰度为3
幂律
非正态分布尾部特征
波动性
波动率volatility
单位时间内收益率标准差
方差变化率variance rate
波动率的平方,收益率方差
隐含波动率
BSM模型推导得出
相关性
线性
Pearson相关系数
常规相关系数
非线性
Spearman相关系数
排名的相关系数,对极端值不敏感
Kendal τ 相关系数
协调concordant:排名同向变动
τ衡量协调点与非协调点之间占比差异
(协同组数量-非协同组数量)/总组数
模拟、自举
蒙特卡洛模拟
通过数据生成过程生成数据,可进行情景分析
缺点
准确性依赖假设
耗时耗力
方差减少技术
反向变量法antithetic variables:取一半值,其余取负数
控制变量法:引入相似特征已知变量,估计原有变量
自举法bootstrapping
实际抽样数据最为总体,反复抽样:检测数据挖掘偏差
缺点
样本不能代表总体,存在极端值异常值时模型失效
数据发生结构性变化模型失效
伪随机数生成器PRNGs
去掉前面一些随机数再使用