导图社区 pandas数据分析
正态分布就是指随机变量服从一个位置参数和尺度参数的概率分布,位置参数就是均值,尺度参数就是标准差。
pandans数据预处理:包含去空与去重,填充与替换,DataFrame.fillna(value,method,inplace,limit) ,DataFrame.replace(to_replace,value,inplace):全部替换
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
pandas数据分析
交叉透视
频数交叉表
pd.crosstab(index,columns,margins)
数据透视表
pd.pivot_table(data,index,columns,values,aggfunc,margins)
data表示待分析的DataFrame。
index表示数据透视表的行字段。
columns表示数据透视表的列字段。
values表示数据透视表的统计字段。
aggfunc表示统计指标。如np.sum表示计算总和,np.mean表示计算平均数,使用前需要导入numpy。
margins表示汇总(Total)功能的开关,设为True后结果集中会出现名为“ALL”的行和列。默认为False。
正态性分析
正太分布概念
均值决定了正态曲线中心位置,当均值为正且绝对值越大时,说明曲线整体向右移动的距离就越大;反之,当均值为负且绝对值越大时,曲线整体向左移动的距离就越大。标准差决定了曲线的形状,即标准差决定了曲线的“高矮胖瘦”。
正太分布特点
(1)集中性:正态曲线的高峰位于正中央,即均数所在的位置。
(2)对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
(3)均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
正太分布描述
偏度
用来描述数据分布的对称性,正态分布的偏度为0。计算数据样本的偏度,当偏度<0时,称为负偏,数据出现左侧长尾;当偏度>0时,称为正偏,数据出现右侧长尾;当偏度为0时,表示数据相对均匀的分布在平均值两侧。
skew函数的一般用法为:Series.skew()
峰度
又称峰态系数,用来描述总体中所有取值分布形态陡缓程度的统计量,反映了峰部的尖度。当峰度系数大于0时,说明两侧极端数据较少,分布曲线更高更瘦,为尖顶曲线;当峰度系数小于0时,说明表示两侧极端数据较多,分布曲线更矮更胖,为平顶曲线。
kurt函数的一般用法为:Series.kurt()
正太分布验证
通过直方图进行正态性检验
import matplotlib.pyplot as plt表示导入matplotlib库种模块pyplot。
bins=num表示设置直方图的柱形的数量。
plt.show()表示显示绘图结果。
通过正态性检验指标进行正态性检验
kstest函数的一般用法为: from scipy.stats import kstest kstest(rvs,cdf)
分组与分段
数据分组
按某列对DataFrame进行分组
DataFrame.groupby(by=分组列)
分组统计
DataFrame.groupby(by=分组列)[统计列].统计方法
数据分段
分段统计分析
pandas.cut(x,bins,labels)
统计与描述
数值连续型数据
统计指标
DataFrame[column].统计指标
describe函数
describe()[i](i=0,1,2,…)
字符分类型数据
value_counts函数
value_counts(normalize,ascending)
count 表示非空数目。
unique 表示数据的种类。
top 表示出现最多的类型。
freq 表示出现最多的类型的数目。
排序与排名
数据排序
按索引排序
sort_index(ascending,inplace)
按列值排序
sort_values(by,ascending,inplace)
数据排名
rank(method, ascending)