数据分布:描述数据在各个区间的分布情况,如正态分布、偏态分布等。
正态分布:数据分布呈现钟形曲线,大部分数据集中在平均值附近,两端逐渐减少。
偏态分布:数据分布不对称,大部分数据集中在一侧,另一侧较少。
中心趋势:描述数据分布的中心位置,如平均数、中位数、众数等。
中位数:将所有数据从小到大排列,位于中间的数值,不受极端值影响。
众数:出现次数最多的数值,可用于描述定性数据的分布。
离散程度:描述数据分布的离散程度,如方差、标准差、四分位数等。
方差:衡量数据与平均值的离散程度,数值越大,离散程度越大。
标准差:方差的平方根,便于比较不同数据集的离散程度。
四分位数:将数据从小到大排列,分为四等份,用于描述数据的分布范围。
异常值:描述数据中与整体分布差异较大的数值,如通过Zscore或IQR方法识别。
Zscore:通过计算数据与平均值的偏离程度来识别异常值。