导图社区 Android-Pandas使用方法
Pandas库提供高性能易用数据类型和分析工具,建立数据与索引之间的关系,通过索引操作数据。本导图介绍了Pandas库的Series和DataFrame类型,以及常用的数据统计分析函数。
编辑于2021-09-10 16:16:10本导图为作者备考中级经济师(人力资源)过程中形成的学习笔记,已取得人力资源管理师证。中级经济专业技术资格考试设《经济基础知识》和《专业知识和实务》两个科目,题型均为客观题。《专业知识和实务》为专业科目,分为工商管理、农业经济、财政税收、金融、保险、运输经济、人力资源管理、旅游经济、建筑与房地产经济、知识产权10个专业类别;《经济基础知识》为公共科目,由经济学基础、财政、货币与金融、法律、会计、统计六个部分组成。
本导图为中级经济师考试科目《经济基础知识》的统计部分,主要包括统计与数据科学、描述统计、抽样统计、回归分析、时间序列分析。
本导图为中级经济师考试科目《经济基础知识》的货币与金融部分,主要包括货币供求与货币均衡、中央银行与货币政策、商业银行与金融市场、金融风险与金融监管、对外金融关系与政策。
社区模板帮助中心,点此进入>>
本导图为作者备考中级经济师(人力资源)过程中形成的学习笔记,已取得人力资源管理师证。中级经济专业技术资格考试设《经济基础知识》和《专业知识和实务》两个科目,题型均为客观题。《专业知识和实务》为专业科目,分为工商管理、农业经济、财政税收、金融、保险、运输经济、人力资源管理、旅游经济、建筑与房地产经济、知识产权10个专业类别;《经济基础知识》为公共科目,由经济学基础、财政、货币与金融、法律、会计、统计六个部分组成。
本导图为中级经济师考试科目《经济基础知识》的统计部分,主要包括统计与数据科学、描述统计、抽样统计、回归分析、时间序列分析。
本导图为中级经济师考试科目《经济基础知识》的货币与金融部分,主要包括货币供求与货币均衡、中央银行与货币政策、商业银行与金融市场、金融风险与金融监管、对外金融关系与政策。
Pandas
Pandas库提供高性能易用数据类型和分析工具,建立数据与索引之间的关系,通过索引操作数据。本导图介绍了Pandas库的Series和DataFrame类型,以及常用的数据统计分析函数。
Pandas库入门
提供高性能易用数据类型和分析工具 建立数据与索引之间的关系,通过索引操作数据
Pandas库的介绍
Pandas库的引用
import pandas as pd
Pandas库小测
Pandas库的理解
1、基于Series,DataFrame两个数据类型的各类操作 2、Numpy VS Pandas
Pandas库的Series类型
Series类型
索引+数据 一维带标签数组
Series类型创建
pd.Series(values,index)
标量值创建
索引不可省略
列表类型创建
索引可省略
字典类型创建
索引和值一一对应,可以通过更改索引的顺序更改生成的series
数组类型创建
索引可省略
Series类型的操作
索引
1、自定义和自动两套索引并存 2、可同时进行多个索引
切片
切片操作与数组相似
in操作
存在指定索引返回True,否则返回False 只能判断自定义索引,不能判断自动索引
.get()用法
存在指定索引,返回对应值,否则返回设定参数
对齐操作
Series类型在运算中会自动对齐不同索引的数据 两个Series中的不同索引返回空值,相同索引把对应值进行加法运算
.name属性
Series类型的对象和索引都可以命名
修改
Pandas库的DataFrame类型
DataFrame类型
表格型的数据类型,常用于表达二维数据,也可以表达多维数据 二维带标签数组
DataFrame类型的创建
二维数组创建
行索引和列索引自动创建
一维数组+字典创建
列表+字典创建
DataFrame操作
Pandas库的数据类型操作
.reindex()
index:行索引 columns:列索引 fill_value:新索引填充值
重排索引
改变索引
.drop()
删除Series指定索引对象
删除DataFrame指定索引对象
d.drop('c4'):删除行的时候直接输入行号 d.drop('同比',axis=1):删除'同比'这一列
Pandas库的数据类型运算
算术运算
直接进行运算和使用运算方法的不同在于,运算方法可以选择参数 .add():加 .sub():减 .mul():乘 .div():除
相同纬度
b.add(a,fill_value=100)与a.add(b,fill_value=100)结果相同
不同维度
不同维度之间为广播运算 Series与标值的运算为每一项均进行运算 DataFram与Series的运算默认在轴1参与运算,即每一行依次参与运算 使用运算方法可以令一维Series参与轴0运算,即每一列依次参与运算
比较运算
比较运算不进行补齐
相同维度
不同维度
Pandas数据特征分析
数据的排序
.sort_index()
索引排序 默认0轴,升序排列
.sort_values()
数值排序 默认0轴,升序排列
数据的基本统计分析
.sum()
计算数据总和,默认按0轴计算
.count()
非NaN值得数量,默认按0轴计算
.mean()
平均值,默认0轴
.median()
中位数,默认0轴
.var()
方差,默认0轴
.std()
标准差,默认0轴
.min()
最小值,默认0轴
.max()
最大值,默认0轴
.describe()
针对0轴的统计汇总
适用于Series和DataFrame
.argmin()
计算数据最小值、最大值所在位置的索引 .argmin()、.argmax():返回自动索引 .idxmin()、.argmax():返回自定义索引
.argmax()
.idxmin()
.idxmax()
仅适用于Series
数据的累计统计分析
累计计算
.cumsum()
依次给出前n个数的和,默认0轴,即竖着进行 即,第二行的元素等于原数组第一行+第二行 第三行的元素等于原数组第一行+第二行+第三行
.cumprod()
依次给出前n个数的积,默认0轴
.cummax()
依次给出前n个数的最大值、最小值,默认0轴
.cummin()
滚动计算
.rolling().sum()
依次计算相邻多个元素的和,默认0轴
.rolling().mean()
依次计算多个相邻元素的平均值,默认0轴
.rolling().var()
依次计算多个相邻元素的方差,默认0轴
.rolling().std()
依次计算多个相邻元素的标准差,默认0轴
.rolling().min()
依次计算多个相邻元素的最小值,默认0轴
.rolling().max()
依次计算多个相邻元素的最大值,默认0轴
数据的相关分析
协方差
>0:正相关 <0:负相关 =0:独立无关
相关系数
0.8~1.0:极强相关 0.6~0.8:强相关 0.:4~0.6:中等程度相关 0.2~0.4:弱相关 0.0~0.2:极弱相关或无关
.cov()
协方差
.corr()
相关系数