导图社区 Pandas
这是一个Pandas的思维导图,主要从定义、数据结构、数据访问、文件读写、数据清洗、数据处理、数据可视化等方面来展开论述。
numpy是python的一种开源数值计算扩展,这个工具可用来存储和处理大型矩阵,比python自身的嵌套列表结构要高效很多,支持大量的维度数组与矩阵运算,此外也针对数组提供了大量的数学函数库。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
pandas
定义
结构化数据工具集
数据挖掘工具
数据分析工具
数据清洗工具
数据结构
Series
带标签的一维同构数组
生成对象
输入列表,自动生成索引:pd.Series(list)
插入字典,键初始化为索引:pd.Series(dict)
DataFrame
带标签、大小可变的,二维异构表格
输入列表,自动生成索引:pd.DataFrame(list)
插入嵌套列表,生成多列数据:pd.DataFrame([[ ]])
插入字典,键初始化为列索引:pd.DataFrame(dict)
数据访问
访问头部数据:df.head( )
访问尾部数据:df.tail( )
访问摘要数据:df.describe( )
访问索引
行索引:df.index( )
列索引:df.columns( )
访问数值
数值访问函数:df.values( )
按标签访问:df.loc[ ]
按位置访问:df.iloc[ ]
布尔索引:df[条件]
条件访问:df[df[index or columns] isin [ ]]
文件读写
.csv文件
读:pd.read_csv(filename,encoding='GB18030')
写:pd.to_csv(filename,decoding='GB18030')
.xlsx文件
读:pd.read_xlsx(filename)
写:pd.to_xlsx(filename)
.hdf文件
写:hdf(filename)
数据清洗
缺失值删除:df.dropna( )
缺失值填充:df.fillna( )
数据处理
数据拼接
pd.concat([ ])
pd.merge( )
pd.join( )
数据重排
df.sort_index( )
df.sort_values(by=index or columns)
数据分析
numpy包
df.groupby([ ]).function( )
df,apply(function)
数据可视化
折线图:pd.plot( )
直方图:pd.plot.hist( )
散点图:pd.plot.scatter( )