导图社区 pandas 数据结构

pandas 数据结构

Pandas是基于NumPy创建的库，简单介绍了pandas的数据结构（DataFrame、Series）及相互关系

编辑于2022-06-06 00:06:13

pandas

咖啡喵

他的近期作品集查看更多>>

Python - 数据类型基础进阶（合集）含6个作品
Python数据类型，从整体来看，以数字、文本为基础，用列表、字典、元组、集合作为容器；以性质划分，又分为可变与不可变数据。本作品集，即是对这六类数据的深入剖析，从数据创建到数据引用再对数据处理，形成一个完整的讲解逻辑。并且针对不同的数据类型，会以不同的侧重点来展开讲解。比如数字，会着重的去讲运算，并延伸到小数、分数的运算；字符串，有很多丰富的方法，并且有很灵活的格式化输出；列表，在函数与方法的应用上都会涉及；字典，侧重方法…… 希望本作品集对您深入Python学习能有所帮助！

他的近期作品查看更多>>

pandas 数据结构

社区模板帮助中心，点此进入>>

咖啡喵

他的近期作品集查看更多>>

Python - 数据类型基础进阶（合集）含6个作品
Python数据类型，从整体来看，以数字、文本为基础，用列表、字典、元组、集合作为容器；以性质划分，又分为可变与不可变数据。本作品集，即是对这六类数据的深入剖析，从数据创建到数据引用再对数据处理，形成一个完整的讲解逻辑。并且针对不同的数据类型，会以不同的侧重点来展开讲解。比如数字，会着重的去讲运算，并延伸到小数、分数的运算；字符串，有很多丰富的方法，并且有很灵活的格式化输出；列表，在函数与方法的应用上都会涉及；字典，侧重方法…… 希望本作品集对您深入Python学习能有所帮助！

他的近期作品查看更多>>

相似推荐
大纲

论语孔子简单思维导图
- 91.4k
- 957
- 1.1k
- 492
- 1
MindMaster
《傅雷家书》思维导图
- 136.5k
- 1.7k
- 2.7k
- 1.3k
- 0
MindMaster
《童年》读书笔记
- 47.0k
- 490
- 988
- 337
- 0
MindMaster
《茶馆》思维导图
- 14.1k
- 176
- 181
- 40
- 0
MindMaster
《朝花夕拾》篇目思维导图
- 27.1k
- 534
- 1.2k
- 300
- 0
MindMaster
《昆虫记》思维导图
- 36.2k
- 272
- 779
- 279
- 0
MindMaster
《安徒生童话》思维导图
- 20.4k
- 278
- 264
- 66
- 0
MindMaster
《鲁滨逊漂流记》读书笔记
- 23.1k
- 311
- 551
- 166
- 0
MindMaster
《这样读书就够了》读书笔记
- 100.2k
- 12.9k
- 9.0k
- 2.2k
- 0
Ethan
妈妈必读：一张0-1岁孩子认知发展的精确时间表
- 11.7k
- 1.8k
- 413
- 38
- 0
Ethan

Pandas 数据结构

DataFrame是Series的容器

Series：带标签的，一维数组 DataFrame：带标签的，大小可变的，二维异构表格

Series

1. Series创建方式

1||| 使用列表和元组

data=list/tuple

2||| 使用ndarray

data=ndarray

3||| 使用字典

data=dict

key：索引

value：数据

4||| 使用标量

data=value

s=pd.Series(data[,index=index,name=name])

data

Python对象、ndarray、一个标量（定值）

index

指定索引，list，默认[0,1,2,...,len(data)-1]

name

指定Series名称

dtype

指定数据类型

2. Series对象的描述

Series对象的属性

shape

形状

size

大小

index

索引标签

values

值(ndarray)

Series对象的方法

head(x)

获取对象前面指定个数(x)的数据

tail(x)

获取对象后面指定个数(x)的数据

DataFrame

1. DataFrame创建方式

1||| 字典

键：列名

值：具体数据（列表/元组）

2||| Series 组成的字典

键：列名

值：Series

3||| 字典组成的列表

每个字典是一行数据

4||| Series 生成

一个Series生成只有一列的DataFrame

df.DataFrame(data=None,index=None,columns=None)

data

具体数据，结构化或同构的ndarray、可迭代对象、字典或DataFrame

index

指定索引，默认RangeIndex(0,1,2,...)

columns

表头（列标签），默认RangeIndex(0,1,2,...)

dtype

指定数据类型

5||| 其他方法

pd.DataFrame.from_dict(dict)

pd.DataFrame.from_records(list\dict\ndarray)

pd.json_normalize(df.col)

pd.col.apply(pd.Series)

2. DataFrame对象的描述

df.info()

使用info方法获取df的信息

对象的类型、行索引、列索引信息、每列数据的列标签、非缺失值个数和数据类型、占用内存大小等

df.dtypes

使用dtypes属性获取df每列数据的类型

df.shape

使用shape属性，获取df的行数和列数

以元组形式返回

len(df)

使用len函数，获取df的行数和列数

len(df)

行数

len(df.columns)

列数

df.index

使用index属性，获取df的行索引标签

df.columns

使用columns属性，获取df的列索引标签

df.values

使用values属性，获取df的值

df.head(n)

使用head方法，获取前n行数据，默认n=5

df.tail(n)

使用tail方法，获取后n行数据，默认n=5

df.describe()

使用describe方法，获取df每列数据的描述统计量

包括数据个数、均值、标准差、最小值、25%分位数、中值、75%分位数、最大值等

NumPy

NumPy，是Python的一个高性能矩阵运算的科学计算库

NumPy的两个基本对象

ndarray

存储数据的多维数组

ufunc

对数组进行处理的函数

DataFrame为一个字典

键，表头

值，数据条(Series)