导图社区 Pandas 数据处理

Pandas 数据处理

Pandas 是一个用于数据处理和分析的 Python 库。它提供了两种主要的数据结构：Series 和 DataFrame，分别用于处理一维和二维数据。

编辑于2023-05-20 10:47:47 云南

yzk

他的近期作品查看更多>>

Pandas 数据处理

社区模板帮助中心，点此进入>>

yzk

他的近期作品查看更多>>

相似推荐
大纲

互联网9大思维
- 39.9k
- 977
- 2.5k
- 401
- 0
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 18.7k
- 3
- 186
- 9
- 1
Kacyun
域控上线
- 4.4k
- 171
- 11
- 4
- 0
jackrao
python思维导图
- 9.7k
- 557
- 242
- 7
- 0
(*^▽^*)
css
- 3.9k
- 1
- 43
- 3
- 0
A张舫
CSS
- 6.4k
- 272
- 189
- 33
- 0
journey
计算机操作系统思维导图
- 8.1k
- 354
- 209
- 16
- 0
journey
计算机组成原理
- 4.1k
- 98
- 71
- 8
- 0
journey
IMX6UL(A7)
- 2.7k
- 41
- 5
- 0
- 0
Handler XU
考试学情分析系统
- 3.7k
- 51
- 10
- 1
- 0
蒋龙

Pandas 数据处理

Pandas 是一个用于数据处理和分析的 Python 库。它提供了两种主要的数据结构：Series 和 DataFrame，分别用于处理一维和二维数据。

1. 安装与导入

首先需要安装 pandas 库：

pip install pandas

然后，在 Python 中导入 pandas：

import pandas as pd

2. 数据结构

2.1 Series

Series 是一个一维标签化数组，可以存储任何数据类型（整数、字符串、浮点数等），包括索引值和数据值。

创建 Series 示例：

data = pd.Series([1, 2, 3, 4], index=["a", "b", "c", "d"])

访问 Series 中的索引和值：

indexes = data.index values = data.values

2.2 DataFrame

DataFrame 是一个二维标签化数据结构，类似于表格，具有行索引和列索引。

创建 DataFrame 示例：

data = { "col1": [1, 2, 3, 4], "col2": ["A", "B", "C", "D"] } df = pd.DataFrame(data, index=["row1", "row2", "row3", "row4"])

访问 DataFrame 中的索引和列：

row_indexes = df.index column_indexes = df.columns

3. 数据读取与保存

3.1 读取 CSV 文件

使用pd.read_csv()

函数从 CSV 文件中读取数据，可以指定分隔符、编码等参数：

df = pd.read_csv("file.csv", sep=",", encoding="utf-8")

3.2 保存到 CSV 文件

使用to_csv()

方法将数据保存到 CSV 文件，可以指定分隔符、编码等参数：

df.to_csv("output.csv", sep=",", encoding="utf-8", index=False)

3.3 读取 Excel 文件

使用pd.read_excel()

函数从 Excel 文件中读取数据，可以指定工作表名、编码等参数：

df = pd.read_excel("file.xlsx", sheet_name="Sheet1", encoding="utf-8")

3.4 保存到 Excel 文件

使用to_excel()

方法将数据保存到 Excel 文件，可以指定工作表名、编码等参数：

with pd.ExcelWriter("output.xlsx") as writer: df.to_excel(writer, sheet_name="Sheet1", encoding="utf-8", index=False)

4. 数据处理

4.1 选择数据

可以按列名或行索引选择 DataFrame 中的数据：

# 选择一列 col1_data = df["col1"] # 选择多列 cols_data = df[["col1", "col2"]] # 选择一行 row1_data = df.loc["row1"] # 选择多行 rows_data = df.loc["row2":"row4"]

4.2 过滤数据

使用布尔条件过滤 DataFrame 中的数据：

filtered_data = df[df["col1"] > 2]

可以将多个条件组合在一起进行过滤：

filtered_data = df[(df["col1"] > 2) & (df["col2"] == "A")]

4.3 缺失值处理

处理 DataFrame 中的缺失值（如NaN）：

# 删除包含缺失值的行 df.dropna() # 删除包含缺失值的列 df.dropna(axis=1) # 用指定值填充缺失值 df.fillna(value=0) # 使用前一个值或后一个值填充缺失值 df.fillna(method="ffill") df.fillna(method="bfill")

4.4 数据排序

根据指定列对 DataFrame 进行排序：

df.sort_values(by="col1", ascending=True)

4.5 数据聚合与统计

使用 Pandas 提供的方法进行数据聚合和统计分析：

# 计算各列平均值 df.mean() # 计算各列方差 df.var() # 计算各列最大值 df.max() # 计算各列最小值 df.min() # 获取描述性统计信息 df.describe()

4.6 数据分组

使用groupby()

方法对数据进行分组：

grouped = df.groupby("col1")

对分组后的数据进行聚合：

grouped_sum = grouped.sum()

4.7 数据合并

将多个 DataFrame 进行合并：

# 使用 concat() 进行纵向拼接 result = pd.concat([df1, df2], axis=0) # 使用 concat() 进行横向拼接 result = pd.concat([df1, df2], axis=1) # 使用 merge() 进行内连接 result = pd.merge(df1, df2, on="key") # 使用 merge() 进行左连接 result = pd.merge(df1, df2, on="key", how="left")