导图社区 Pandas 数据处理
Pandas 是一个用于数据处理和分析的 Python 库。它提供了两种主要的数据结构:Series 和 DataFrame,分别用于处理一维和二维数据。
董宇辉在平谷中学演讲中的主要思想和观点,教育的重要性、 坚持与努力、 树立正确价值观等。
董宇辉在中国传媒大学演讲的主要思想和观点,痛苦与焦虑的积极作用、定力的重要性、不忘初心与成长阵痛。
《活着》是一部伟大的现实主义作品,以福贵的人生经历为主线,讲述了一个普通农民家庭在中国社会历史变迁中的沉浮起伏。它让我深刻理解了生活的真谛和人性的光辉。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
Pandas 数据处理
1. 安装与导入
首先需要安装 pandas 库:
pip install pandas
然后,在 Python 中导入 pandas:
import pandas as pd
2. 数据结构
2.1 Series
Series 是一个一维标签化数组,可以存储任何数据类型(整数、字符串、浮点数等),包括索引值和数据值。
创建 Series 示例:
data = pd.Series([1, 2, 3, 4], index=["a", "b", "c", "d"])
访问 Series 中的索引和值:
indexes = data.index values = data.values
2.2 DataFrame
DataFrame 是一个二维标签化数据结构,类似于表格,具有行索引和列索引。
创建 DataFrame 示例:
data = { "col1": [1, 2, 3, 4], "col2": ["A", "B", "C", "D"] } df = pd.DataFrame(data, index=["row1", "row2", "row3", "row4"])
访问 DataFrame 中的索引和列:
row_indexes = df.index column_indexes = df.columns
3. 数据读取与保存
3.1 读取 CSV 文件
使用pd.read_csv()
函数从 CSV 文件中读取数据,可以指定分隔符、编码等参数:
df = pd.read_csv("file.csv", sep=",", encoding="utf-8")
3.2 保存到 CSV 文件
使用to_csv()
方法将数据保存到 CSV 文件,可以指定分隔符、编码等参数:
df.to_csv("output.csv", sep=",", encoding="utf-8", index=False)
3.3 读取 Excel 文件
使用pd.read_excel()
函数从 Excel 文件中读取数据,可以指定工作表名、编码等参数:
df = pd.read_excel("file.xlsx", sheet_name="Sheet1", encoding="utf-8")
3.4 保存到 Excel 文件
使用to_excel()
方法将数据保存到 Excel 文件,可以指定工作表名、编码等参数:
with pd.ExcelWriter("output.xlsx") as writer: df.to_excel(writer, sheet_name="Sheet1", encoding="utf-8", index=False)
4. 数据处理
4.1 选择数据
可以按列名或行索引选择 DataFrame 中的数据:
# 选择一列 col1_data = df["col1"] # 选择多列 cols_data = df[["col1", "col2"]] # 选择一行 row1_data = df.loc["row1"] # 选择多行 rows_data = df.loc["row2":"row4"]
4.2 过滤数据
使用布尔条件过滤 DataFrame 中的数据:
filtered_data = df[df["col1"] > 2]
可以将多个条件组合在一起进行过滤:
filtered_data = df[(df["col1"] > 2) & (df["col2"] == "A")]
4.3 缺失值处理
处理 DataFrame 中的缺失值(如NaN):
# 删除包含缺失值的行 df.dropna() # 删除包含缺失值的列 df.dropna(axis=1) # 用指定值填充缺失值 df.fillna(value=0) # 使用前一个值或后一个值填充缺失值 df.fillna(method="ffill") df.fillna(method="bfill")
4.4 数据排序
根据指定列对 DataFrame 进行排序:
df.sort_values(by="col1", ascending=True)
4.5 数据聚合与统计
使用 Pandas 提供的方法进行数据聚合和统计分析:
# 计算各列平均值 df.mean() # 计算各列方差 df.var() # 计算各列最大值 df.max() # 计算各列最小值 df.min() # 获取描述性统计信息 df.describe()
4.6 数据分组
使用groupby()
方法对数据进行分组:
grouped = df.groupby("col1")
对分组后的数据进行聚合:
grouped_sum = grouped.sum()
4.7 数据合并
将多个 DataFrame 进行合并:
# 使用 concat() 进行纵向拼接 result = pd.concat([df1, df2], axis=0) # 使用 concat() 进行横向拼接 result = pd.concat([df1, df2], axis=1) # 使用 merge() 进行内连接 result = pd.merge(df1, df2, on="key") # 使用 merge() 进行左连接 result = pd.merge(df1, df2, on="key", how="left")