导图社区 python中的pandas库的学习笔记
python中的pandas库的学习笔记,整理了Series/DataFrame、基本数据操作、高级处理的内容,快来学吧。
如果一个样本在特征空间中的K个最相似的样本中的大多数属于某一类别,则该样本也属于这个类别,来看看 K值的选择和kd树知识吧。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
pandas
Series/DataFrame
DataFrame相当于表格
Series相当于数组np.array()类似
基本数据操作
数据索引
直接索引--先列后行
loc--先行后列,索引值
iloc--先行后列,索引值下标
赋值操作
DataFrame形式:对象.索引值=赋值
series形式:对象["索引值"]=赋值
删除指定行或列:对象.drop["行/列索引值",axis=0/1]
数据排序
DataFrame
对象.sort_values(by=["按照什么排序"],ascending=升/降序)
对象.sort_index(ascending=升/降序)
Series
对象["索引值"].sort_values(ascending=True/False)
对象["索引值"].sort_index(ascending=True/False)
DataFrame数据运算
算术运算
对象["索引值"].sub(number)
对象["索引值"].add(number)
逻辑运算
对象.query("索引值1>2&索引值2<3")
对象["索引值"].isin(2,3)
统计函数
对象.describe()
sum/min/max/mode(众数)/idmax--最大值索引/idmin--最小值索引
Series:对象["索引值"].max()
DataFrame:对象.索引值.max()
累计统计函数
cumsum: #计算出前1/2/3..../n数的和
cummax: #计算出前1/2/3..../n个数的最大值
cummin: #计算前1/2/3/4..../n个数的最小值
cumprod: #计算前1/2/3/4..../n个数的积
自定义运算
apply(func,axis=)
Pandas画图
对象.plot(kind="显示什么形式的图片",stacked=True/False)
kind=line--折线图
kind=bar--条形图
kinf=barh-条形图旋转
kind=hist--直方图
kind=pie--饼图
kind=scatter--散点图
stacked=True--以堆积形式显示
文件读取与存储
读取--pd.read_csv("./读取地址",usecols=["需要读取的列名",""])
存储--pd.to_csv("./存储地址",colums=["需要保存的列名"],index=True(保存行索引))
高级处理
缺失值处理
缺失值的判断
np.all(pd.notnull(movie))#np.all()是与运算,所有都为True,结果才为True
np.any(pd.isnull(movie))#np.any()是或运算,只要有一个是True,结果则为True
删除缺失值:dropna(axis="按照行/列删除")
替换缺失值:fillna(value="替换成的值",inspace=True会修改原数据,False不替换修改原数据,生成新的对象)
不是缺失值,有默认标记的“?”:
replace(to_replace="?",value=np.NaN)#to_replace表示的是被替换的值,value是替换值
数据离散化
把一些数据分到某个区间,最后用不同的符号或数字表达
qcut(对象,分类个数,duplicates="drop")#pd.qcut()把数据分为大致相等的几类
cut(对象,bins=指定的分组间隔)#按照设定的分区的区间进行划分
get_dummies(对象) #进行one-hot编码
数据合并
concat(["需要合并的数据1",“需要合并的数据2”],axis=0/1按行/列合并)
merge(需要合并的数据1,需要合并的数据2,on=["指定键1","指定键2"],how="合并的方式")
交叉表与透视表
crosstab(第一列数据,第二列数据)#交叉表就是探索两列数据之间的关系,crosstab用来给出具体数据
pivot_table(研究谁的占比,index="被研究的另外一列")#直接给出指定数据的百分比
分组与集合
groupby(['按照什么分组'],as_index=False)['按照什么聚合'].mean() #as_index--是否保留索引