导图社区 pandans数据预处理
pandans数据预处理:包含去空与去重,填充与替换,DataFrame.fillna(value,method,inplace,limit) ,DataFrame.replace(to_replace,value,inplace):全部替换
正态分布就是指随机变量服从一个位置参数和尺度参数的概率分布,位置参数就是均值,尺度参数就是标准差。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
pandans数据预处理
创建新数据
创建Series
利用列表创建
pd .Series(list,index)
利用一维数组创建
pd .Series(arr,index)
利用字典创建
pd .Series(dict)
创建DataFrame
利用二维数组创建
DataFrame(array,columns,index)
利用字典和列表创建
DataFrame({columns_name:[columns_data]},index)
利用二维嵌套字典创建
DataFrame(columns:{index:row_data}
Series和DataFrame操作
Series的查看
查看头部:Series.head(n)
查看尾部:Series.tail(n)
查看个数:len(Series)
Series的索引操作
一般方法:Series[index]
查看多条不连续的数据:Series[[index1,index2]]
查看多条连续的数据:Series[index_start:index_stop]
按名称查看:Series[index_name]
按名称查看多条不连续的数据:Series[[index_name1,index_name2]]
按名称查看多条连续的数据:Series[index__name_start:index_name_stop
DataFrame 的索引操作
重排索引:DataFrame.reindex([index_new])
重设索引:DataFrame.set_index (column, drop)
还原索引:DataFrame.reset_index ()
查看数据类型:DataFrame.dtype
通过astype的一般用法:DataFrame[column].astype(dtype_new)
导入与保存
导入数据设置
查看设置
查看头部设置:DataFrame.head(n)
查看尾部设置:DataFrame.tail(n)
显示设置
不限制显示宽度:pd.set_option('display.width', n)
设置数据对齐:pd.set_option('display.unicode.east_asian_width', True)
不限制显示行数:pd.set_option('display.max_rows',n)
不限制显示列数:pd.set_option('display.max_columns',n)
导入文件
导入文本文件:pd.read_csv (filepath,sep,names,index_col)
导入Excel文件:pd.read_excel (filepath,sheet_name,names,index_col)
导入sklearn自带数据:from sklearn import datasets
保存数据
to_csv(path, columns, header, encoding)
新增与删除
新增列数据
利用直接赋值生成新列数据:DataFrame[new_column]=value
利用公式计算生成新列数据:DataFrame[new_column] = DataFrame[column1](+-*/)DataFrame[column2] (+-*/)…
利用字符串拆分生成新列数据:DataFrame[new_column] = DataFrame[column].str.split(sep, expand)
删除数据:DataFrame.drop(labels, axis, inplace)
筛选与切片
直接选取列数据
选取单列:DataFrame[column]
选取多列:DataFrame[[columns]]
利用loc函数选取行数据
利用行索引选取数据:DataFrame.loc[set_index]
利用行筛选条件选取数据:DataFrame.loc[行筛选条件]
选取DataFrame切片数据
使用双重索引直接选取数据:DataFrame[[columns]][index]
使用loc函数选取数据:DataFrame.loc[index,[columns]] 或DataFrame.loc[行筛选条件,[columns]]
使用iloc函数选取数据:iloc[index_num, columns_num]
转换与提取
生成时间类数据
str = 'yearmonthday hour:minute:second' pd.Timestamp(str):生成Timestamp类数据
pd.Timestamp(str2) - pd.Timestamp(str1):生成Timedelta类数据
生成DatetimeIndex类序列
str_list = [*] pd.to_Timedate(str_list):利用表生成
pd.data_range(start,stop,freq):利用data_range函数
pd.to_datetime(DataFrame[column]):转化DataFrame时间数据
print("提取d列中的月份为:\n",data['d'].dt.month):提取时间信息
拼接和合并
DataFrame.append(other, ignore_index):纵向拼接
pandas.merge(left_Dataframe,right_Dataframe,how,on,sort):横向合并
填充与替换
DataFrame.fillna(value,method,inplace,limit):空值填充
批量替换
DataFrame.replace(to_replace,value,inplace):全部替换
DataFrame[column].str.replace(to_replace,value):部分替换
去空与去重
数据去空
DataFrame.isnull().sum():查看空值
删除空值
DataFrame.dropna(axis,how,subset=[columns],inplace):一般方法
DataFrame.dropna(axis=0,how,subset,inplace):删除空值所在行
DataFrame.dropna(axis=1,how,subset,inplace):删除空值所在列
数据去重
DataFrame.duplicated(subset, inplace):查看重复值
DataFrame.drop_duplicates(subset, keep, inplace):删除重复值