导图社区 数据处理与应用
关于数据处理与应用的思维导图,从数据采集、整理与安全,数据分析与可视化等方面进行了分析和概述,有助于帮助您熟悉知识要点,加强记忆。
编辑于2023-02-28 23:00:17 上海数据处理与应用
数据采集、整理与安全
数据采集
传感数据采集
互联网数据采集
获取网页
获取网页的源代码
解析网页
保存数据
数据整理
检测与处理重复值
记录重复
Pandas库去重方法:drop——duplicate()
subset,说明:接收字符串或序列,表示进行去重的列,默认为none,表示全部列
keep,说明:接收特定字符串,表示重复时保留第几个数据:first,保留第一个,默认为first;last,保留最后一个;False,只要有重复都不保留
inplace,说明:接收bool型数据,表示是否在原表上进行操作,默认为False
数据检测与去重处理过程:
1、分析数据
2、确定方法
3、编程与调试
特征重复
检测与处理缺失值
缺失值:数据中的某个或多个特征的值是不完整的
Pandas库删除缺失值:dropna()
axis,说明:接收0或1,表示轴向;0为删除观测记录(行),1为删除特征(列),默认为0
how,说明:接收特定字符串,表示删除的形式;any表示只要有缺失值存在就执行删除操作 默认为any;all表示当且仅当全部为缺失值才执行删除操作
inplace,说明:接收bool型数据,表示是否在原表上进行操作,默认为False
数据检测与处理缺失值的过程:
1、分析数据
2、确定方法
3、编程与调试
检测与处理异常值
异常值:数据中个别值的数值明显偏离其余的数值,也称离群点
处理方法
直接将含有异常值的记录删除
用前后两个观测值的平均值修正该异常值
将异常值视为缺失值,利用处理缺失值的方法进行处理
数据读取与存储
1、文本文件的读取
Pandas库读取CSV文件:read_csv()
filepath,说明:接收字符串,表示文件路径,无默认值
sep,说明:接收字符串,表示分隔符,默认为“,”
header,说明:接收int型数据,表示将某行数据作为列名,默认为infer,表示自动识别
names,说明:接收数组,表示列名,默认为none
dtype,说明:接收字典,表示写入的数据类型,默认为none
语法:pandas.read_csv(filepath,sep=',',header='infer',names=None,index_col=None,dtype=None,encoding=utf-8
2、文本文件的存储
Pandas库以CSV文件格式进行存储:to_csv()
path_or_buf,说明:接收字符串,表示文件路径,无默认值
sep,说明:接收字符串,表示分隔串,默认为“,”
na_rap,说明:接收字符串,表示缺失值,默认为空
columns,说明:接收列表,表示写出的列名,默认为none
header,说明:接收bool型数据,表示是否将列名写出,默认为True
index,说明;接收bool型数据,表示是否将行名(索引)写出,默认为True
index_label,接收序列,表示索引名,默认为none
mode,接收特定字符串,表示数据写入模式,默认为“w”
encoding,接收特定字符串,表示存储文件的编码格式,默认为none
语法:DataFrame.to_csv(path_or_buf=None,sep=',',na_rap=",columns=None,header=True,index=True,index_label=None,mode='w',encoding=None
数据安全
数据安全意识
数据安全防护
1、数据加密
2、数据脱敏
3、访问控制
4、数据备份
5、异地容灾
数据分析与可视化
数据分析
数据分析基本方法
1、对比分析法
2、平均分析法
3、结构分析法
数据分析常用工具
1、电子表格软件
2、在线数据分析平台
数据分析语言
数据可视化
数据可视化的基本工具
Python语言中引入Matplotlib(绘图工具包)的pyplot子库的语法:import matplotlib . pyplot as plt
Python中创建画布以及创建并选中子图的常用函数
plt.figure(),作用:创建一张空白画布,可以指定画布大小、像素
figure.add_suplot(),作用:创建并选中子图,可以指定子图的行数、列数和选中图片的编号
pyplot中添加各类标签和图例的常用函数
plt.title(),作用:在当前图形中添加标题,可以指定标题的名称、位置、颜色、字体大小等参数
plt.xlabel(),作用:在当前图形中添加x轴名称,可以指定位置、颜色、字体大小等参数
plt.ylabel(),作用:在当前图形中添加y轴名称,可以指定位置、颜色、字体大小等参数
plt.xlim(),作用:指定当前图形x轴的范围,只能确定一个数值空间,而无法使用字符串标识
plt.ylim(),作用:指定当前图形y轴的范围,只能确定一个数值空间,而无法使用字符串标识
plt.xticks(),作用:指定x轴刻度的数目与取值
plt.yticks(),作用:指定y轴刻度的数目与取值
plt.legend(),作用:显示当前图形的图例,可以指定图例的大小、位置,标签
pyplot中保存与显示图形的常用函数
plt.savefig(),作用:保存绘制的图形,可以指定图形的分辨率、边缘的颜色等参数
plt.show(),作用:在本机显示图形
常用的数据分析图
1、分析特征间的关系
2、分析特征内部数据分布与分散状态
绘制散点图:scatter()
语法:matplotlib . pyplot . scatter(x,y,s=None,c=None,marker=None,alpha=None)
绘制折线图:plot()
语法:matplotlib . pypot . plot(x,y,color=None,linestyle='-',linewidth=0.5)
绘制柱状图:bar()
语法:matplotlib . pyplot . bar(left,height,width=0.8,color=None)
绘制饼图:pie()
语法:matplotlib . pyplot . pie(x,explode=None,labels=None,color=None,autopct=None,pctdistance=0.6,labeldistance=1.1,radius=1)
绘制箱型图:boxplot()
语法:matplotlib . pyplot . boxplot(x,notch=None,sym=None,vert=None,whis=1.5,positions=None,widths=None,labels=None)
数据分析报告与应用
数据分析报告的种类
数据分析报告的组成
数据分析报告的价值
数据处理与应用
数据采集、整理与安全
数据采集
传感数据采集
互联网数据采集
获取网页
获取网页的源代码
解析网页
保存数据
数据整理
检测与处理重复值
记录重复
Pandas库去重方法:drop——duplicate()
subset,说明:接收字符串或序列,表示进行去重的列,默认为none,表示全部列
keep,说明:接收特定字符串,表示重复时保留第几个数据:first,保留第一个,默认为first;last,保留最后一个;False,只要有重复都不保留
inplace,说明:接收bool型数据,表示是否在原表上进行操作,默认为False
数据检测与去重处理过程:
1、分析数据
2、确定方法
3、编程与调试
特征重复
检测与处理缺失值
缺失值:数据中的某个或多个特征的值是不完整的
Pandas库删除缺失值:dropna()
axis,说明:接收0或1,表示轴向;0为删除观测记录(行),1为删除特征(列),默认为0
how,说明:接收特定字符串,表示删除的形式;any表示只要有缺失值存在就执行删除操作 默认为any;all表示当且仅当全部为缺失值才执行删除操作
inplace,说明:接收bool型数据,表示是否在原表上进行操作,默认为False
数据检测与处理缺失值的过程:
1、分析数据
2、确定方法
3、编程与调试
检测与处理异常值
异常值:数据中个别值的数值明显偏离其余的数值,也称离群点
处理方法
直接将含有异常值的记录删除
用前后两个观测值的平均值修正该异常值
将异常值视为缺失值,利用处理缺失值的方法进行处理
数据读取与存储
1、文本文件的读取
Pandas库读取CSV文件:read_csv()
filepath,说明:接收字符串,表示文件路径,无默认值
sep,说明:接收字符串,表示分隔符,默认为“,”
header,说明:接收int型数据,表示将某行数据作为列名,默认为infer,表示自动识别
names,说明:接收数组,表示列名,默认为none
dtype,说明:接收字典,表示写入的数据类型,默认为none
语法:pandas.read_csv(filepath,sep=',',header='infer',names=None,index_col=None,dtype=None,encoding=utf-8
2、文本文件的存储
Pandas库以CSV文件格式进行存储:to_csv()
path_or_buf,说明:接收字符串,表示文件路径,无默认值
sep,说明:接收字符串,表示分隔串,默认为“,”
na_rap,说明:接收字符串,表示缺失值,默认为空
columns,说明:接收列表,表示写出的列名,默认为none
header,说明:接收bool型数据,表示是否将列名写出,默认为True
index,说明;接收bool型数据,表示是否将行名(索引)写出,默认为True
index_label,接收序列,表示索引名,默认为none
mode,接收特定字符串,表示数据写入模式,默认为“w”
encoding,接收特定字符串,表示存储文件的编码格式,默认为none
语法:DataFrame.to_csv(path_or_buf=None,sep=',',na_rap=",columns=None,header=True,index=True,index_label=None,mode='w',encoding=None
数据安全
数据安全意识
数据安全防护
1、数据加密
2、数据脱敏
3、访问控制
4、数据备份
5、异地容灾
数据分析与可视化
数据分析
数据分析基本方法
1、对比分析法
2、平均分析法
3、结构分析法
数据分析常用工具
1、电子表格软件
2、在线数据分析平台
数据分析语言
数据可视化
数据可视化的基本工具
Python语言中引入Matplotlib(绘图工具包)的pyplot子库的语法:import matplotlib . pyplot as plt
Python中创建画布以及创建并选中子图的常用函数
plt.figure(),作用:创建一张空白画布,可以指定画布大小、像素
figure.add_suplot(),作用:创建并选中子图,可以指定子图的行数、列数和选中图片的编号
pyplot中添加各类标签和图例的常用函数
plt.title(),作用:在当前图形中添加标题,可以指定标题的名称、位置、颜色、字体大小等参数
plt.xlabel(),作用:在当前图形中添加x轴名称,可以指定位置、颜色、字体大小等参数
plt.ylabel(),作用:在当前图形中添加y轴名称,可以指定位置、颜色、字体大小等参数
plt.xlim(),作用:指定当前图形x轴的范围,只能确定一个数值空间,而无法使用字符串标识
plt.ylim(),作用:指定当前图形y轴的范围,只能确定一个数值空间,而无法使用字符串标识
plt.xticks(),作用:指定x轴刻度的数目与取值
plt.yticks(),作用:指定y轴刻度的数目与取值
plt.legend(),作用:显示当前图形的图例,可以指定图例的大小、位置,标签
pyplot中保存与显示图形的常用函数
plt.savefig(),作用:保存绘制的图形,可以指定图形的分辨率、边缘的颜色等参数
plt.show(),作用:在本机显示图形
常用的数据分析图
1、分析特征间的关系
2、分析特征内部数据分布与分散状态
绘制散点图:scatter()
语法:matplotlib . pyplot . scatter(x,y,s=None,c=None,marker=None,alpha=None)
绘制折线图:plot()
语法:matplotlib . pypot . plot(x,y,color=None,linestyle='-',linewidth=0.5)
绘制柱状图:bar()
语法:matplotlib . pyplot . bar(left,height,width=0.8,color=None)
绘制饼图:pie()
语法:matplotlib . pyplot . pie(x,explode=None,labels=None,color=None,autopct=None,pctdistance=0.6,labeldistance=1.1,radius=1)
绘制箱型图:boxplot()
语法:matplotlib . pyplot . boxplot(x,notch=None,sym=None,vert=None,whis=1.5,positions=None,widths=None,labels=None)
数据分析报告与应用
数据分析报告的种类
数据分析报告的组成
数据分析报告的价值