导图社区 数据处理
以数据的加工处理为核心,展示出整个数据流动的过程。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
数据处理
数据采集
获取
网络
一般情况是给一个地址信息,多为url形式,以接口的形式获取,数据的显示形式多为json串。
xml
json
html页面信息
单纯的页面展示信息
源码中隐藏的信息
接口信息
页面中数据流
数据隐藏于页面中(如道客巴巴中文件的内容)
数据在另一地址中,需要fiddler等抓包工具,抓取相关的url才可获得(如微信中的文章信息)
文件
对于常见的有csv,txt,sql等文件,主要获取文件的内容数据;对于图片、视频、音频获取的内容为整个文件,并非文件内的数据,而是文件表现的信息。
文本文件
半结构化文件:有固定相同分隔符的文件,例如csv,txt
结构化文件:文件数据库 (嵌入式数据库)例如:sqlite、xml数据库文件、Access、dat、txt文件
文件数据,一般可以成为文件数据库的文件,绝大数可以成为结构化数据,其他的多半为非结构化数据,半结构化数据 是处于结构化和非结构化数据之间的,可以用数据库描述存储的数据。 半结构化数据可以可以理解为“结构化”的非结构化数据 这类数据并不常见,也不常用
可执行文件(可编译文件)
常见的有sql文件,也有其他的。例如shell文件、Python文件,但因探讨的是数据,所以常见的为sql文件
音频
视频
图片
这类数据均为非结构化数据,常见存储方式有两种
存储方式: 1、将其转成二进制流,存储在表的某个字段中 2、将文件放在某个服务器中,一张表记录相关的元数据
数据库
数据给予方给我们连接信息(地址、端口号、数据库名、用户名、密码) 注:现在数据交互,考虑到安全等因素,多用接口方式传输
部署方式
单机数据库
数据库集群
分布式数据库
分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率
关系
关系性数据库
Oracle
mysql
postgresql
...
非关系性数据库(Nosql)
键值(Key-Value)存储数据库
列存储数据库
文档型数据库
图形数据库
数据常见的形式
推送
这种形式,是提供数据方,知道我们这边的数据信息,将数据推送过来,我们并不清楚对方的数存储情况
接口
服务器
系统中产出的数据
操作的日志信息数据
服务方推送的数据
推送前提,我们需要有客户端去接受
数据传输
数据库数据的传输
同类数据库之间
这类在数据传输时,主要需要考虑的为版本问题,传输工具多为该数据库的官方数据导入导出工具。
非同类数据库
关系型数据库之间
一般选用的是为各个数据库官方工具
第三方工具(Logstash、kettle等)
编写的程序
非关系型数据库之间
多数也是使用三方工具/ETL工具
关系型及非关系型之间
ETL工具
主要分三步: 1、数据的导出方式(官方默认工具导出;程序连接数据库将select的结果集导出) 2、数据导出的存储(官方默认存储,如sql文件,zip压缩文件的等;自己随意定义的文件) 3、读取文件入库(官方默认工具导入;程序连接数据库insert语句)
非数据库数据
半结构化数据(txt,json,csv等)将其解析入库
非结构化数据
这是最常见的一种数据传输方式,大多数为一个url地址,携带相关协议传递数据信息。
url地址
消息队列
数据流
数据加工、转换、分析
加工
基本加工
表字段级(按列)
单列
空值
重复值
伪单列
仍是单列的加工,但是参考了常识,规则、及自身
合理性
逻辑(例如:该字段为时间字段,数据类型为字符串)
值域范围(例如:该字段为年龄,其里面的值为1000)
单向参照(例如,该字段为出身日期,但其值明显大于当前日期)
格式统一
多列
多维参照(例如:该字段为身份证,则可以校验身份证其他信息(如果表中有相关的字段))
这种情况则为,该字段的内容包含多个信息,而且该表中的其他字段表述的信息和该字段一样,可以用来连个校验。
字段关系(例如:表中的某几个字段有约束关系,如:身份证与性别字段)
第二代省份证的编码规则: 411481182605183259 前六位(1-->6): 行政区划代码 中间八位(7-->14): 出生日期 之后两位(15-->16): 警察局编码 倒数第二位(17): 性别(奇数为男,偶数为女) 最后一位(18): 校验码
表记录级(按行)
一般性加工,可参考《表字段级中多列》
记录数
有业务需要
不同业务有不同的加工方式, 先以数据质量这个业务为例
数据质量(六性)
该六性是对象是表(包含但不仅仅包含数据、元数据),部分规则使用字段、记录。
规范性
数据标准
国标(例如《GB∕T36104_法人和其他组织统一社会信用代码基础数据元》)
地标(DB11T 240—2004市民基础信息数据元素目录规范)
行标(GAT 543.2-2011 公安数据元(2))
数据模型
元数据
业务规则
权威参考数据(权威参考源)
安全规范
完整性
数据元素完整性
数据记录完成性
准确性
数据内容正确性
数据格式合规性
数据重复率
数据唯一性
脏数据出现率
一致性
相同数据一致性
关联数据一致性
时效性
基于时间段的正确性
基于时间点及时性
时序性
可访问性
可访问
可用性
上述的文件
GB∕T 36344-2018 信息技术 数据质量评价指标.pdf
这部分主要参考数质量国标文件《GB/T 36344一2018 信息技术 数据质量评价指标》
转换
这步主要是对数据质量合格的数据根据自己需要,做相关的转换、计算等等操作
形式的转换
日期(yyyy-mm-dd、yyyymmdd、YYYY/MM/DD等等)
数字(99、99.00、9.90e1)
货币(¥、$等等)
内容的转换
数量
比率
同比
环比
占比
分析
不属于数据处理这部分,暂不做描述
数据服务
数据资产展示--->元数据
数据展示---->内容
接口(json)
清洗后的数据库