导图社区资产识别模型

资产识别模型

这是一篇关于资产识别模型的思维导图，主要内容包括：实施步骤流程，模型ER图补充，字段信息补录，有效模型识别。

编辑于2024-10-30 10:22:54

数据
资产识别模型
资产方法

EDuTfyP9

他的近期作品查看更多>>

资产识别模型

社区模板帮助中心，点此进入>>

EDuTfyP9

他的近期作品查看更多>>

相似推荐
大纲

论语孔子简单思维导图
- 65.8k
- 734
- 909
- 358
MindMaster
《傅雷家书》思维导图
- 114.4k
- 1.4k
- 2.6k
- 1.1k
MindMaster
《童年》读书笔记
- 41.0k
- 445
- 933
- 316
MindMaster
《茶馆》思维导图
- 9.9k
- 163
- 180
- 38
MindMaster
《朝花夕拾》篇目思维导图
- 22.1k
- 461
- 1.1k
- 280
MindMaster
《昆虫记》思维导图
- 27.4k
- 238
- 756
- 260
MindMaster
《安徒生童话》思维导图
- 14.9k
- 253
- 248
- 64
MindMaster
《鲁滨逊漂流记》读书笔记
- 18.6k
- 274
- 531
- 162
MindMaster
《这样读书就够了》读书笔记
- 91.4k
- 11.5k
- 8.8k
- 2.1k
Ethan
妈妈必读：一张0-1岁孩子认知发展的精确时间表
- 7.4k
- 1.5k
- 384
- 47
Ethan

资产识别模型

1. 有效模型识别

目标

1. 按需采集，提升采集效率

优先评估现有紧急业务

2. 战略目标解读 - 运营数据&场景提供

陈林提供

范围

业务范围

4网3域，全量业务数据

类型范围

数据库：oracle、mysql、hive等等

数据范围

上线（表类型）

1. 业务支撑-基础表

2. 运营分析-统计表

3. 运维监控-统计表

测试（表类型）

开发测试

优先级

0. 战略优先

需解读战略目标

1. 业务优先

目前开发人员迫切补数或者完成需求的业务

2. 热点优先

结合战略

标准

数仓

模型规范

表名命名规范

过滤规则

表字段命名规范

表频度规范

表业务规范

采用单词文本相似度算法实现分类，实现有效模型识别，并辅助快速区别模型类型。 1. 表名/字段名收敛规则 2. 补充部分字段缺失信息

业务量

数据量变化

数据取值

采用时序算法进行数据表类型的有效区分

数据库

动态-操作行为

SQL语言分为四大类

数据查询语言DQL

基本结构由SELECT，FROM，WEHERE子句构成查询块；

数据操纵语言DML

包括插入，更新，删除；

数据定义语言DDL

包括创建数据库中的对象-表，视图，索引等；

数据控制语言DCL

授予或恢复数据库的权限，控制或操纵事务发生的时间及效果，对数据库进行监视等。

HQL

1）DML最后时间和操作记录条数 all_tab_modifications; http://blog.itpub.net/28211342/viewspace-2141347/ 2）数据库操作语句 v$session a, v$sqlarea b,v$session_longops c https://blog.csdn.net/weixin_42471823/article/details/116358863 select distinct t.TABLE_OWNER, regexp_replace( regexp_replace(regexp_replace(regexp_replace(t.table_name,'5[7-8][0-9]','XXX'), '20[0-9]{2}[0-1][0-9][0-3][0-9]','YYYYMMDD'), '20[0-9]{2}[0-1][0-9]', 'YYYYMM'), '20[0-9]{2}', 'YYYY') AS en_name from all_tab_modifications t where t.table_owner='ZJSJYYT' and to_char(t.timestamp, 'YYYYMMDD') >= '20220605' and t.inserts > '0' and table_name not like '%TEMP%' and table_name not like '%TMP%' and table_name not like '%BAK%' and table_name not like '%TEST%';

DDL

create

创建：创建数据库/架构，表，视图，函数，索引；

drop

删除：DROP DATABASE / SCHEMA，TABLE，VIEW，INDEX；

alter

备选：ALTER DATABASE / SCHEMA，表，视图

truncate

清空：TRUNCATE TABLE；

msck

修复：MSCK修复表（或更改表的恢复分区）；

show

展示：显示数据库/架构，表，TBL属性，视图，分区，函数，索引，列，创建表；

describe

描述：DESCRIBE DATABASE / SCHEMA，表名，视图名，实体化视图名

DML

insert/insert overwrite

插入：将数据从查询/ SQL插入表中；

update

更新

delete

删除

merge

合并

考虑拆分所有语句全接入统计个数

常识-业务判断

最早创建的表

变更最多的表

数据量最多的表

授权最多的表

业务标识字段等

经验-规则积累

select regexp_replace(table_name, '20[0-9]{2}[0-1][0-9][0-3][0-9]', 'YYYYMMDD') from all_tables where owner = 'DZJH_BASE' and num_rows > '1000' --更新频度较低，有待考量 and table_name not like '%TEMP%' and table_name not like '%TMP%' and table_name not like '%BAK%' and table_name not like '%TEST%' group by regexp_replace(table_name, '20[0-9]{2}[0-1][0-9][0-3][0-9]', 'YYYYMMDD')

应用

应用生产配置（SRE / BOE）

SRE-标准化应用部署，统一获取配置文件

BOE-系统对应配置表

应用调用链（网关/ ESB）

为有效避免部门墙，可通过爬虫形式进行数据采集

2. 字段信息补录

统计&算法

字段类型识别

维度字段识别

【枚举值个数】

【总数】/【枚举值个数】

字段相似度识别

推荐字段说明

参考：规范-模型规范

匹配原信息

原BDI维表信息

bdi数据源-数据字典数据源

bdi数据源-业务系统

业务系统

对内业务

数据管理部

sre/boe

对外变现

运营组协调

忠成-周报汇总

吉祥-售前

其他运营

3. 模型ER图补充

优先同步亚信数据字典信息

完善ER图

4. 实施步骤流程

1. 表信息处理，如：a_11_b_20220825

基本统计

ul_cnt：本表包含"_"的个数；参考取值：3

str_len: 字段总长度；参考取值：16

nm_cnt: 数字个数；参考取值： 2

is_cnum_flg: 是否包含数字

字符转换

str_chg_l: 转换后表名；参考取值：a_{4,2,N}_b_{16,8,D}

日期型：{最后一个数字的位置,长度,D}

数字型：{最后一个数字的位置,长度,N}

str_chg_s: 转换后缩减表名；参考取值：a_b

转换后统计：基于str_chg_l字段

first_wd: 以下划线为分割，第一个字符串；参考取值：a

scecond_wd: 以下划线为分割，第二个字符串；参考取值：{4,2,N}

last_wd:以下划线为分割，最后一个字符串；参考取值：{16,8,D}

2. 表关系处理，如：a，a_11，a_11_b

short_match: 最短匹配; 参考取值，a

long_match: 最长匹配; 参考取值，a_11_b

3. 表关系处理，如：a，a_11，a_11_b

chg_short_match: 最短匹配; 参考取值，a

chg_long_match: 最长匹配; 参考取值，a_11_b