导图社区 资产识别模型
这是一篇关于资产识别模型的思维导图,主要内容包括:实施步骤流程,模型ER图补充,字段信息补录,有效模型识别。
编辑于2024-10-30 10:22:54资产识别模型
1. 有效模型识别
目标
1. 按需采集,提升采集效率
优先评估现有紧急业务
2. 战略目标解读 - 运营数据&场景提供
陈林提供
范围
业务范围
4网3域,全量业务数据
类型范围
数据库:oracle、mysql、hive等等
数据范围
上线(表类型)
1. 业务支撑-基础表
2. 运营分析-统计表
3. 运维监控-统计表
测试(表类型)
开发测试
优先级
0. 战略优先
需解读战略目标
1. 业务优先
目前开发人员迫切补数或者完成需求的业务
2. 热点优先
结合战略
标准
数仓
模型规范
表名命名规范
过滤规则
表字段命名规范
表频度规范
表业务规范
采用单词文本相似度算法实现分类,实现有效模型识别,并辅助快速区别模型类型。 1. 表名/字段名收敛规则 2. 补充部分字段缺失信息
业务量
数据量变化
数据取值
采用时序算法进行数据表类型的有效区分
数据库
动态-操作行为
SQL语言分为四大类
数据查询语言DQL
基本结构由SELECT,FROM,WEHERE子句构成查询块;
数据操纵语言DML
包括插入,更新,删除;
数据定义语言DDL
包括创建数据库中的对象-表,视图,索引等;
数据控制语言DCL
授予或恢复数据库的权限,控制或操纵事务发生的时间及效果,对数据库进行监视等。
HQL
1)DML最后时间和操作记录条数 all_tab_modifications; http://blog.itpub.net/28211342/viewspace-2141347/ 2)数据库操作语句 v$session a, v$sqlarea b,v$session_longops c https://blog.csdn.net/weixin_42471823/article/details/116358863 select distinct t.TABLE_OWNER, regexp_replace( regexp_replace(regexp_replace(regexp_replace(t.table_name,'5[7-8][0-9]','XXX'), '20[0-9]{2}[0-1][0-9][0-3][0-9]','YYYYMMDD'), '20[0-9]{2}[0-1][0-9]', 'YYYYMM'), '20[0-9]{2}', 'YYYY') AS en_name from all_tab_modifications t where t.table_owner='ZJSJYYT' and to_char(t.timestamp, 'YYYYMMDD') >= '20220605' and t.inserts > '0' and table_name not like '%TEMP%' and table_name not like '%TMP%' and table_name not like '%BAK%' and table_name not like '%TEST%';
DDL
create
创建:创建数据库/架构,表,视图,函数,索引;
drop
删除:DROP DATABASE / SCHEMA,TABLE,VIEW,INDEX;
alter
备选:ALTER DATABASE / SCHEMA,表,视图
truncate
清空:TRUNCATE TABLE;
msck
修复:MSCK修复表(或更改表的恢复分区);
show
展示:显示数据库/架构,表,TBL属性,视图,分区,函数,索引,列,创建表;
describe
描述:DESCRIBE DATABASE / SCHEMA,表名,视图名,实体化视图名
DML
insert/insert overwrite
插入:将数据从查询/ SQL插入表中;
update
更新
delete
删除
merge
合并
考虑拆分所有语句全接入统计个数
常识-业务判断
最早创建的表
变更最多的表
数据量最多的表
授权最多的表
业务标识字段等
经验-规则积累
select regexp_replace(table_name, '20[0-9]{2}[0-1][0-9][0-3][0-9]', 'YYYYMMDD') from all_tables where owner = 'DZJH_BASE' and num_rows > '1000' --更新频度较低,有待考量 and table_name not like '%TEMP%' and table_name not like '%TMP%' and table_name not like '%BAK%' and table_name not like '%TEST%' group by regexp_replace(table_name, '20[0-9]{2}[0-1][0-9][0-3][0-9]', 'YYYYMMDD')
应用
应用生产配置(SRE / BOE)
SRE-标准化应用部署,统一获取配置文件
BOE-系统对应配置表
应用调用链(网关/ ESB)
为有效避免部门墙,可通过爬虫形式进行数据采集
2. 字段信息补录
统计&算法
字段类型识别
维度字段识别
【枚举值个数】
【总数】/【枚举值个数】
字段相似度识别
推荐字段说明
参考:规范-模型规范
匹配原信息
原BDI维表信息
bdi数据源-数据字典数据源
bdi数据源-业务系统
业务系统
对内业务
数据管理部
sre/boe
对外变现
运营组协调
忠成-周报汇总
吉祥-售前
其他运营
3. 模型ER图补充
优先同步亚信数据字典信息
完善ER图
4. 实施步骤流程
1. 表信息处理,如:a_11_b_20220825
基本统计
ul_cnt:本表包含"_"的个数;参考取值:3
str_len: 字段总长度;参考取值:16
nm_cnt: 数字个数;参考取值: 2
is_cnum_flg: 是否包含数字
字符转换
str_chg_l: 转换后表名;参考取值:a_{4,2,N}_b_{16,8,D}
日期型:{最后一个数字的位置,长度,D}
数字型:{最后一个数字的位置,长度,N}
str_chg_s: 转换后缩减表名;参考取值:a_b
转换后统计:基于str_chg_l字段
first_wd: 以下划线为分割,第一个字符串;参考取值:a
scecond_wd: 以下划线为分割,第二个字符串;参考取值:{4,2,N}
last_wd:以下划线为分割,最后一个字符串;参考取值:{16,8,D}
2. 表关系处理,如:a,a_11,a_11_b
short_match: 最短匹配; 参考取值,a
long_match: 最长匹配; 参考取值,a_11_b
3. 表关系处理,如:a,a_11,a_11_b
chg_short_match: 最短匹配; 参考取值,a
chg_long_match: 最长匹配; 参考取值,a_11_b