导图社区 数据开发团队规划
这是一篇关于数据开发团队规划的思维导图,包含能力建设、 医疗业务能力、 工程技术能力、团队建设等。
大数据技能树学习目录,主要内容数据存储、 数据计算、 数据采集、 任务调度等。
这是一篇关于医疗场景下数据中台建设思维导图,包含需求/目的、能力分解、相关团队、 未来展望等内容。
社区模板帮助中心,点此进入>>
项目时间管理6大步骤
项目管理的五个步骤
电商部人员工作结构
暮尚正常运转导图
产品经理如何做好项目管理
车队管理
创业者10条创业经
创业十大思维误区
管培生课程作业
商业模型
数据开发团队
能力建设
医疗业务能力
需求对接
数据探查项目
通用数据治理
数据生产项目
专病
迎春花
一院多区
国家报告
其他产品
解决方案及交付
需求分析及评审
项目管理及数据交付
模型设计和优化
模型设计
版本控制
工程技术能力
需求实现方案拆解
数据范围及数据流
数据更新方案
开发计划及人力成本
存储成本
数据接入
jdbc/odbc
restful/webservice
数据库备份恢复
cdc/ogg
文件/ftp
数据生产
sql
spark
dsl+udf
udf封装NLP
多数据源同时接入
数据生产工具开发
开发语言
java
python
dsl
功能分类
模型映射
spark任务
数据增强
清洗/字典归一
empi/emoi
病历解析
通用html/xml
预处理
拆分
文档类型标准化
章节解析
纯文本病历处理
转xml
正则提取
质控工具
单字段
规范性
标准率(有字典或值域范围)
规范率(正则规范)
主键唯一性
空值率
多字段
关联性
业务合理性
传输差异
行数差异
字段有值率/空值率差异
数据血缘
生产效率、稳定性、一致性
离线数据流
实时数据流
kafka/flink/spark streaming
批流一体化/数据湖
hudi/kudu
团队建设
工具、知识沉淀
HIT字典/医学知识
git/wiki/工具平台
项目SOP
人员需求
数据开发(3-4人)
文书解析
empi、emoi、清洗、字典归一
NLP生产、患者级聚合
数据质控
数据交付(by项目)
交付负责人
A库
数据分层
通用分层理论
操作数据层(Operational Data Store):ODS
明细数据层(Data Warehouse Detail):DWD
汇总数据层(Data Warehouse Summary):DWS
应用数据层(Application Data Store):ADS
场景适配
ods(原c1)
ods_clean(原c2)
数据期内小文件合并
通用数据清洗(预处理)
hive索引
dwd
empi
院内
跨院
empi相关表结构设计
患者注册
患者更新
患者拆分
变更记录
患者交叉索引
虚拟患者
emoi
visit_sn补全
虚拟就诊
NLP归一
分区(数据期)降维
业务唯一键设计(pkid)
电子病历解析
大文档拆分
文档类型标化
诊断全表、手术全表等
dws/mid+std(NLP生产及数据聚合层)
结构化+归一
ads(标签表/专病库)
生产任务分类
mapping
Spark
DSL
映射规范
性能优化
大表join
数据倾斜
缓存复用中间数据
精简数据流
跨数据源执行
支持流式计算
clean/norm
执行框架:Spark+DataFrame+config
业务逻辑:udf
数据期降维
udtf/udf
NLP字段生产及数据聚合
单字段规则
标准率
违规率
有值数
主键唯一率
跨表规则
孤儿数据
定制化业务规则
跨库规则
数据层间传输差异
同数据层更新差异
生产规范
立项生产流程
需求输入分析及拆解
时间范围
医院列表
详细字段
特殊处理需求(脱敏、empi、数据质量要求等)
需求评估
人力需求评估
存储及计算资源评估
数据模型满足情况评估
解决方案评审
生产方案
质控方案
排期
生产及交付
数据模型设计
数据开发
数据交付
生产任务管理
任务命名规范
存储路径规范
用户管理、队列权限、资源管理
质控标准及方案