导图社区 数据运维思路
这是一篇关于数据运维思路的思维导图,主要内容介绍了模型优化以及数据分析应用这两个部分,感兴趣的小伙伴可以点赞加收藏。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
用户数据模型建设推进思路
模型优化
目前已有模型
1、规则+深度学习类模型
(1)有效性判断模型
0.98
语义结构判断模型
规则不清晰(0.83)
业务意图分类(一、二级)模型
业务意图调整
所属单位判断模型
0.89
行为意图分类模型
0.85
用户问题相似问模型(没有深度模型)
用户问题相似问题集
语料积累不够(用聚类墨模型先积累语料)
清单比对
不宜公开清单比对
已下发清单比对
暂缓清单比对模型
知识比对
知识问答库Q&A比对
知识总库知识比对
2、规则类模型
原文实体词提取模型(可用,人工复核后建立词表)
实体词库规则?
建设完整的词表(人工复核积累中)
新词发现模型(可用,需要积累、扩充词库)
3、聚类模型(无监督)
指定类别聚类(所属单位)
自动聚类
模型准备
1、数据清洗-去除纯字符等(目前构建按有效性判断模型来进行数据清洗)
2、模型算法
规则(关键词、词关系(词+距离/关系..+词))
深度学习(pytorch、tensorflow)
调参数(lr、enpoch、batchsize...)
k-means
3、训练数据集
数据标准规范(业务专家)
有效无效判定规则
语义结构清晰度判定规则
业务意图树
行为意图树
政务词框架
训练语料库(业务运维人员)-标注用户问题/根据规则梳理词组合/
模型训练(算法+规则+训练)
1、机器预设部分通用规则-明确的规则(如有效性判断模型的敏感词规则)
2、机器模型训练
(1)人工按照规则进行人工标注
(2)构建深度学习训练模型
选取预训练模型(bert/gpt...)
调参数
(3)训练模型准确率测试(新语料测试)
3、人工标注(提升训练数据质量)
标注目的/数据挖掘
新模型准备标注
前期训练数据量:10000条及以上
已有模型标注运维
智能问答数据量:每日2000条
(1)标签标注
简单业务标注
有效性判断
语义结构判断
行为意图
复杂业务标注
业务意图分类(一、二级)
所属单位判断
(2)原文标注
原文实体词(10类)
新词发现
(3)相似问标注
模型训练的标注工作量
4大类模型x10000(200条/人日)
模型运维优化
人工抽查复核标注
人工抽查复核机器处理标注后的语料
人工标注并修机器标注错误语料
模型准确率监督及预警
设置准确率监控
人工标注并修改机器标注错误语料量/人工抽查的语料量(阈值15%)
低于准确率阈值预警
规则调整
新训练集
人工标注并修改机器标注错误语料后形成的人工纠错语料
已有训练集
人工再次复核消歧
新模型训练(模型应用)
训练准确率和测试准确率
数据分析应用
意图图谱
意图数据及知识运维建设思路
知识库建设
全量知识库
知识汇聚—知识清单
Q&A知识(2月低完成问答知识全量入库)
表格知识
地图类
机构信息
领导信息
富文本知识
业务系统对接知识
一季度实现问答知识的汇总(2月低完成)
干条多少?
知识库层级(分类)
知识分类——知识结构树及最新知识清单
知识结构树
领域:交通·········
人群:老年人
服务类型:政策、办事、公开
知识清洗
知识汇聚及使用情况——知识使用情况
京京知识
子京京知识
数据统计
京通知识
各单位知识
首都之窗知识
知识运维工具
知识消歧
知识测试
知识图表分析
知识应用渠道
知识树工具
知识结构
彩智的公积金知识结构
中科知识结构
知识库运维
知识引导树运维
中科
彩智
知识更新
知识补充
知识运维2-3人
答案缺失问答补充流转(1-2人)
专题知识补充策划落实(1-2人)
词库运维
词库定期标注运维
技术支撑
北理工算法模型支撑
知识平台标注支撑
数据分析应用1-2人
专项数据跟踪研究
意图图谱建设
相关指导要求及报告
数据挖掘工作
供需是最重要的,要有供需比例
用供需比推断模型是否正确?
供/需
问答准确率
合作交流
可沟通交流的原型
用户意图研究模型运维(4-5人)
目标和意义
提升智能问答对语料的理解
规范优化各类服务模式
用户问答诉求分析
缺答案问题流转
答案准确性标注
词库沉淀
指导京通京京的知识建设
找到模型之间的关系
岗位和工作
模型准备+训练(1人)
前期训练数据量:5000条及以上
智能问答数据量:每日200条
数据标准规范(业务专家)(1-2人)
答案准确性判定
模型训练优化(1人)
人工标注(提升训练数据质量)(1-2人)
(4)答案准确性标注
模糊问答错了
模糊问模糊对
清晰问答错了
清晰问答对了
日常标注工作量