导图社区 实体库
这是一篇关于实体库的思维导图,主要内容包括:高频实体-尹金帆,实体库搭建-尹金帆,实体清洗流程优化-尹金帆、成莲,实体清洗。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
实体库
实体清洗
数据治理、规整:成莲
1、分析数据,将数据做分析整理;
2、与研究、业务拉齐需求(数据字段信息、文件存储格式);
3、按照需求完成数据治理(字段整理、数据层级整理、数据格式转换),整理数据明细表。
清洗 (优化前)
工具团队沟通-成莲
1、跟飞数团队沟通,完成各项数据清洗过程中触发的需求及需要搭建的工具; 2、辅助子萱&杜帆处理 数据清洗过程中出现的各种“疑难杂症”,保障数据清洗工作正常推进;
符号清洗-帆帆
正则编写
1)联系工具团队,按照通用符号规则写正则,正则写好后,安排各语种各垂类数据第一轮清洗;
数据质检
2)检查第一轮输出数据字段是否对齐,若存在字段问题,则拉通清洗团队优先解决字段问题; 3)第一轮数据产出后交由语种人员质检,将需要补充或修改的符号补充到规则表里,规则补充完毕之后,质检并整理新增规则,然后联系清洗团队根据质检结果第二轮清洗数据,清洗好的数据再交由语种人员质检,反复多轮;
仅符号数据进行人工清洗
4)经过多轮工具清洗无问题后,联系语种专家对【仅符号】文件进行人工清洗; 5)完成人工清洗后,联系清洗团队检查是否存在常用符号,如存在,则联系语种专家再次清洗;
去重空格
6)联系清洗团队对所有清洗后的数据进行去空格处理;
提取缩略词
7)联系清洗团队对所有清洗后的数据进行缩略词提取;
数据去空文件、地区分类、交付层级、按地区统计量级
8)联系实习生,将最终清洗好的数据去空文件、地区分类、交付层级、按地区量
数字清洗-子萱
数字映射表制定、验证测试
1)联系语种人员,收集语种数字映射规则及数字映射表,拉通语种人员与清洗团队沟通数字映射规则可行性,产出工具初版代码进行数据映射测试,通过多次测试代码无误后正式跑第一轮数据;
检查字段对齐问题
2)检查第一轮输出数据字段是否对齐,若存在字段问题,则拉通清洗团队优先解决字段问题;
清洗后数据质检
3)第一轮数据产出后交由语种人员质检,联系清洗团队根据质检结果第二轮清洗数据,清洗好的数据再交由语种人员质检,反复多轮;
缩略词提取-帆帆、子萱
方案
大模型
上平台
采购数据验收-成莲
1、制定采购数据验收方案 2、确定采购数据验收标准
数据下载比对更新量级
DL-帆帆
数据DL 1、跟飞数DL团队沟通数据DL需求(DL频率、效率、返回周期等) 2、辅助FS解决数据DL过程中遇到的问题 3、调研音乐热歌榜信息,判断是否需进行DL,如果需要的话,制定DL方案和清洗计划,然后安排FS团队进行DL,数据DL后安排语种人员质检; 2)调研全球电台网站,撰写DL文档,安排FS团队进行DL,数据DL后安排语种人员质检; 3)每月SpotifyDL数据返回后,安排各语种人员质检; 4)每日DL俄语热歌榜数据返回后需每周一安排语种人员人工清洗一次
实体清洗流程优化-尹金帆、成莲
工具流优化-尹金帆、成莲、杜帆
提取符号、数字、缩略词工具测试集
帆帆
1)协助东哥团队完成质检抽样工具开发。
2)协助飞数团队完成实体库去重工具搭建,并准备测试数据,验证工具可行性,实现清洗前和清洗后去重,完成24年历史数据去重。
工具串联
3)协助东哥团队和飞数团队完成数据格式治理工具搭建,并准备测试数据,验证工具可行性,完成数据治理、数据清洗、规整入库、数据去重流程各清洗工具串联;
去重-成莲
1、跟飞数团队沟通清楚需求(规整入库、交付去重、交付增量去重、实体库搭建清洗前去重、实体库搭建清洗后去重)提供各项需求文档,保障需求如愿实现; 2、解决处理去重过程中遇到的各种问题(数据字段不对应、存储层级不一致、数据格式不一致等)
去重工具
数据规整工具
LLM参与
LLM测试集
1)待谦益、彭文完成新版测试集的制作,准备测试数据,完成测试,输出测试结果; 2)跟东哥团队、飞数团队协作完成工具提取数据符号缩略词与大模型生成语种规则衔接; 3)跟磊奇团队、东哥团队拉通实体流程优化,完成大模型与清洗工具衔接; 工具流:
飞数工具优化跟进
高频实体-尹金帆
摸底现有数据情况
各语种垂类category,省市县poi数据分类
我们掌握多少poi,覆盖多少地区(分子)
覆盖多少类别(分子)
确认高频实体定义、热度指标
调研
数据源
汽车厂商导航软件调研
母语者调研数据源
调研外国有无大数据分析poi热度
地图厂商是如何知道自己的覆盖度的?
实体数据DL
现有数据摸底
DL方案
输出生成方案
研究、产品沟通
实体库搭建-尹金帆
数据库选型
实体库方案敲定,明确里程碑、排期
实体数据标准化,沉淀数据设计文档(字段定义、数据类型等)、数据备份
制定数据的备份策略,如全量备份和增量备份的时间间隔、备份文件的存储位置等,同时记录恢复数据的操作步骤和方法,以应对数据丢失或损坏等情况。
数据更新和维护:建立数据更新监控和人工审核流程,定期对实体库数据进行更新和维护,保证数据的及时性和准确性。
北欧四语种数据清洗(3月): 1.数据去重;2、数据数字符号捞取;3、劳务制定规则;4、质检人员