导图社区 数据标注
这是一篇关于数据标注的思维导图,主要内容包括:数据标注概念,数据标注主要分类,数据标注涉及的环节,标注工具,数据标注的验证指标,数据标注任务有哪些类型。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
数据标注
数据标注概念
运用标注工具对视频、文本、图片、语音等数据进行筛选、清洗、分类、注解、表记和质检等加工过程,并转化为机器可识别的过程,给数据赋予灵魂,让杂乱无章的数据变得有序且有意义
数据标注主要分类
图像标注
文本标注
视频标注
语音标注
目标检测标注
语义分割标注
关键点标注
数据标注涉及的环节
1、需求分析与任务定义
明确目标:确定标注类型和模型的应用场景 制定标注规范 定义标签体系 标注粒度 对模态对齐规则 示例:自动驾驶中需要标注车辆、行人、交通标志的2D/3D框
2、数据采集与预处理
数据来源 公共数据 业务数据 合成数据 预处理 清洗;去除模糊、重复、无关数据 格式统一;转换图片分辨率、音频采样率、文本编码等 数据增强;对稀缺样本数据进行旋转、裁剪、加噪等操作
3、标注工具与平台选择
工具类型 通用工具;LableImg、VIA(多模态标注)、Prodigy(交互式标注) 定制工具;针对特殊场景特殊需求开发 关注功能 支持多模态协同标注 自动化标注辅助(预标注、纠错能力) 多人协作与版本管理
4、标注实施
标注方式 人工标注 半自动标注 主动学习 质量控制 标注指南;提供详细样例和易错点说明 多人标注与交叉验证 实时审核与反馈机制
5、质量检验与验收
检验方法 抽样检查;随机抽查标注结果 一致性评估;同一数据由多人标注,计算一致性分数 黄金数据;插入已经样本的数据,测试标注员的水平 常见问题 标签遗漏 边界模糊 模态冲突
6、数据管理与版本控制
数据存储 结构化存储原始数据与标签 版本管理:记录标注迭代过程 元数据记录 标注人员、时间、审核状态..... 数据来源、版本信息、敏感数据脱敏记录
7、数据交付与应用
输出格式;适合主流的框架(TFRecord、PyTorch Dataset 数据拆分;划分训练集、验证集、测试集(70:15:15) 持续迭代 根据模型表现反馈优化标注(如增加难样本标注) 增量学习;补充新场景数据并更新标签
8、特殊环节
多模态对齐 时间同步(视频帧与语音时间戳对齐) 空间同步(3D点云与2D图像的坐标映射
标注工具
多模态标注工具
Lable Studio
开源:支持图像、视频、语音、文本时间序列等多种数据的标注 功能:分类、目标检测、实体识别、情感分析
CAVT
功能:目标检测、语义分割、关键点标注、视频足帧标注
图像/视频
LableImag
简单的目标检测
VIA
多边形、语义分割
文本
Brat
实体识别、关系标注
Doccano
文本分类、翻译对齐、序列标注
LightTag
专注NLP标注(实体、情感)
语音
Praat
子主题
3D/点云标注
lableBox
支持2D/3D标注,团队协作
CouldCompare
3D点云分割和标注
数据标注的验证指标
数据标注任务有哪些类型