自动摘要: 简介 以python为核心的数据整理工具,数据主要由AIStudio工具提供; 数据分类 1.原始数据:以关系数据库为核心,数据以编码形式存储,方便查询联系,如文本<>图像之间 ……..
简介
以python为核心的数据整理工具,数据主要由AI Studio工具提供;
数据分类
- 原始数据:以关系数据库为核心,数据以编码形式存储,方便查询联系,如文本<–>图像之间关系;
- 文本类
- 图像类
- 图形类
- 语音类
- 用户行为类
- 视频类
- 医疗数据类
- 校验数据:人工核对,并标记相关数据;
- 真实性
- 完整性
- 关联性
- 精确性
- 及时性
- 预处理数据:以业务为导向,以json为枢纽,方便各种编程语言调用;
- 文本类—提供处理插件,统一为GLUE格式
- 图像类—提供处理插件,统一为VOC格式
- 图形类—提供处理插件,统一为shapenet格式
- 语音类–提供处理插件,统一为Universal Dependencies格式
- 用户行为类–提供处理插件,统一为OGB 格式
- 医疗数据类–提供处理插件,统一为MIMIC-III格式
- AI数据:根据特定任务处理生成的数据;
- 2d分割
- 3d分割
- 2d检测
- 3d检测
- 3d重建
- 2d生成
- 文本生成
- 文本理解
- 视频理解
- 行为模拟
- 姿态识别
- 视觉问答
- 图像修复
- 模仿学习
界面
应包含功能:
- 任务:用于记录审核人员及完成情况
- 全屏数据预览:用于快速预览一个批次数据,方便快速找出异常数据
- 数据筛选:用于快速筛选关键词数据
- 数据导出:提供各种脚本支持规范导出。
- 数据导入:支持从AI studio支持导入数据;
- 自动数据备份:用于容灾备份,可以实现离线备份。