0%

数据整理规范V1

自动摘要: 修订历史 |版本|修订内容|修订时间|修订人| ||||| |V1.0.0|定义数据标准|20221026|[@sin ……..

修订历史

版本 修订内容 修订时间 修订人
V1.0.0 定义数据标准 2022-10-26 @sindre(sindre)
v1.1.0 确定以@朱远翔(zhuyuanxiang)格式为标准 2022-01-01 @朱远翔(zhuyuanxiang)@sindre(sindre)
v1.1.1 修订注意事项 2022-06-15 @sindre(sindre)

数据来源

  1. 自己改造数据
  2. 无中生有数据
  3. 真实数据

数据整理标准

  • Completeness:完整性,用于度量哪些数据丢失了或者哪些数据不可用
  • Conformity:规范性,用于度量哪些数据未按统一格式存储
  • Consistency:一致性,用于度量哪些数据的值在信息含义上是冲突的
  • Accuracy:准确性,用于度量哪些数据和信息是不正确的,或者数据是超期的
  • Uniqueness:唯一性,用于度量哪些数据是重复数据或者数据的哪些属性是重复的
  • Integration:关联性,用于度量哪些关联的数据缺失或者未建立索引

验证数据标准:

  • Dataset:被评估的数据集
  • Indicators:评估指标
  • Rule:评估规则
  • Weight:权重
  • Expectation:期望
  • Score:结果

数据整理工作规范:

数据产生–>加工处理–>存储–>挖掘和应用

数据生命周期:

产生–>处理–>部署–>应用–>管理–>存档–>销毁–>产生

数据处理原则

  1. 数据预处理
    1. 与模型设计人员沟通,确认数据需求(数量、内容、质量)
    2. 与技术负责人沟通,确认存在的开源数据集
    3. 与数据生产人员沟通,确认数据生产的边界
    4. 尽早建立数据生产规范(数据产生–>加工处理–>存储–>挖掘和应用)
  2. 数据标注任务
    1. 尽早建立数据生命周期(产生–>处理–>部署–>应用–>管理–>存档–>销毁–>产生)
    2. 尽量寻找自动化标注工具
    3. 尽量明确制定数据标注的标准(数据的类别、目标;数据的遮挡、局部处理;数据的边界范围;异常数据的处理;数据标注的规范;数据命名的规范。。。)
    4. 尽量参考存在的数据集制定标注的标准
  3. 验证数据可用性
    1. 尽早确定数据生产标准
      • Completeness:完整性,用于度量哪些数据丢失了或者哪些数据不可用
      • Conformity:规范性,用于度量哪些数据未按统一格式存储
      • Consistency:一致性,用于度量哪些数据的值在信息含义上是冲突的
      • Accuracy:准确性,用于度量哪些数据和信息是不正确的,或者数据是超期的
      • Uniqueness:唯一性,用于度量哪些数据是重复数据或者数据的哪些属性是重复的
      • Integration:关联性,用于度量哪些关联的数据缺失或者未建立索引
    2. 尽早进行数据验证(先标注一部分,测试通过后,再标注后面的数据)
    3. 尽早标注一套标准数据,供其他辅助标注人员参考使用
    4. 尽早构造数据生成闭环“生成数据集->跑baseline->badcase study->更新策略->重新生成数据集”

注意事项:

  1. 适可而止的预处理
    1. 一些跟类别标签相关的有效模式,导致一些本来成立的X->Y的映射关系因此消失了
    2. 减少了模型对抗噪声的学习机会,你无法消除所有噪声,但是却消除了很多模型识别噪声适应噪声的学习机会
  2. 验证可用性,尽早构造数据集迭代闭环
    1. 无论是人工标注的还是远程监督标注的,数据集看起来做好了不代表就是可用的
    2. 绝对不要抱着将数据集一次做成的心态,而是要尽早构造一个“生成数据集->跑baseline->badcase study->更新策略->重新生成数据集”的闭环
  3. 标注任务,标注格式,
    1. 尽量使用开源数据集,用优化算法节约标注成本
  4. 尽可能定义清楚标准任务的细节。
    1. 哪些类别、目标是要标注的;
    2. 遮挡、局部怎么处理;极限的目标大小范围;
    3. 不清楚、不确定的怎么处理;标注框的规范;
    4. 图片是否统一大小;
    5. 图片的命名规范;
  5. 有公用数据的,尽量用公用数据集;
  6. 数据集对模型性能的影响真的很大。
  7. 尽量参考已有的数据集去制定标注标准,
    1. 如果没什么能参考的,自己先标一部分,跑跑效果看看是否需要修改标注标准之后,再标剩下的。当然预标数量不能太少,太少的话模型拟合不了。
  8. 找人一起标注的时候,自己首先要标一批,然后让他们跟着标一些样本,先确认完大家标准一致后再让他们标剩下的部分

欢迎关注我的其它发布渠道