常见问题
1. 标注质量如何保障?
质量往往与效率存在矛盾,平台如何确保高效交付的同时维持高准确性?
艾欧已经运营数据业务长达一年多,累计标注处理的数据超过300TB,积累了宝贵的运营经验。
- 效率提升:对于相似的数据,平台会结合以往的正确标注历史,给出下一个标注的选择建议,大幅提高大批量数据的标注效率。
- 质量提升:对于错误标注,会有算法对比是否和大多数相似,如果是异类会有相应提示重点检查。
是否有自动化预标注或AI辅助标注技术(如主动学习)的应用?
我们支持利用大语言模型来检查校验上下文标注语义(通过调用腾讯云提供的Deepseek API接入)。 未来计划接入图像识别引擎来追踪检测目标物体,实现更加自动化的标注。
2. 标注团队如何管理?
如何量化标注员效率与质量(如错误率统计)?
审核员发现的问题都会记录在数据库,在项目详情可以统计每个人的错误/正确数量统计。
是否采用动态任务分配(如将复杂任务分配给高经验标注员)?
项目经理可以调整和分发数据标注与审核任务,后期可引入任务池让高效率标注员自行领取任务。
针对主观性较强的标注任务(如动作意图识别),如何通过审核机制减少歧义?
可以通过每天review标注审核的情况,以会议或消息的形式通知标注员,对齐大家的标准。
复杂场景的标注标准如何制定?
- 每个项目的标注规则库可以独立,且支持按项目去区别定制(默认是共享的)
- 另外项目经理或有经验可以提前标注一两条数据作为模板,供后续自动化算法提示和标注员参考。
3. 数据质量如何保障?
如何解决多模态数据时间对齐和一致性校验?
- 在预处理打包阶段完成对齐的,对艾欧的数据采集设备来说,已经无缝打通,无需二次开发。如果是客户自定义的数据,还需要做一些适配工作,因为时间戳对齐依赖采集设备的参数信息。
- 一致性校验也是在进入平台前的预处理环节完成,比如掉帧率检测,时间差异检测等,并且会可视化查看。