农业典型作业场景多模态数据集
推荐单位:农业农村部
申报单位:中国农业科学院农业信息研究所
一、背景
高质量农业数据集建设是推动AI赋能农业科技创新的关键基础,但面临缺数据、弱标注、低利用的难题。针对农业科技创新及产业数智化发展需求,本案例建立了“多源采集-智能标注-动态更新”的标准化数据集建设流程,形成覆盖多个农业典型场景的多模态数据集,支撑AI算法研发、模型搭建和智能装备创制,有效提升算法模型有效性和辅助决策的精确性,服务产业核心环节智能化创新。
数据集建设基本框架图
二、方案和成效
一是形成“多源采集-智能标注-动态更新”的标准化流程,确保数据精准、可用。从实际生产需求出发,与生产单位深入合作,保证采集数据的真实性和多样性;面向特定任务需求,开发5套针对性的半监督标注软件,保证数据标注的高效性和准确性;联合算法和机械工程师,建立数据回馈机制,在用户使用过程中,实现数据实时回传,确保数据集的动态可拓展。
二是面向科研、生产和作业三大板块,形成“算法研发-装备创制-平台搭建”的数据应用体系。面向科研,形成申请-授权使用机制,与需求单位形成协同创新格局;面向生产管理,以多模态数据为支撑,研发“感知-决策”系列模型,搭建智慧管理系统;面向作业,支撑采摘及分级两大类作业装备创制,有效节省劳动力10%以上。
三是形成“数据共享+产业落地”双轮驱动的数据服务范式。在整合形成农业典型作业场景多模态高质量数据集的基础上,初步形成了“申请-授权”的数据共享机制,支撑数据驱动农业科技创新;以“农业机器人应用示范-系统平台产业服务”的模式,通过支撑AI算法创新迭代,提升软硬件平台面向产业和商业端的服务能力和推广范围,强化农业高质量数据集的产业服务能力,提升AI赋能农业科技创新的大众认可度。
三、创新点
一是产学研贯通保证数据精准全面。以生产单位数智化发展实际需求为驱动,以科技底盘技术创新需求为依据,联合生产、管理企业,在合作社等生产基地开展全生命周期数据采集,创新形成“采-存-注-规-用”一体的数据集建设作业体系。
二是独创工具提升数据标注效能。创新利用数字孪生等技术实现数据增广的同时增加数据规范性,依据不同数据标注需求开发半监督标注软件,支持人机交互修订,提升多人标注数据统一性及准确性。
三是数据共享机制推进农业开源生态建设。形成“学术创新开源共享,数据资源申请授权”的数据共享方式,以数据“生产-制造-使用”协同,探索农业“数据链、产业链、创新链”协同发展的创新路径,助力农业开源生态建设。
分享到: