摘要:本数据集包含5,408张茶叶病虫害图像,共标注7,273个目标框,涵盖7类病虫害:茶树黑腐病、茶树褐斑病、茶树叶锈病、红蜘蛛侵染、茶蚊虫侵染、健康茶叶和茶树白斑病。数据集按照70%:20%:10%的比例划分为训练集(3,785张)、验证集(1,082张)和测试集(541张),总大小126MB,采用YOLO格式标注。
数据集简介
本研究构建了一个涵盖6类耐张线夹压接缺陷的目标检测数据集,共2,976张图像、4,032个标注框,按7:2:1划分为训练集、验证集和测试集,采用YOLO标注格式。
数据集概述
本数据集专为茶叶病虫害智能检测而构建,包含5,408张高质量茶叶图像和7,273个精确标注框,覆盖茶树生产中常见的7类病虫害类型。数据集采用标准的训练集(3,785张)、验证集(1,082张)和测试集(541张)三分法,比例为70:20:10,符合深度学习模型训练的最佳实践。所有图像均采用YOLO格式标注,总数据量126MB,便于快速加载和训练。
数据集涵盖的7类目标包括茶树黑腐病、茶树褐斑病、茶树叶锈病、红蜘蛛侵染叶片、茶蚊虫侵染叶片、健康茶叶和茶树白斑病。类别分布呈现明显的长尾特征:茶蚊虫侵染样本占比最高(57.53%),茶树叶锈病次之(25.73%),红蜘蛛侵染占9.20%,而茶树褐斑病样本稀少(仅0.04%)。这种不平衡分布真实反映了茶园病虫害的自然发生规律,为模型学习提供了贴近实际应用的训练环境。
数据采集自多个茶园的实地拍摄,涵盖不同季节、光照条件、拍摄距离和叶片生长阶段,确保了数据的多样性和泛化能力。每张图像经过专业人员精细标注,标注框准确框定病虫害区域,为YOLOv8模型的训练提供了可靠的监督信号。该数据集为构建高精度茶叶病虫害检测系统奠定了坚实基础,支持从模型训练到实际部署的完整开发流程。
数据集来源
本研究所使用的数据集为自主构建,图像数据来源于多个茶园的实地拍摄,经筛选与预处理后获得5,408张有效图像。所有图像均由专业人员进行标注,采用YOLO格式的边界框标注方式,定义了茶树黑腐病、茶树褐斑病、茶树叶锈病、红蜘蛛侵染叶片、茶蚊虫侵染叶片、健康茶叶、茶树白斑病共7类病虫害目标,共计标注7,273个实例。标注过程中严格遵循统一的标注规范,以确保标注质量的一致性与准确性。
类别定义

标注规范
标注采用 YOLO 格式:每个目标一行,字段为 class x_center y_center width height, 坐标均为相对归一化(0~1)。

图1 标注规范图
数据规模与划分
- 总图像数:5,408张;总标注框数:7,273

图2 数据集在训练、验证和测试集上的分布
数据集按照约 80:10:10 的比例划分为训练集、验证集和测试集:

表1 数据集划分及用途说明
质量控制
标注采用双阶段质量控制流程:首先进行规范化标注与自检, 确保目标框贴合实例外接矩形且类别一致;随后进行抽样复核, 针对漏标、错标与框位置偏差进行纠正。对争议样本进行二次确认, 以提高跨标注者一致性与总体标注可靠性。
数据格式与使用
数据集采用标准 YOLO 格式组织,通过 data.yaml 配置文件即可快速集成到训练流程中。
目录结构

数据集采用标准 YOLO 格式组织,图像和标注文件分别存放在 images/ 和 labels/ 目录下,并按训练集、验证集、测试集划分。
使用方式
在训练脚本中指定 data.yaml 即可加载数据:

性能评测
基于 YOLOv8 模型在本数据集上进行训练和评测,使用mAP@0.5与mAP@0.5:0.95等标准指标对模型检测效果进行评估。评测结果如下:
训练过程综合指标曲线图

图3 训练与验证指标随Epoch变化趋势图
精确率-召回率(PR)曲线图

图4 目标检测PR曲线(Precision-Recall)
F1分数-置信度阈值曲线图

图5 不同置信度阈值下的F1曲线
归一化混淆矩阵图(分类误判分析)

图6 归一化混淆矩阵(person / leaflet)
应用案例

图7 应用案例:基于YOLOv8茶树病害智能诊断与防治系统
免责声明与引用
数据仅用于科研与教学用途。若用于商业场景,请自行核验数据许可。 如需引用,请在论文或报告中注明数据集名称与版本号。
作者信息
作者:Bob (张家梁)
项目编号:Datasets-11
数据大小:114M
原创声明:本项目为原创作品

开源协议
本项目采用AGPL-3.0开源协议,允许个人和组织自由使用、修改和分发代码,但基于本项目的衍生作品必须同样开源,且用于提供网络服务时需向用户提供完整源代码。本项目仅供学习研究使用,作者不对使用本项目产生的任何后果承担责任,使用者应遵守当地法律法规,合理合法使用本项目。如本项目对您的研究或工作有所帮助,欢迎引用并注明出处。


评论(0)