摘要:本数据集针对芯片制造中微小缺陷检测难、人工检测效率低等问题,构建了包含7810张图像、12119个标注框的YOLO格式数据集,涵盖划痕、引脚、污染、封装四类缺陷,支持5-7像素微小目标的高精度检测模型训练与评估。
数据集简介
本数据集包含7810张芯片图像和12119个缺陷标注框,采用YOLO格式标注划痕、引脚、污染、封装四类微小缺陷,支持高精度检测模型训练。
数据集概述
本数据集专为芯片微缺陷检测任务构建,包含7810张高分辨率芯片图像,共标注12119个缺陷目标。数据集采用标准YOLO格式,涵盖划痕(Scratch)、引脚(Pin)、污染(Contamination)、封装缺陷(Package)四大类别,按7:2:1比例划分为训练集(5467张)、验证集(1561张)和测试集(782张)。所有图像来自真实生产环境,缺陷尺寸覆盖5-7像素的微小目标,对检测算法的分辨率和精度提出了较高要求。数据集支持主流深度学习框架直接调用,可用于目标检测模型的训练、验证和性能评估,为芯片制造过程中的智能质量控制提供数据支撑。
数据集来源
本研究所使用的数据集为芯片微缺陷检测数据集,图像数据来源于芯片生产线场景下芯片表面图像的采集、整理与筛选,并在预处理后形成适用于目标检测任务的数据集。所有图像均采用YOLO格式进行边界框标注,目标类别定义为划痕(scratch)、引脚(pin)、污染(contamination)、封装缺陷(package)四类,共计标注了12119个缺陷实例。整个标注过程遵循统一规范,以保证数据标注的一致性和准确性,为后续YOLO11-P2-MDH模型训练、性能评估以及系统应用提供了可靠的数据支撑。
类别定义

标注规范
标注采用 YOLO 格式:每个目标一行,字段为 class x_center y_center width height, 坐标均为相对归一化(0~1)。

图1 标注规范图
数据规模与划分
- 总图像数:7,810张;总标注框数:12,119个

图2 数据集在训练、验证和测试集上的分布
数据集按照约 70:20:10 的比例划分为训练集、验证集和测试集:

图3 数据集划分及用途说明
质量控制
标注采用双阶段质量控制流程:首先进行规范化标注与自检, 确保目标框贴合实例外接矩形且类别一致;随后进行抽样复核, 针对漏标、错标与框位置偏差进行纠正。对争议样本进行二次确认, 以提高跨标注者一致性与总体标注可靠性。
数据格式与使用
数据集采用标准 YOLO 格式组织,通过 data.yaml 配置文件即可快速集成到训练流程中。
目录结构

数据集采用标准 YOLO 格式组织,图像和标注文件分别存放在 images/ 和 labels/ 目录下,并按训练集、验证集、测试集划分。
性能评测
基于 YOLO11 模型在本数据集上进行训练和评测,使用mAP@0.5与mAP@0.5:0.95等标准指标对模型检测效果进行评估。评测结果如下:
训练过程综合指标曲线图

图3 训练与验证指标随Epoch变化趋势图
精确率-召回率(PR)曲线图

图4 目标检测PR曲线(Precision-Recall)
F1分数-置信度阈值曲线图

图5 不同置信度阈值下的F1曲线
归一化混淆矩阵图(分类误判分析)

图6 归一化混淆矩阵(person / leaflet)
应用案例

图7 应用案例:基于改进YOLO11算法的芯片微缺陷检测系统
免责声明与引用
数据仅用于科研与教学用途。若用于商业场景,请自行核验数据许可。 如需引用,请在论文或报告中注明数据集名称与版本号。
作者信息
作者:Bob (张家梁)
项目编号:Datasets-19
数据大小:886M
原创声明:本项目为原创作品

开源协议
本项目采用AGPL-3.0开源协议,允许个人和组织自由使用、修改和分发代码,但基于本项目的衍生作品必须同样开源,且用于提供网络服务时需向用户提供完整源代码。本项目仅供学习研究使用,作者不对使用本项目产生的任何后果承担责任,使用者应遵守当地法律法规,合理合法使用本项目。如本项目对您的研究或工作有所帮助,欢迎引用并注明出处。


评论(0)