芯片微缺陷检测数据集（YOLO格式）-2zcode

摘要：本数据集针对芯片制造中微小缺陷检测难、人工检测效率低等问题，构建了包含7810张图像、12119个标注框的YOLO格式数据集，涵盖划痕、引脚、污染、封装四类缺陷，支持5-7像素微小目标的高精度检测模型训练与评估。

数据集简介

本数据集包含7810张芯片图像和12119个缺陷标注框，采用YOLO格式标注划痕、引脚、污染、封装四类微小缺陷，支持高精度检测模型训练。

数据集概述

本数据集专为芯片微缺陷检测任务构建，包含7810张高分辨率芯片图像，共标注12119个缺陷目标。数据集采用标准YOLO格式，涵盖划痕（Scratch）、引脚（Pin）、污染（Contamination）、封装缺陷（Package）四大类别，按7:2:1比例划分为训练集（5467张）、验证集（1561张）和测试集（782张）。所有图像来自真实生产环境，缺陷尺寸覆盖5-7像素的微小目标，对检测算法的分辨率和精度提出了较高要求。数据集支持主流深度学习框架直接调用，可用于目标检测模型的训练、验证和性能评估，为芯片制造过程中的智能质量控制提供数据支撑。

数据集来源

本研究所使用的数据集为芯片微缺陷检测数据集，图像数据来源于芯片生产线场景下芯片表面图像的采集、整理与筛选，并在预处理后形成适用于目标检测任务的数据集。所有图像均采用YOLO格式进行边界框标注，目标类别定义为划痕（scratch）、引脚（pin）、污染（contamination）、封装缺陷（package）四类，共计标注了12119个缺陷实例。整个标注过程遵循统一规范，以保证数据标注的一致性和准确性，为后续YOLO11-P2-MDH模型训练、性能评估以及系统应用提供了可靠的数据支撑。

类别定义

标注规范

标注采用 YOLO 格式：每个目标一行，字段为 class x_center y_center width height，坐标均为相对归一化（0~1）。

图1 标注规范图

数据规模与划分

总图像数：7,810张；总标注框数：12,119个

图2 数据集在训练、验证和测试集上的分布

数据集按照约 70:20:10 的比例划分为训练集、验证集和测试集：

图3 数据集划分及用途说明

质量控制

标注采用双阶段质量控制流程：首先进行规范化标注与自检，确保目标框贴合实例外接矩形且类别一致；随后进行抽样复核，针对漏标、错标与框位置偏差进行纠正。对争议样本进行二次确认，以提高跨标注者一致性与总体标注可靠性。

数据格式与使用

数据集采用标准 YOLO 格式组织，通过 data.yaml 配置文件即可快速集成到训练流程中。

目录结构

数据集采用标准 YOLO 格式组织，图像和标注文件分别存放在 images/ 和 labels/ 目录下，并按训练集、验证集、测试集划分。

性能评测

基于 YOLO11 模型在本数据集上进行训练和评测，使用mAP@0.5与mAP@0.5:0.95等标准指标对模型检测效果进行评估。评测结果如下：

训练过程综合指标曲线图

图3 训练与验证指标随Epoch变化趋势图

精确率-召回率（PR）曲线图

图4 目标检测PR曲线（Precision-Recall）

F1分数-置信度阈值曲线图

图5 不同置信度阈值下的F1曲线

归一化混淆矩阵图（分类误判分析）

图6 归一化混淆矩阵（person / leaflet）

应用案例

案例1：基于改进YOLO11算法的芯片微缺陷检测系统

图7 应用案例：基于改进YOLO11算法的芯片微缺陷检测系统

免责声明与引用

数据仅用于科研与教学用途。若用于商业场景，请自行核验数据许可。如需引用，请在论文或报告中注明数据集名称与版本号。

作者信息

作者：Bob (张家梁)
项目编号：Datasets-19
数据大小：886M
原创声明：本项目为原创作品

开源协议

本项目采用AGPL-3.0开源协议，允许个人和组织自由使用、修改和分发代码，但基于本项目的衍生作品必须同样开源，且用于提供网络服务时需向用户提供完整源代码。本项目仅供学习研究使用，作者不对使用本项目产生的任何后果承担责任，使用者应遵守当地法律法规，合理合法使用本项目。如本项目对您的研究或工作有所帮助，欢迎引用并注明出处。

版权声明：本站除特别标注外的所有源码与资料均为原创，受《中华人民共和国著作权法》等相关法律保护。未经本站事先书面许可，任何个人或机构不得以复制、转载、爬取、汇编、改写、引用等方式使用本站内容，不得将本站内容发布或用于任何形式的商业活动。对未经授权使用本站内容的行为，本站保留追究法律责任的权利，包括但不限于要求删除、赔偿、诉讼等。如认为本站内容侵犯其合法权益，请提供权属证明并联系我们，我们将在核实后依法及时处理。

芯片微缺陷检测数据集（YOLO格式）

数据集简介

数据集概述

数据集来源

类别定义

标注规范

数据规模与划分

质量控制

数据格式与使用

目录结构

性能评测

训练过程综合指标曲线图

精确率-召回率（PR）曲线图

F1分数-置信度阈值曲线图

归一化混淆矩阵图（分类误判分析）

应用案例

免责声明与引用

作者信息

开源协议

评论(0)

提示：请文明发言取消回复

作者信息

文章展示