基于深度学习的课堂表情与行为识别学生专注度分析系统(YOLO11方法研究)-猿创-2zcode

摘要：随着人工智能和计算机视觉技术的迅猛发展，基于深度学习的课堂智能分析系统在教育领域逐渐成为研究热点。传统课堂教学难以实时了解学生的学习状态与专注度，教师往往依赖主观观察，缺乏客观、可量化的评价依据。为解决这一问题，本文设计并实现了一种基于深度学习的课堂学生行为与表情检测及专注度分析系统。

项目信息

编号：PCV-3
数据集：Dataset-3
大小：188M
作者：Bob(原创)

环境配置

开发工具：
– PyCharm的安装包：PyCharm: Python IDE for Professional Developers
– PyCharm的历史安装包：PyCharm: Python IDE for Professional Developers
– Anaconda的安装包：Anaconda | Start Coding Immediately

语言环境：Python == 3.12.0

依赖包：
– pip install numpy==2.2.6
– pip install opencv-python==4.12.0.88
– pip install pillow==11.3.0
– pip install PyQt==5.15.11
– pip install PyYAML==6.0.3
– pip install torch==2.6.0+cu124
– pip install torchvision==0.21.0+cu124
– pip install matplotlib==3.10.6
– pip install pandas==2.3.3
– pip install scipy==1.16.2
– pip install playsound==1.2.2

研究背景

随着“人工智能+教育”战略的推进，教育信息化已进入智能化发展阶段。课堂教学作为教育活动的核心场景，教师在教学过程中通常通过观察学生的表情、动作等外在表现来判断其学习状态与专注程度。然而，这种方式受限于教师的主观经验与观察范围，难以在多人、多角度的复杂环境中实现准确判断。如何利用计算机视觉与深度学习技术，对学生课堂行为和情绪状态进行自动化检测与分析，成为智慧教育领域的研究热点。

近年来，深度学习模型在图像识别、目标检测与情绪识别方面取得了显著进展。其中，YOLO 系列算法以其高检测精度与实时性，被广泛应用于安全监控、驾驶辅助及人机交互等场景。结合表情识别与行为识别技术，可以实现对学生课堂状态的多维度分析，为课堂专注度评估提供客观依据。同时，通过可视化界面将检测结果直观呈现，能够辅助教师实时了解学生的注意力变化，从而优化教学策略，提升课堂效率。

本研究以 YOLOv11 为核心检测算法，结合 PyQt5 图形化界面设计，构建了一套课堂学生行为与表情检测及专注度分析系统。该系统不仅能够实现多类别行为与表情的实时检测，还能融合两者特征进行专注度计算与提示，为智慧课堂的建设提供重要参考价值。

算法概述

YOLOv11 在今年早些时候发布的 YOLOv9 和 YOLOv10 的基础上进行了显著的改进，融合了增强的架构设计、改进的特征提取技术以及优化的训练方法。与前几代版本相比，YOLOv11 的最大亮点在于其出色的速度、准确性和效率的平衡，使其成为 Ultralytics 迄今为止创建的最强大的目标检测模型之一。通过改进的设计，YOLOv11 在特征提取方面提供了更强的能力，能够更精准地从图像中识别出重要的模式和细节。尤其是在复杂和具有挑战性的场景中，YOLOv11 能够更加准确地捕捉和解析图像中的细节信息，从而显著提高了检测的精度。

值得注意的是，YOLO11m 在 COCO 数据集上实现了更高的平均精度均值 (mAP) 分数，同时比 YOLOv8m 使用的参数减少了 22%，从而在不牺牲性能的情况下计算量更轻。这意味着它在运行效率更高的同时，提供了更准确的结果。最重要的是，YOLO11 带来了更快的处理速度，推理时间比 YOLOv10 快 2% 左右，使其成为实时应用的理想选择。

图1 YOLO11网络结构图

它旨在处理复杂的任务，同时更易于使用资源，并旨在提高大规模模型的性能，使其非常适合要求苛刻的 AI 项目。增强管道的增强功能也改进了训练过程，使 YOLO11 更容易适应不同的任务，无论您是从事小型项目还是大型应用程序。

事实上，YOLO11 在处理能力方面非常高效，非常适合在云和边缘设备上进行部署，从而确保了不同环境中的灵活性。简而言之，YOLO11 不仅仅是一次升级；它是一个更准确、更高效、更灵活的模型，能够更好地应对任何计算机视觉挑战。无论是自动驾驶、监控、医疗成像、智能零售还是工业用例，YOLO11 都具有足够的多功能性，可以满足几乎任何计算机视觉应用。

图2 Latency T4 TensorRT10 FP16 (ms/img)

YOLOv11 提供了最佳的 mAP 精度，并在推理延迟方面与其他版本相比取得了较好的平衡，清晰展示了随着版本升级，YOLO 在准确性和速度之间的权衡，同时突显了 YOLOv11 在优化后的性能优势，使其成为实时应用的理想选择。

图3 YOLO11模型应用示例：分类、检测、分割、追踪与姿态识别

表1 YOLO11模型功能与应用分类

YOLOv11模型在YOLOv8的基础上进行了开发，尽管在整体网络架构上变化较小，但引入了一些关键性改进。在网络结构方面，YOLOv11采用了C3K2模块替代了YOLOv8中的C2和C3模块。此外，YOLOv11还引入了一个类似自注意力机制的特征增强模块——C2PSA，以进一步提升特征表达能力。检测头部分保留了YOLOv8的设计，因此后处理和解析步骤在YOLOv11中与YOLOv8保持一致。

系统设计

本系统主要应用于课堂环境中学生行为和表情的自动检测与分析，整体采用“数据输入 + 模型推理 + 结果展示”的一体化模式。系统流程分为图像输入模块、图像预处理模块、数据集准备模块、YOLOv11 训练模块、推理与检测模块、界面与用户交互模块、检测结果展示模块以及实验结果与性能评估模块。系统前端通过图形用户界面支持学生图像数据的导入和操作交互，后端则采用经过训练的 YOLOv11 模型，该模型在行为检测与表情识别上展现出了高效性与准确性，适用于课堂教学过程中的实时监控、学生专注度评估和教学辅助等场景。

图3 学生专注度分析系统整体流程图

在系统运行过程中，用户通过界面输入学生的课堂影像数据，图像数据随后传递至图像预处理模块进行优化处理。经过数据集准备模块的处理，数据被传送至训练好的 YOLOv11 模型进行目标检测与行为表情分析。推理与检测模块生成检测结果，并通过界面与用户交互模块展示这些结果。所有检测结果以实时方式呈现，包括行为与表情的识别框、置信度分数以及专注度评价，便于教师及时掌握学生的课堂状态。

在专注度评估过程中，系统自动检测学生的行为与表情，并依据这些信息判断学生是否出现专注度异常（如打瞌睡、走神等）。当检测到专注度异常时，系统通过语音提醒功能发出警告：“学生专注度异常，请注意。”此语音提醒功能为教师提供实时反馈，帮助其迅速采取应对措施，确保学生维持良好的学习状态，从而优化课堂管理效果。

数据集构建

1.数据来源
本系统所使用的学生行为与表情图像数据主要来源于 Google 图片搜索。通过对大量公开的课堂环境图像进行收集和整理，构建了一个涵盖多种学生行为与表情的多样化数据集。图像数据集包括了学生在不同课堂场景下的行为表现（如举手、听讲、写字、睡觉等）以及各种情绪状态（如平静、高兴、困倦、惊讶等）。该数据集的建立旨在推动深度学习与人工智能技术在课堂监控和学生专注度分析中的应用，并为系统的行为识别与情绪分析提供高质量的训练数据。

表2 学生行为与表情的数据集基本信息

本系统所使用的学生行为与表情图像数据主要来源于 Google 图片搜索。通过收集和整理大量公开的课堂环境图像，并配有人工标注信息，数据集覆盖了学生在不同课堂场景下的行为表现（如举手、听讲、写字、睡觉等）以及多种情绪状态（如平静、高兴、困倦、惊讶等），具有类别丰富、标注规范和研究价值高的特点。

图4 数据集图片

本研究在对原始学生行为与表情图像数据进行清洗与筛选后，构建了包含4个类别学生行为数据集和4个类别学生表情数据集。该数据集的类别分布较为均衡，全面涵盖了常见的学生行为（如举手、听讲、写字、睡觉）和表情（如平静、高兴、困倦、惊讶），能够较为真实地反映课堂学生的实际情况。数据集中学生行为与学生表情保持了合理的比例分布，为后续基于 YOLOv11 的学生专注度检测模型训练奠定了坚实的数据基础。

2.标注方法
本系统所使用的学生行为与表情图像数据的标注信息由标注人员完成。每张图像均对应一个明确的行为或表情类别，例如举手、听讲、写字、睡觉等学生行为，以及平静、高兴、困倦、惊讶等学生表情。为确保标注的准确性和可靠性，标注过程由人工独立完成，并通过交叉验证的方式进行审核，从而有效降低个体差异带来的偏差，确保数据标注的一致性和权威性。

（1）YOLO 图像目标检测标注格式
该标注格式主要用于目标检测任务，常见于 YOLO11 等深度学习模型的训练。其方法是对图像中的行为和表情区域进行边界框标注，并将其转换为 YOLO 统一的归一化形式（class, x_center, y_center, width, height）。这种标注方式能够保证数据与模型在训练与推理过程中的高效匹配，从而提升目标检测与分类的准确性。

（2）数据集划分
标注后的数据集不仅包括图像文件，还包含对应的标注信息。经过上述所有步骤处理和验证后的图像数据被划分成训练集、验证集和测试集，形成最终的数据集，用于算法训练学习模型。

图5 数据集划分：测试集、验证集和训练集

以下是数据集的具体含义及每个数据集的作用：

表3 数据集概述

3.数据增强
为了扩展样本的多样性，抑制模型的过拟合问题，并提高模型对轻微形变目标的容错性，本研究在训练数据中应用了以下常见的数据增强策略：

图6 数据增强示例：不同变换操作应用于原始图像

以上处理与增强方法一起组成了训练前的数据预处理流程，使得YOLOv11模型具有了更具代表性和鲁棒性的训练样本，为后续系统在复杂课堂环境下稳定运行打下了良好的基础。

模型训练

YOLOv11 是一种常用于目标检测任务的深度学习模型。其训练过程主要包括以下几个步骤：配置文件与超参数的设置、训练过程的执行以及训练结果的可视化分析。

图7 YOLO11 模型训练流程图

1.配置文件与超参数设置
以下是关于 YOLO11 模型训练过程中的配置文件和超参数设置，使用 ultralytics 库下的 YOLO 模型加载预训练模型，并通过配置文件以及相关参数进行训练设置。

表4 YOLO11 模型训练超参数设置

2.模型性能评估
在 YOLO11模型的训练过程中，模型性能评估是衡量其在特定任务中表现的重要环节，能够全面反映模型在目标检测与分类等方面的能力。科学而准确的评估不仅有助于揭示模型的优势与不足，还能为后续的改进与优化提供可靠依据。
（1）YOLO11模型训练过程中的损失与评估指标可视化

图8 YOLO11 模型训练与验证过程的损失函数及性能指标曲线

该图展示了训练过程中各项损失（包括目标框损失、分类损失、DFL损失）以及评估指标（精度、召回率、mAP50、mAP50-95）的变化趋势，表明随着训练的进行，模型在训练集和验证集上的性能均逐步提升，损失逐渐降低，评估指标稳定提高，展示了良好的收敛性和优化效果

表5 YOLOv11 训练与验证集指标分析

（2）F1-置信度曲线（F1-Confidence Curve）

图9 F1-置信度曲线图

该图展示了不同学生行为和表情类别在不同置信度下的F1得分曲线，其中所有类别的F1得分在置信度为0.695时达到了1.00，表明在该置信度下，模型对于所有行为和表情类别的预测准确性都达到最佳。

（3）精确度-置信度曲线（P_curve）

图10 精度-置信度曲线图

该图展示了不同学生行为与表情类别在不同置信度下的精度（Precision）曲线，其中所有类别的精度在置信度为0.998时达到了1.00，表明在该置信度下，模型在所有类别的检测中都表现出极高的准确性。

（4）召回率-置信度曲线（R_curve）

图11 召回率-置信度曲线图

该图展示了不同学生行为与表情类别在不同置信度下的召回率（Recall）曲线，所有类别的召回率在置信度为0时均达到1.00，表明模型能够在低置信度下捕捉到几乎所有的正样本。

（5）精确度-召回率曲线（PR_curve）

图12 精度-召回率曲线图

该图展示了不同学生行为与表情类别的精确率-召回率（Precision-Recall）曲线，所有类别的精确率均接近1，表明模型在检测正样本时具有很高的准确性。

（6）混淆矩阵（Confusion Matrix）

图13 混淆矩阵图

该混淆矩阵展示了不同类别（学生行为与表情）之间的预测与真实标签的对比，模型在大部分类别（如听讲、平静、惊讶等）上的预测准确率较高，尤其是“听讲”和“平静”类别的预测效果较好，误分类主要集中在“困倦”和“睡觉”类别。

（7）训练日志（Training Log）
训练日志记录了模型在训练过程中的详细信息，包括训练轮数、每轮的损失值、验证结果以及推理时间等，帮助评估模型的训练效果和性能。

图14 训练日志

表5 模型训练日志概要

从这个日志输出来看，在150个训练轮次后，YOLO11模型在验证集上的性能表现，整体mAP50为0.995，mAP50-95为0.976，表明模型在各类学生行为与表情的检测上具有优秀的准确性和鲁棒性，且处理速度快速，推理和后处理时间分别为0.7毫秒和1.0毫秒，模型训练顺利完成并保存。

模型推断

训练完成后，模型会生成一个最佳训练结果文件 best.pt，该文件保存在 runs/detect/train/weights 目录下。我们可以使用该文件进行后续的推理检测，imgTest.py 是用于加载训练好的模型并对图片进行推理检测的脚本文件。

图15 YOLO11 Detection Result

在这张图像中，YOLO11模型成功识别出了“writing”（写字）和“Happiness”（高兴），并为这两个区域分别提供了置信度评分为0.95和0.96，表明模型对该检测结果具有较高的信心。检测框准确地标出学生的行为和表情区域，展示了模型在识别学生课堂状态方面的良好表现。这使得YOLO11模型成为应用于课堂监控和学生行为分析中的理想选择，能够有效支持实时课堂应用。

表6 模型推理表

通过应用YOLO11模型进行学生课堂行为与表情的识别与分析，展示了深度学习在课堂监控与专注度检测中的巨大潜力。实验结果表明，YOLO11在准确性、速度和稳定性方面均表现优异，能够实时检测学生的行为（如举手、写字）和情绪（如高兴、困倦），为教师提供了有效的课堂管理工具。此外，模型的高效推理能力和实时反馈机制，使得其在实际课堂应用中具备较高的实用价值。本研究为未来的教育技术发展提供了有力支持，并展示了AI在提升课堂教学质量和学生专注度监控方面的前景

功能展示

本系统基于深度学习的YOLO11模型，旨在进行学生课堂行为和表情专注度检测，提供多种检测方式及结果展示形式，能够满足教育研究和课堂管理的多样化需求。以下为主要功能界面的展示：
1. 系统主界面展示
该界面展示了一个深度学习课堂表情与行为识别学生专注度分析系统的主界面，集成了模型选择、检测精度调整和实时检测等功能，用户可通过直观的操作进行图像、视频检测、实时检测及结果展示。

图16 系统主界面

2. 图片检测功能
支持对单张学生课堂图像进行快速检测。系统能够自动识别行为和表情异常，并给出置信度评分。检测结果以边框和文字提示的方式直观呈现，帮助老师快速做出判断与教学干预。

图17 行为和表情正常

图18 行为和表情正常

图19 行为和表情异常

图20 行为和表情正常

图21 行为和表情正常

图22 行为和表情正常

图23 行为和表情正常

3. 图片批量检测功能

图24 批量检测

4. 图片批量检测结果保存

图25 批量检测结果保存

5. 视频检测功能

图26 视频检测

6. 视频检测结果保存

图27 视频检测结果保存

7. 实时检测

图28 摄像头实时检测

界面设计

本系统的图形用户界面采用PyQt5框架开发，致力于打造直观、高效且流畅的交互体验。通过精心设计的界面布局和模块化架构，系统功能得以清晰呈现，并确保各项操作的高效执行，全面提升用户使用体验。

图29 PyQt5主控面板界面

该界面展示了基于PyQt5框架精心设计的学生行为与表情专注度检测系统，界面布局简洁、直观且高度集成。通过巧妙的模块化设计，系统涵盖了多项功能模块，确保用户能够高效、流畅地进行操作与交互，充分体现了系统在教育领域中的智能化与人性化设计。

文件清单

1.专注度检测（推理）
（1）核心代码文件

（2）图像和视频资源

（3）UI与资源文件（PyQt5）

2.专注度检测（训练）
（1）训练相关文件

（2）第三方框架库文件

3.数据集文件

服务项目

联系我们

官方声明

（1）实验环境真实性与合规性声明：
本研究所使用的硬件与软件环境均为真实可复现的配置，未采用虚构实验平台或虚拟模拟环境。实验平台为作者自主购买的惠普（HP）暗影精灵 10 台式整机，具体硬件参数详见表。软件环境涵盖操作系统、开发工具、深度学习框架等，具体配置详见表，所有软件组件均来源于官方渠道或开源社区，并按照其许可协议合法安装与使用。

研究过程中严格遵循学术诚信和实验可复现性要求，确保所有实验数据、训练过程与结果均可在相同环境下被重复验证，符合科研规范与工程实践标准。

（2）版权声明：
本算法改进中涉及的文字、图片、表格、程序代码及实验数据，除特别注明外，均由2zcode.Bob独立完成。未经2zcode官方书面许可，任何单位或个人不得擅自复制、传播、修改、转发或用于商业用途。如需引用本研究内容，请遵循学术规范，注明出处，并不得歪曲或误用相关结论。

本研究所使用的第三方开源工具、框架及数据资源均已在文中明确标注，并严格遵守其相应的开源许可协议。使用过程中无违反知识产权相关法规，且全部用于非商业性学术研究用途。

声明：本站所有项目资源都可以正常运行，亲测无错！而且我们录制了演示视频，在我们注明的环境版本下，项目运行效果完全和演示视频一致。客服QQ：下载须知

基于深度学习的课堂表情与行为识别学生专注度分析系统(YOLO11方法研究)