本数据集包含六类恶意软件样本:病毒(Virus)、蠕虫(Worm)、特洛伊木马(Trojan)、间谍软件(Spyware)、广告软件(Adware)和勒索软件(Ransomware)。该数据集旨在构建高精度的分类模型,实现对不同类型恶意软件行为的自动识别与检测,为网络安全分析和威胁防御提供辅助决策依据,推动深度学习与人工智能技术在恶意软件分析与网络安全防护中的应用。
数据集信息
编号:Dataset-7
大小:58M
整理:Bob
数据集概览
数据图像:
图1 恶意软件行为图像
数据类型:
表1 数据类型与格式
数据规模:
(1)数据集划分饼图
图2 数据集划分饼图
(2)数据集数量
图2 数据集数量
数据集类别
表3 类别定义
数据集来源
表4 数据集来源与说明
数据集用途
本数据集用于恶意软件行为分类模型的训练与验证,包含六类恶意软件样本:广告软件(Adware)、勒索软件(Ransomware)、间谍软件(Spyware)、特洛伊木马(Trojan)、病毒(Virus)和蠕虫(Worm)。可应用于以下研究与开发方向:
(1)模型训练:支持卷积神经网络、视觉Transformer(ViT)等深度学习模型的恶意软件行为特征学习。
(2)性能评估:用于测试模型的分类准确率、召回率、F1值等指标。
(3)特征分析:可用于研究不同恶意软件类型在行为模式、传播方式、危害程度等方面的差异。
(4)系统开发:为恶意软件检测与防护系统、网络安全监测平台提供数据支撑。
数据集须知
(1)数据来源:基于公开或采集的恶意软件行为图像数据,仅限科研与教学用途。
(2)数据结构:包含训练集与测试集,分为六类恶意软件样本。
(3)文件格式:文件为 .jpg 图像格式,文件命名与类别对应。
(4)使用要求:需遵守个人隐私与数据保护相关规定,引用时须注明数据来源。
(5)适用范围:适用于恶意软件行为识别、分类、行为分析及网络安全防护研究。
数据集性能
训练与验证准确率和损失曲线:
图4 VGG16和ResNet50训练与验证准确率和损失曲线线
从这两张训练和验证的准确率与损失曲线图来看,ResNet50 的训练与验证准确率几乎始终保持在 99%–100% 之间,且验证损失接近 0,模型稳定性更高、泛化能力更强;而 VGG16 在前几个 epoch 虽然快速收敛,但验证曲线存在轻微波动,说明其在复杂特征提取上略逊一筹。ResNet50 在恶意软件分类任务中表现更优,具有更高的准确性和更好的收敛稳定性。
混淆矩阵热力图:
图5 VGG16与ResNet50精度与损失总结表
从混淆矩阵(Confusion Matrix Heatmap)结果来看,ResNet50 的性能略优于 VGG16。两种模型在六类恶意软件(Adware、Ransomware、Spyware、Trojan、Virus、Worm)分类中均表现出极高的准确率,混淆矩阵几乎呈现完美对角线结构,表明模型能够准确区分各类样本。然而,ResNet50 的分类结果更加稳定、泛化能力更强,其预测值全部精确集中在对角线上(值为1.0),无任何误分类,而 VGG16 虽然整体精度也高,但在训练初期存在轻微波动。综合来看,ResNet50 在恶意软件分类任务中整体表现更佳,准确率更高且鲁棒性更强。
联系我们
官方声明
(1)实验环境真实性与合规性声明:
本研究所使用的硬件与软件环境均为真实可复现的配置,未采用虚构实验平台或虚拟模拟环境。实验平台为作者自主购买的惠普(HP)暗影精灵 10 台式整机,具体硬件参数详见表。软件环境涵盖操作系统、开发工具、深度学习框架等,具体配置详见表,所有软件组件均来源于官方渠道或开源社区,并按照其许可协议合法安装与使用。
研究过程中严格遵循学术诚信和实验可复现性要求,确保所有实验数据、训练过程与结果均可在相同环境下被重复验证,符合科研规范与工程实践标准。
(2)版权声明:
本算法改进中涉及的文字、图片、表格、程序代码及实验数据,除特别注明外,均由2zcode.Bob独立完成。未经2zcode官方书面许可,任何单位或个人不得擅自复制、传播、修改、转发或用于商业用途。如需引用本研究内容,请遵循学术规范,注明出处,并不得歪曲或误用相关结论。
本研究所使用的第三方开源工具、框架及数据资源均已在文中明确标注,并严格遵守其相应的开源许可协议。使用过程中无违反知识产权相关法规,且全部用于非商业性学术研究用途。
评论(0)