YDT 4515-2023 “移动智能终端智能化性能基准测评方法”概述

2024-04-13

芯格瑞 Slab

2024年04月13日 17:00 北京

YDT 4515-2023 规定了通过使用神经网络模型在移动智能终端侧进行推理计算的基准测试的方法,对终端基于神经网络模型的计算性能进行评估。评测场景包括图像处理、视频处理等不同场景，针对不同场景测试集，测试方法和评测指标提出要求。

该标准适用于具备智能操作系统的移动智能终端,包括数字移动电话机,平板电脑以及其他数字移动通信终端设备。

YDT 4515-2023

移动智能终端智能化性能基准测评方法

一、测试概述

1.1 移动智能终端智能化测试架构

人工智能终端的基准测试指通过运行一段(一组)程序或者操作，来评测终端相关性能的活动。移动智能终端人工智能性能基准测试包括图像处理、视频处理测试。在移动智能终端上通过神经网络模型对基准推理集进行推理测试，评测移动智能终端整机的人工智能处理性能。

图1. 移动智能终端智能化测试框架

1.1.1 神经网络模型

用于人工智能计算，神经网络模型应为经过训练且达到一定准确率的模型,包括模型结构和变量参数。

1.1.2 推理集

作为人工智能推理计算的输入数据集，可以为图片，视频等格式的数据或文件。

1.1.3 移动终端人工智能推理框架

移动终端人工智能推理框架是部署在移动设备上的关键组成部分，通常包括模型转换工具和推理框架编译器。这些框架可以分为通用框架和专用框架两类。通用框架如TensorFlow Lite和PaddleLite，具有跨平台、多芯片平台运行的特点；而专用框架如SNPE和HiAI则限定在特定芯片平台上运行。在测试过程中，需明确使用的移动终端人工智能推理框架。

1.1.4 移动终端人工智能推理框架编译器

推理框架编译器主要通过加载神经网络模型并执行推断计算,向上能支持转换工具优化过的神经网络模型，向下能提供调度和使用包括CPU、GPU、DSP、NPU等人工智能计算所需的硬件资源。

1.1.5 终端硬件层

参与人工智能处理的硬件，包括CPU、GPU、AI硬件加速单元,内存、电池等。

2.1 通用测试方法

a) 移动智能终端初始化，包括屏蔽测试无关的其他应用、后台功能、调整屏幕亮度、记录初始电量等,使得每次测试前终端的运行状态保持一致；

b) 使用模型优化工具将预训练的模型文件离线转换为移动智能终端上可以直接运行的模型文件，并进行优化；

c) 将测试例推理集的图像或视频资源进行缩放、通道转换等预处理工作；

d) 将预处理的测试图像或视频资源输入优化后的模型进行推理测试；

e) 测试过程中通过软件方式或其他方式记录处理结果，处理时间和硬件性能指标；

f) 计算最终评测结果。

2.2 性能指标监测

性能指标包括检测人工智能推断计算性能的模型性能指标和硬件性能指标。

硬件性能指标为通用测试指标包括功耗，内存等，具体为:

a) 功耗测试应计算每毫焦耳能量消耗下最大能处理的图片张数(帧数);

b) 内存测试为测试过程中占用的内存的平均值。

二、图像处理测试方法

2.1 图像分类

2.1.1 推理测试

根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。

2.1.2 推理集要求

进行基准测试时，应从公开数据集的测试集中随机抽取10000张图片。

推理集应由公开渠道可自由获取的非商业用途图片数据构成，可选的公开数据集包括如下图片集:

a) CIFAR-100

b) Caltech 256

c) ImageNet

2.1.3 测评模型

评测模型可包括下表所列一个或多个深度学习模型:

a) Inception v3

b) ResNet50

c) MobileNet V2

2.1.4 测试方法

a) 加载数据集中的图片到终端内存，并完成图像缩放、通道转换等预处理工作;

b) 评测软件记录本次图片推理前的时间戳;

c) 将内存中预处理后的数据输入推理模型;

d) 记录模型输出结果和该时刻的时间戳;

e) 重复步骤a)-d，直到数据集所有图片完成测试，输出记录，计算指标;

f) 测试需要使用浮点型精度或整型精度的模型分别进行测试。

2.1.4 测试指标

a) TOP1准确率:在一次推理结果分类排序中，只有当概率最高的结果为正a确分类，本次推理结果才能判定为正确，统计所有图片的推理结果，用正确推理图片数量除以图片总数，得到TOP1准确率。

b) TOP5准确率：在一次推理结果分类排序中，概率排名前五的结果中包含正确的分类，推理结果判定为正确，统计所有图片推理结果，用正确推理图片数量除以图片总数，得到TOP5准确率。

c) 单张图片推理时间：记录一组图片推理总耗时，计算出单张图片平均推理时间。

d) 可选测试尾部延迟90分位耗时：记录一组图片(即数据集随机抽取的10000张图片)每次推理的耗时，按照耗时从小到大排序，取第90%处的耗时作为尾部延迟90分位耗时。

2.2 人脸识别

2.2.1 推理集要求

推理集应由公开渠道可自由获取的非商业用途图片数据构成，可选的公开数据集包括如下图片集:

a) Labeled Faces in the Wild Home(LFW)

b) MegaFace

c) PubFig：Public Figures Face Database

d) Colorferet

进行基准测试时，应从公开数据集的测试集中随机抽取10000组，选取对象按照不同年龄段和不同性别两个维度选取，至少包括男性儿童，女性儿童，男性成人，女性成人，男性老人，女性老人。

2.2.2 测评模型

评测模型包括facenet深度学习模型。

2.2.3 测评方法

a) 选取符合要求的推理集作为测试样例，建立对应的文件列表；

b) 文件列表送入对比识别算法程序，开始执行程序；

c) 从推理算法程序读取文件列表时开始计时,记录200组图片对比完成所需要的时间和对比结果；

d) 与数据库中的图像关系对比，计算测试样例的正确通过率，错误接受率。统计错误率，错误接受率为百万分之一，千分之一，万分之一处的正确通过率；

e) 测试需要使用浮点型精度或整型精度的模型分别进行测试。

2.2.4 测试指标

a) 正确通过率：在真实的验证过程中(正确人脸特征)同一个人的样本被判断为同一个人的比对次数占总比对次数的比例。

b) 错误接受率：在冒充攻击尝试(错误人脸特征)中被错误接受的比例。

c) 单张图片推理时间：记录200组图片推理总耗时，计算出单张图片平均推理时间。

2.3 目标语义分割

2.3.1 推理测试

图像语义分割融合了传统的图像分割和目标识别两个任务，将图像分割成一组具有一定语义含义的块，并识别出每个分割块的类别，最终得到一幅具有逐像素语义标注的图像。

2.3.2 推理测试要求

推理集应由公开渠道可自由获取的非商业用途图片数据构成，可选的公开数据集包括图集PSCAIV0C2012

进行基准测试时，应从公开数据集的测试集中随机抽取1000张，至少包括如表1所示：

表1. 语义分割类别

2.3.3 测评模型

评测模型可包括下表所列一个或多个深度学习模型:

a) unet

b) deeplabv3

2.3.4 测试方法

a)测试过程记录每个数据的推导时间(入口和出口时间差)；

b)交并比IoU(Intersection over Union)计算方法；

1) 分别加载标注图和结果图；

2) 根据标注的对象颜色和结果图中对象颜色，统计颜色吻合的像素点；

3) 根据标注对象颜色和结果图对象颜色，统计色块像素；

4) 根据统计结果计算IoU；

5) 其他分类范围也用相同的方式分别计算1oU；

c) 测试需要使用浮点型精度或整型精度的模型分别进行测试。

2.3.5 测试指标

a) 分割类别：支持分割的对象类别，记录识别出超出推理集要求的种类个数和少于推理集要求的种类个数之和。

b) 测试集的平均IoU：记录一组图片推理结果的平均交并比，交并比IoU为测试图片存在的对象的预测区域和实际区域之间的相似性。

c) 单张图片推理时间：记录一组图片推理总耗时，计算出单张图片平均推理时间。

d) 可选测试尾部延迟90分位耗时：记录一组图片(即数据集随机抽取的1000张图片)每次推理的耗时，按照耗时从小到大排序，取第90%处的耗时作为尾部延迟90分位耗时。

2.4 图片超分辨率

2.4.1 推理集要求

推理集应由公开渠道可自由获取的非商业用途图片数据构成，可选的公开数据集包括如下图片集，如表2所示：

表2. 图片超分辨率推理集要求

2.4.2 测试模型

评测模型可包括下表所列一个或多个深度学习模型：

a) SRCNN

b) vdsr

2.4.3 测试方法

a) 依据具体的使用场景先将推断集图片压缩,然后使用训练好的神经网络算法对压缩图片进行超a分放大;

b) 测试过程记录每个数据的推导时间(入口和出口时间差);

c) 使用超分放大图片和原始图片质量计算评测指标；

d) 测试需要使用浮点型精度或整型精度的模型分别进行测试。

2.4.4 测试指标

a) PSNR（峰值信噪比）值

b) SSIM（结构相似度）值

c) 单张图片推理时间：记录一组图片推理总耗时，计算出单张图片平均推理时间。

2.5 目标检测

目标检测，也称为目标提取，是一种基于目标几何和统计特征的图像分割技术。其综合了图像分割和识别，能够提取图片中的对象类别以及具体位置信息。

2.5.1 推理集要求

集应由公开渠道可自由获取的非商业用途图片数据构成，可选的公开数据集C0C0-2017，包括如下表3所示：

表3. 目标检测推理集类别要求

进行基准测试时，应从公开数据集的测试集中随机抽取1000张图片，其中选取类别如表3，每类随机选取20张样本图片。

2.5.2 测评模型

评测模型包括度学习模型:MobileNetV2-SSD。

2.5.3 测试方法

a) 加载数据集中的图片到终端内存，并完成图像缩放、通道转换等预处理工作；

b) 测软件记录本批次图片推理前的时间戳；

c) 将内存中预处理后的数据输入推理模型；

d) 记录模型输出结果和该时刻的时间戳；

e)重复步骤a)-d，直到数据集所有图片完成测试，输出记录，计算指标；

f)测试需要使用浮点型精度或整型精度的模型分别进行测试。

2.5.4 测试指标

单张图片推理时间：记录一组图片推理总耗时，计算出单张图片平均推理时间。

准确度mAP@0.5：在IoU阌值为0.5的前提下，在所有类别上的mAP值。

可选测试尾部延迟90分位耗时：记录一组图片(即数据集随机抽取的1000张图片)每次推理的耗时，按照耗时从小到大排序，取第90%处的耗时作为尾部延迟90分位耗时。

2.6 视频处理测试方法

2.6.1 推理集要求

拍摄一段有代表性的3分钟街景视频，确保内容明确、目标丰富。将视频帧进行人工切割和目标标注，以此形成最终视频输入样本。至少包括建筑，汽车，行人，交通指示牌。

2.6.2 测试方法

按每帧将视频中的图像取出进行处理

2.6.3 测试指标

a) 每帧处理速度：测试视频中平均每帧的处理时间。

b) 准确度mAP@0.5：在IoU阈值为0.5的前提下，在所有类别上的mAP值。

往期推荐

标准解读

工信部发布（129）号令概览

电动自行车用锂离子蓄电池安全技术规范

S-Lab

全方位AI智能硬件技术服务

S-Lab可为科创企业提供产品研发量产过程的全面测试支持、检测环境、技术服务、国内和出口的取证咨询。S-Lab具备CMA、CNAS资质，为中关村高新、国家高新技术企业，已加入首都科技技术服务平台，为国家无线电协会理事单位。

阅读 66

上一篇：多频段基站通信创新利器：宽带双极化滤波天线下一篇：智能云计算系统：探索云计算网络弹性与安全的创新挑战