AI测试、大模型测试(四)AI测试分类AI测试岗位分工-平芜编程栈

一、AI测试分类

二、AI测试岗位分工

一、AI测试分类

说起AI测试可能过于模糊，下面来看看AI测试的分类。常见的分类方式包括按测试类型、测试对象、测试目标或AI应用场景划分。

1.1 按测试类型分类：分为功能测试、性能测试、安全测试、对抗测试、兼容性测试等等等类别

功能基本任务测试：检查模型在核心任务上的表现，如文本生成、翻译、问答等，使用标准数据集（如GLUE、SQuAD）验证准确率。
性能测试、安全测试、对抗测试、兼容性测试
可靠性测试‌：确保AI系统在各种条件下稳定运行，例如长文本处理或空输入提交时的容错能力。‌
‌鲁棒性测试‌：检验模型对噪声、对抗样本或边缘案例的适应性，如多语言混合输入中的术语处理。‌
‌可解释性测试‌：评估AI决策过程的透明度，例如通过可视化工具分析模型推理路径
零样本/小样本学习测试：测试模型在未训练任务上的表现，如用少量示例让其完成新任务
跨领域适应性测试：检查模型在医疗、法律等垂直领域的表现，对比通用领域效果。
长文本连贯性测试：测试模型在长对话或文档中的上下文保持能力，如生成连贯的故事或回答依赖历史的问题。
多模态支持测试：测试模型处理文本、图像、语音等多模态输入的能力（如适用）。
文本对抗样本测试：使用TextFooler等工具生成对抗文本，测试模型鲁棒性，如将“好”替换为“好”+特殊Unicode字符

参考： https://cp.baidu.com/landing/tscp_doc/5afa52664bc3dc2eda499bb5f67c46a9

1.2按测试对象分类：‌模型层测试、应用层测试

模型层测试‌：聚焦于算法本身，例如分类模型的精确率、召回率、F1分数或AUC-ROC曲线，用于评估判别任务如目标检测或图像分割的准确性。‌注：测试集数据可以测试人员自己收集。或者公司的数据标注人员整理提供、爬虫爬取。
应用层测试‌：关注AI在具体应用中的表现，如自动驾驶中的时间理解能力，涉及动作识别、持续时间分析等任务；如广告推荐等等。这需要在真实业务场景中评估AI结果对业务场景的适配程度。

1.3 按AI应用场景分类

自动驾驶AI测试‌：强调时序理解能力，如基于视频片段的动作识别和事件关系分析。‌ 测试需覆盖时间尺度变化、自车视角推断等挑战。
‌自然语言处理测试‌：侧重于文本生成、多轮对话和事实核查，使用指标如逻辑一致性或主题连贯性。‌
‌计算机视觉测试‌：针对图像分类、分割等任务，采用Dice系数或IoU（交并比）等指标衡量分割精度。‌
设计自动化测试框架‌：利用机器学习自动生成测试用例、优化执行策略，提升覆盖率和效率。‌

注：使用AI模型来测试AI模型。

基准测试‌：通过标准化数据集（如TAD基准）全面评估模型性能，涵盖多种任务类型‘

注，目前最广泛的AI的四种测试类型：
机器学习项目的测试
推荐系统项目的测试
图像识别项目的测试
自然语言处理项目的测试

二、AI测试岗位分工

1、AI测试开发岗：主要利用AI技术为公司赋能，提示测试效率、测试质量。(用AI赋能测试)

要求技能：具备AI测试平台、AI测试工具开发能力

比如，AI生成测试用例、AI执行测试（接口测试、WEB测试、APP测试）、AI执行单元测试、AI执行安全测试、AI项目全流程管控等等

比如，熟悉AI评测平台的架构设计、功能范围

比如：开发了一个AI Agent用于测试领域：

AI Agent能够根据软件的实时变化，自动生成、优化和执行测试用例，减少了人工干预。
当软件功能发生变化时，AI Agent可以自动调整测试用例和测试路径，确保测试覆盖面更加全面。

2、AI模型测试岗(或叫算法测试)：对AI模型进行质量保障，本质上介于算法和测试之间。侧重于AI大模型算法效果类测试。

主要职责：数据质量测试、模型效果评估、模型专项测试等(注：比如在推荐/广告系统中测试)

要求技能：要求会深度学习、会主流Pytroch框架

加分项：熟悉主流AI框架(TensorFlow, PyTorch)及测试工具链；行业评测标准(如，MMLU,HEIM,TextVQA等)，大模型算法评估；

3、AI产品（Agent）测试：类似传统互联网中的功能开发测试岗。侧重于AI产品应用层测试。

要求技能：开发AI产品测试自校验框架能力。

什么是AI Agent（俗称智能体）
百度百科定义：
AI Agent是具备自主决策与工具调用能力的智能代理系统，通过大语言模型理解需求、规划目标并执行任务，其核心特征为主动思考与跨工具操作能力，区别于依赖预设指令的传统人工智能系统。
科技定义：
AI Agent是 “以大语言模型为大脑驱动的系统，具备自主理解、感知、规划、记忆和使用工具的能力，能够自动化执行完成复杂任务的系统。
AI Agent 和大模型的区别在于，大模型与人类之间的交互是基于prompt 实现的，用户prompt 是否清晰明确会影响大模型回答的效果。而AI Agent的工作仅需给定一个目标，它就能够针对目标独立思考并做出行动。

参考

https://cloud.tencent.com/developer/article/2404939

https://blog.csdn.net/2401_85373691/article/details/145159648

AI测试、大模型测试(四)AI测试分类AI测试岗位分工

一、AI测试分类

二、AI测试岗位分工

X-AnyLabeling：AI 驱动自动标注工具介绍

基于Vue.js的手机品牌销售数据可视化系统的设计与实现开题报告

MODNet人像抠图终极指南：从入门到精通快速上手

系统集成供应商哪个好，如何选择适配企业数字化转型的优质服务商？

算法题ProgramDesign

【Java毕设全套源码+文档】基于springboot的公寓管理系统设计与实现(丰富项目+远程调试+讲解+定制)