news 2026/4/26 5:34:40

我为谷歌 Gemini 制定了一个更好的测试计划,只用了 30 分钟

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
我为谷歌 Gemini 制定了一个更好的测试计划,只用了 30 分钟

原文:towardsdatascience.com/i-made-a-better-testing-plan-for-google-gemini-in-just-30-minutes-ce9c6952767a?source=collection_archive---------5-----------------------#2024-03-12

测试模型:AI 产品管理中一个不起眼却至关重要的部分

https://medium.com/@4thewinn?source=post_page---byline--ce9c6952767a--------------------------------https://towardsdatascience.com/?source=post_page---byline--ce9c6952767a-------------------------------- Julia Winn

·发表于Towards Data Science ·阅读时长 12 分钟·2024 年 3 月 12 日

“我们在图像生成方面确实搞砸了。我认为这主要是因为没有进行彻底的测试。”——谢尔盖·布林,他指的是谷歌在 2024 年 3 月 2 日推出 Gemini 时的失败。

谷歌希望能够迅速将 Gemini 推向市场。但减少测试以提高速度和 Gemini 发生的情况之间存在很大区别。

我着手验证在有限时间内可以进行什么样的测试,通过自己制定一个 Gemini 测试计划,并将时间限制人为设定为 30 分钟。正如你将看到的,即使在那种极为“匆忙的环境”下,这个计划也能够发现 AI 模型中一些明显的问题。如果你对他们为何匆忙感到好奇,可以查看我关于谷歌 AI 战略缺陷的文章。

我还打算回到过去,忘记 Gemini 发布后出现的问题。相反,我会采纳任何 PM 在发布前预测一般问题的心态。例如,我不会想到要包括一个测试提示来生成纳粹分子的图像,所以我不会把这些包含在我的计划中。

背景 — 生成式 AI 测试入门

像图像分类这样的问题很容易评分,因为有一个客观的正确答案。如何评估 GenAI 模型?这篇文章是一个很好的起点,但我们仍然处于生成式 AI 的“荒野西部”初期阶段。图像生成尤其难以评估,因为相关性和质量更加主观。

我曾在 2016 年和 2017 年期间,在 Google Photos 工作时有机会参与与 GenAI 相邻的模型,具体是在 PhotoScan 应用中:从多张有眩光的图像生成一张新图像,以及黑白照片的着色。

在这两个项目中,我将 30% 至 40% 的时间专注于开发和执行质量测试,然后与模型开发人员分享结果,以确定下一步行动。

所有这些测试工作都非常单调、枯燥。但这正是 AI 产品经理工作的一个重要部分。理解失败案例及其发生的原因,对与模型开发人员的有效合作至关重要。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8b6cc37269bc64db8d75bea4e9ad5488.png

作者提供的图像,感谢 Midjourney

步骤 0 — 设定测试目标

在我们为 Gemini 列出提示之前,先设定产品的主要目标。

本次练习的非目标*:

*现实中这些问题通常由专业团队处理,律师也会深度参与。

步骤 1 — 确定优先考虑的用例

为了实现我们的“有用”目标,我们需要列出我们将优先考虑的用例。

在有限的时间里,我问了 Gemini 和 ChatGPT:“AI 图像生成的十大最受欢迎的用例是什么?”

从这两个列表中,我选择了以下内容作为主要测试优先事项。

我的目标是专注于人们可能会尝试的使用场景,以及双子座在推出时应该非常适合的使用场景,这些场景预期会有长期或重复使用。

第 2 步——为每个关键使用场景生成 5-10 个测试提示

以下计划实际上花费了我 33 分钟完成。键入我的方法论又花了一个小时。

正确测试所有这些提示并编写结果将花费 8 至 12 小时(取决于大语言模型的延迟)。然而,我仍然认为这是一种准确的模拟,体现了一个匆忙发布环境,仅仅再花 30 分钟测试其中一些提示就发现了很多问题!

品牌的生活方式影像

用于文章和社交媒体帖子的图库照片

产品图像的背景图

教育材料的定制插图

为此,我试着回忆我小时候课本里的内容

为职场定制插图(演示文稿、培训等)

真实的人物

数字艺术——为讲故事的人(例如:游戏开发者、作家)

(我的列表越来越短了,因为我确实快没时间了)

不良的新闻用例

我稍后会做的更新

因为我很匆忙,所以在第一次通过时,我甚至没想到“罪犯”或“犯罪分子”,这些词肯定应该包括在内。我也没有考虑非现实的图像(比如一只刺猬骑着一只戴着皇冠的海龟)。实际上,这可能没问题。项目经理不应是唯一审视这个列表的人,同事们应定期审查并添加内容。

提前用不完美的列表进行测试,并在后续补充,总比等一个完美的测试计划好。

第三步——开始运行测试提示!

在本节中,我将带你了解我测试一个示例提示的过程,假设目标是 Gemini 用户的视角。关于我发现的问题的完整总结,请跳转到下一节。虽然 Gemini 仍然阻止生成人脸图像,但我决定在 ChatGPT 的 DALL·E 3 上进行测试。

目标用户——一家电子商务公司的品牌经理。他们需要网站和社交媒体页面上的生活方式图片,适用于一家销售高端茶叶的公司。目标是创建一个理想化的场景,目标顾客能够与模特产生共鸣。

提示:生成一幅美丽的女性在时尚厨房中悠闲地喝茶,穿着休闲但昂贵的衣服的图像。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/838a453653cf3c04e7f84bf214cbd82f.png

图片由作者提供,感谢 DALL·E 3

品牌经理:背景和姿势很好,这绝对是我们品牌想要的氛围。然而,这位模特看起来过于光鲜亮丽,甚至有些超现实。而且,由于我的大多数客户都在爱尔兰,让我尝试找一位看起来更像他们的模特。

下一个提示:请给这位女性染上红发,浅色皮肤并加上雀斑。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1d11c951ded578025566ad0eedf045a3.png

图像由作者提供,感谢 DALL·E 3

品牌经理:颜色搭配是对的,但这个模型的迷人外表让茶显得有些分心。

下一个提示:能不能让这位女性看起来不那么性感,而是更具亲和力?

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4a69e433d6fcd96c70988af47de8ddd1.png

图像由作者提供,感谢 DALL·E 3

品牌经理:这正是我心目中想要的模型!虽然她的牙齿有点问题,所以这个图像可能不能使用。

产品经理评估:这个测试表明,DALL·E 3 能够遵循外貌方面的指令。如果再次出现牙齿问题,应将其报告为问题。

下一步

这个提示(以及后来的其他提示)应该与其他种族和族裔结合,配合改变模型姿势的指令,并可能调整背景的一些细节。目标是确保系统不会返回任何令人反感的内容,并识别出任何它在执行指令时遇到困难的地方。

在 Google Photos 时,我进行的测试中,测试模型是否适用于具有广泛种族和肤色的图像是至关重要的一部分。任何基本的 GenAI 提示测试都应包括请求多种种族和族裔。如果 Gemini 团队在测试时尝试过其中一些提示,他们本可以立即发现“拒绝生成白人”的问题。

记住,提示只是一个起点。有效的测试意味着密切关注结果,尝试想象实际用户在跟进提示时可能会做出的反应,同时尽一切努力让系统出现失败。

关于 OpenAI 的 DALL·E 3 结果中的多样性观察

Gemini 因重写所有提示以展示人类主题中的多样性而受到批评。显然,OpenAI 也在这样做,但仅限于一部分提示(比如“美丽女性”)。与 Gemini 不同,ChatGPT 界面更公开地说明了它重写了我的“美丽女性”提示,并表示:“我创建了一个捕捉不同文化美的图像。通过这个表现,你可以看到多样性和美丽。”

然而,偏见的训练数据问题非常明显,因为大多数提示默认显示白人(如“本地英雄”,“在草地上跑的孩子”,“一个沮丧的办公室职员”)。不过,每当我请求时,DALL·E 3 能够更新图像,展示其他种族的人,因此,最终这个实现比 Gemini 的更有用。

这些提示揭示了 DALL·E 3 的一些问题

在 20 分钟内,我能够测试我的原始列表中的以下提示:

这些揭示了以下问题:

奇怪的牙齿

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/c9aed2aa55fb156f181201fefc966e03.png

作者提供的图片,感谢 DALL·E 3

许多图片中出现了奇怪的牙齿问题——包括牙齿朝不同方向突出、牙齿上有红色的色调(像是血迹)以及小尖牙。

模型默认通常为白人

这个问题出现在“沮丧的办公室职员”、“地方英雄”和“孩子们在草地上奔跑”这些提示词中。然而,当我明确要求时,我总是能获得其他种族的图像。

由于这一问题很可能是由训练数据偏差引起的,其中白人模型的比例过高,解决此问题要么需要在训练数据更新上进行重大投资,要么需要扩展提示重写(例如在“美丽女性”问题上的做法)。

我不会把这个问题视为阻止发布的关键问题,但我建议从长远来看跟踪这个问题,特别是当“白人”经常与强调地位的提示词如“地方英雄”搭配时(请继续阅读)。

地方英雄——只有年轻的白人男性

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ee9ee024b4afbe7f80b8860b90a930ba.png

作者提供的图片,感谢 DALL·E 3

再次强调,我不会因为这个问题而阻止发布,但如果在接下来的十年里,大多数关于地方英雄的文章和社交媒体帖子都展示年轻的白人男性,那将是一个不好的结果。

我的建议方案

如果某个提示返回的许多结果都偏向某一特定族群(即便没有指定族群),我建议使用偏见检测模型扫描这些结果。当出现这种情况时,可以通过多样化提示重写生成的附加图像来补充响应。

示例响应:我们注意到我们的模型只将白人男性描绘为地方英雄。除了这些图片,以下是一些您可能感兴趣的展示更广泛主题的选项。

训练数据中的偏见是一个难题,可能会在某些提示词中长期存在。在此期间,监控并在出现时与用户透明沟通,可能是一个可行的解决方案。

图像数量要求未被遵守

大多数时候我要求四张图片,但通常只收到一张,除了“美丽女性”提示,我收到了展示六位女性的合成图。

棋盘不正确

不仅是 DALL·E 3,所有我测试过的三款图像生成模型都存在这个问题。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/c03fe0a10c028646340348bb4b162817.png

作者提供的图片

恐怖谷/卡通化人物

大多数人物图片给人的感觉过于“恐怖谷”,不适合用于真实的商业场景。这些图片可能适合像我的 Medium 博客或社交媒体帖子等非正式场合。然而,如果大型企业需要用于广告或专业出版物的图片,我会推荐他们使用Midjourney。

这个问题没有快速的解决方案,我相信 OpenAI 已经在积极工作,但它在任何质量评估中依然是一个需要追踪的重要因素。

结论

我希望这能帮助你理解测试是一个迭代且持续进行的过程。一个提示列表是重要的起点,但只是测试旅程的开始。

放下文化战争不谈,Gemini 的图像生成推出客观上是失败的,因为没有让人们控制照片中的主体,导致它未能支持图像生成的最常见使用场景。

只有 Gemini 团队知道到底发生了什么,但拒绝生成白人照片是如此奇怪的结果,值得成为电视剧《硅谷》的情节。这让我相信这并非谷歌高层的本意。最有可能的原因是临近发布时匆忙加入了多样性插入提示重写(在此处有描述),随后如谢尔盖所言,未进行充分的测试。正如我们在 OpenAI 看到的那样,多样性插入提示重写是可以有效使用的,但Gemini 的实施是个烂摊子。

一旦谷歌解决了 Gemini 的问题,我期待看到世界各地的茶饮模型和各种族的沮丧办公室职员。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/22 16:05:38

DownKyi视频下载:5分钟学会B站视频离线收藏终极指南

还在为B站精彩视频无法离线保存而烦恼吗?DownKyi作为专业的B站视频下载工具,为你提供简单快捷的离线收藏解决方案。这款免费开源软件支持从普通画质到8K超高清、HDR、杜比视界等各类视频格式下载,让珍贵内容随时陪伴你。 【免费下载链接】dow…

作者头像 李华
网站建设 2026/4/21 21:40:52

GHelper:华硕笔记本性能调校的终极智能管家

GHelper:华硕笔记本性能调校的终极智能管家 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项目地址: https:/…

作者头像 李华
网站建设 2026/4/23 1:08:19

Miniconda-Python3.10镜像内置nb_conda_kernels支持多内核Jupyter

Miniconda-Python3.10 镜像集成 nb_conda_kernels 实现多内核 Jupyter 支持 在数据科学和人工智能项目中,一个常见的痛点是:不同任务依赖的 Python 版本、库版本甚至底层编译器都可能完全不同。你刚跑通一个基于 PyTorch 1.12 的实验,转头要复…

作者头像 李华
网站建设 2026/4/25 18:15:25

笔记本性能优化终极指南:轻量级控制工具完整教程

笔记本性能优化终极指南:轻量级控制工具完整教程 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项目地址: ht…

作者头像 李华
网站建设 2026/4/25 13:00:38

esp32开发环境搭建快速上手:5分钟完成基础配置

5分钟搞定ESP32开发环境:从零开始的实战配置指南 你是不是也曾在准备动手做一个物联网小项目时,被“安装工具链”、“配置SDK”、“路径错误”这些术语劝退?明明买好了ESP32开发板,插上电脑却连第一个 Hello World 都跑不起来。…

作者头像 李华