从“搜你所想”到“造你所愿”：生成式 AI 全景指南-平芜编程栈

在AI世界中，一种独特的机器智能变体正在迅速渗透到软件应用和主流用途中，它就是生成式人工智能。不同于以往只做“选择题”和“判断题”的 AI，生成式人工智能开始尝试做“问答题”和“作文题”，它不再仅仅满足于分析现有的数据，而是开始创造。

文章目录

一、智能的范式转移——判别式 vs. 生成式
二、生成式人工智能的演化
三、常见生成式AI架构——它们是如何“无中生有”的？
- 3.1 生成对抗网络 (GAN)
- 3.2 扩散模型（Diffusion Models）
- 3.3 Transformer模型
五、生成式AI应用

一、智能的范式转移——判别式 vs. 生成式

传统人工智能有时被称为判别式人工智能（Desciminative AI），它能够根据输入模型的数据进行判别、分类或预测，这种AI模型为各种智能应用提供支持，包括推荐系统和搜索引擎。

另一方面，生成式人工智能（Generative AI）会学习输入数据的潜在模式，但它并不提供预测或洞察，而是利用学到的知识生成与训练数据相似但又不同的输出。

判别式 AI (Traditional AI)：模仿人类的分析和预测技能，其适合用于分类任务，例如区分垃圾邮件，但它无法根据情境来理解上下文或生成新内容。
生成式 AI (Generative AI)：模仿人类的思维和创造力，生成式模型可以吸取它们所学的知识，并根据这些信息创建全新的内容。

二、生成式人工智能的演化

生成式 AI 的历史并非一蹴而就，而是一场长达半个世纪的接力：

萌芽期 (1960s)：生成式AI的最早实例之一可追溯到1964年ELIZA聊天机器人的诞生，通过基于规则的 Operating System，ELIZA根据接收到的文本生成回复，模拟与用户的对话，虽然只是基于简单的规则匹配，但它第一次向世界展示了机器进行类人交流的潜力。
探索期 (1980s-90s)：20世纪80~90年代，硬件和软件能力大幅提升，促进了包括神经网络（Neural Network）在内的生成式人工智能模型的发展，神经网络受人脑启发，可以学习数据中错综复杂的模式，但早期的神经网络训练计算成本高昂，且只能生成少量内容。
突破期 (2010s)：21世纪初深度学习（Deep Learning）出现，生成式人工智能研究取得了重大突破。利用多层神经网络，深度学习模型可以在大量 Data 集上进行训练，辨别复杂的模式，从而生成与人类创建的内容非常相似的新数据，这一突破促进了创新型生成 AI 模型的发展，包括生成式对抗网络（Generative Adversarial Network, GAN）和变异自动编码器（VAE）。
爆发期 (2020s)：下一个重大发展是于2020~2023年出现的Large Language Model（LLM），如 GPT-3 和 Gemini ，LLMs 是在海量文本和代码数据集上训练出来的，这使它们能够生成逼真的文本、翻译语言、编写不同种类的创意内容，并以信息丰富的方式回答你的问题。

三、常见生成式AI架构——它们是如何“无中生有”的？

如果说 AIGC 是一场视觉与逻辑的盛宴，那么 GAN、Diffusion 和 Transformer 就是后台最忙碌的三位顶级厨师。

3.1 生成对抗网络 (GAN)

GAN 是早期生成式 AI 的领军者，它的天才之处在于引入了“博弈论”的思想，让两个神经网络在互相“相爱相杀”中进化。

它由两个对立的神经网络组成：生成器和鉴别器

生成器：伪造者，目标是生成能够欺骗鉴别器的真实输出。
鉴别器：鉴定这，目标是识别输出是真实的还是生成的。

在实践中，生成器通过观察和分析大量现有艺术作品数据集来学习目标艺术风格。然后，鉴别器充当艺术评论家的角色，评估这些生成的图像并对其真实性提供反馈。

最初，由于生成的图像与训练数据缺乏相似性，鉴别器可以轻易地将其识别为计算机生成的图像，利用来自鉴别器的反馈，生成器调整其方法。

这种对抗性竞争促使双方不断进化，相互学习，随着时间的推移，竞争和持续的反馈循环最终会达到一个收敛点，生成器在创作艺术作品方面变得非常熟练，以至于能够欺骗鉴别器。

3.2 扩散模型（Diffusion Models）

如果说GAN是“警匪博弈”，那么扩散模型更像是非平衡热力学中的物理现象：将秩序逐渐打碎为混沌，再学习如何从混沌中重建秩序，扩散模型的原理是在干净的图像上逐渐添加噪音，直到完全无法识别，然后它可以反转，逐渐去除噪音，生成新的图像。

具体过程如下：

前向扩散 (Forward Diffusion)：按照一个预设的时间步长向原始高清图像逐渐添加噪声，直到它变成一团毫无意义的“雪花点”。
逆向去噪 (Reverse Diffusion)：AI观察一张被污染的模糊图像，学习预测“刚才被添加的噪声分量”，并将其精准剔除。
引导机制 (Conditioning)：当我们输入 Prompt（如“赛博朋克风格的猫”）时，文字会被转化为向量，作为逆向过程的“导航仪”，引导 AI 从混沌的噪声中，朝着特定的像素组合方向进行塌缩。

3.3 Transformer模型

如果前两者是视觉派，Transformer 就是文字与逻辑的王者，它是 ChatGPT、Claude 乃至视频生成模型 Sora 的底层基石。

以往的 AI 处理信息像是在看“流水账”，读到后面就忘了前面；而Transformer 的杀手锏是“注意力机制 (Attention)”，它能理解输入序列中不同部分之间的关联，当它处理一个词（Token）时，它会计算这个词与句子中所有其他词的相关性。可以理解为：它为每个词建立了一个“朋友圈”，能根据上下文精准捕捉词义的微妙变化，它能记住几万字之前提到的伏笔，让长篇小说或复杂代码的生成变得连贯。

Transformer 架构通常由这两部分组成，虽然现在的很多大模型（如 GPT）主要使用解码器部分：

编码器：负责“读懂”输入，将复杂的语言压缩成机器理解的向量。
解码器：负责“创作”输出。它根据学到的规律，一个词一个词地预测接下来该说什么。

五、生成式AI应用

基础模型是具有广泛功能的AI模型，它们是在超大规模数据集上训练的巨型模型，它们不再只能干一件活，而是具备了迁移学习的能力。开发者只需通过微调（Fine-tuning），就能将一个基础模型转化为各行各业的顶尖专家。

例如OpenAI 开发的 ChatGPT 是生成式人工智能的一个杰出范例，ChatGPT 并非预测给定输入的可能输出，而是旨在生成连贯且符合语境的响应，无论是起草电子邮件、撰写文章、创作诗歌还是模拟人类对话。同样，DALL-E、Midjourney 和 Stable Diffusion 等新的软件应用程序正在艺术和图像创作领域掀起波澜。

下面是一些常见的生成式AI应用：

领域	核心逻辑	代表性模型/工具
文本生成 (LLM)	理解上下文、创意写作、翻译与逻辑推理。	OpenAI ChatGPT、Google Gemini、Anthropic Claude
图像生成	将文本转化为图像，支持风格迁移、内补全与外扩。	Midjourney、Stable Diffusion、DALL-E 3
视频生成	生成连贯的高清动态画面或数字人视频。	Sora、Runway Gen-3、Synthesia
代码生成	辅助编程，支持自动化补全、漏洞检查及编程语言互译。	GitHub Copilot、Cursor、AlphaCode
音频生成	涵盖语音合成 (TTS)、克隆及音乐创作。	ElevenLabs、Suno、Udio