效果翻倍的秘密！用LLM+GNN引爆广告推荐，让你的ROI坐上火箭！-平芜编程栈

摘要

传统的广告召回单一模型往往难以有效平衡“语义精准”与“关系覆盖”、“冷启动”与“实时性”之间的结构性矛盾。为应对这一挑战，腾讯广告技术团队提出了融合 LLM 与 GNN 的创新方案，采用“GNN挖掘关系、LLM解析语义”的协同机制。

该方案既保留了图结构对营销对象关联关系的深度挖掘能力，又借助大语言模型的语义理解与知识注入能力，显著提升了新品召回的精准度与泛化性能。从业务实践来看，该融合方案有效结合了大模型与图模型的优势，在工业级推荐业务中经过验证，带来了显著的效率与效果提升。

注: 营销对象是广告推广标的，可看做商品的“品类”——例如一个电商产品, 一个短剧, 一个小游戏等。广告主通过“营销对象->广告->创意”的多层结构来表达自身投放目的。

01业务痛点

基于协同的推荐系统存在双重局限：一方面，对历史行为的强依赖会导致兴趣固化，限制了对用户潜在需求的探索能力；另一方面，新广告与新用户的交互数据稀疏，使得冷启动问题成为系统实时性与泛化性的主要瓶颈。

一、营销对象冷启

新营销对象（如新品推广时间近、小众品类用户少）因缺乏历史点击、转化数据，面临三重困境：

表征缺失：无法通过依赖协同信号的模型（如双塔模型）生成精准的特征表征；
关联断裂：无法与用户、标签、热门广告建立有效关联，难以进入推荐池，即便获得少量曝光，也因数据稀疏导致匹配精度低，陷入 “无曝光→无数据→无转化” 的恶性循环；
人群模糊：缺乏历史转化数据支撑，无法明确目标用户画像（如新品 “轻量化办公本” 不知适配 “职场新人” 还是 “学生群体”），难以精准触达目标人群，导致投放盲目，预算浪费严重。

二、用户冷启

新用户（或稀疏行为用户）历史行为数据不足（如点击、浏览、转化记录），难以挖掘其真实需求偏好；传统推荐系统无法实现精准个性化匹配，只能推送泛流量广告，导致匹配效率不佳——用户体验差, 点击/转化率低。

02技术方案

一、名词解释

表2-1 图结构中节点/边类型示例(筛选部分节点/边)

二、具体方案

我们将LLM、图结构学习（GNN）与数据压缩（RQ-VAE）深度结合，实现语义可解释、高效可扩展的对象关联建模。

即“LLM 解语义、GNN 挖关系” 的协同模式：

Stage1：基于LLM的语义理解

通过LLM+RQ-VAE将营销对象编码为层级化语义ID Trie树，实现异构数据的语义归一和关联。Trie树中相同层级关系，作为图结构里的营销对象间的关联边，连接新营销对象和老营销对象，供辅助学习使用。

Stage2：基于GNN的关系挖掘

基于Trie树的层级关系构建营销对象关联边，形成语义关联图，为GNN等模型提供结构化输入，增强营销场景的语义推理和冷启动能力。

图2-1 LLM+GNN整体架构图

三、Stage1: 基于LLM的语义理解

（一）同层级关系识别

在Trie树中，同一父节点下的子节点（如/user/age:25-30下的gender:female和gender:male）或同一路径上的相邻节点（如age:25-30与interest:母婴，存在“年龄→兴趣”的语义关联），被定义为语义相关节点。

图2-2 营销对象的文本表征

（二）图边构建

新老对象连接

将新营销对象（如“Z世代美妆爱好者”）的语义ID与历史营销对象（如“年轻女性消费者”）的ID，在Trie树中找到共同语义祖先（如/user/age:18-30/gender:female），建立营销对象关联边，表示二者在语义层级上的关联。

边权重计算

基于Trie树的路径重合度（如共同节点数/总节点数）赋予权重（0~1），重合度越高，边权重越大（如完全相同路径的边权重为1，共享一级节点的边权重为0.3）。

图2-3 营销对象语义ID的前缀树Trie树

四、Stage2: 基于GNN的关系挖掘

（一）图神经网络（GNN）输入

构建的语义层级图作为GNN的输入，节点为营销对象ID，边为营销对象关联关联。模型可通过消息传递学习：

新对象冷启动：利用老对象的历史转化数据（如点击率、转化率），通过图边传播到新对象，提升预测精度（如“Z世代美妆爱好者”继承“年轻女性消费者”的部分转化特征）。

（二）语义层级推理

捕捉跨层级的语义关联（如“母婴用品”→“儿童教育”的向上关联，通过Trie树的父节点边传递），增强营销推荐的长尾覆盖能力（如推荐“儿童绘本”给“母婴消费者”）。

图2-4 营销对象GNN模型

（三）用户塔：融合 “行为兴趣” 与 “语义” 的双子图建模

用户塔通过两个并行的HGAT-Encoder（异构图注意力编码器），分别处理“行为兴趣子图”和“语义子图”，最终生成用户Embedding：

行为兴趣子图

**节点类型：**用户（U）、营销对象（M）、类目（C）。
**边类型：**U-M-U（用户-营销对象-用户的互动关系）、U-C-U（用户-类目-用户的互动关系）等。
**作用：**捕捉用户的历史行为轨迹（如点击、转化过的营销对象、类目），生成行为 Emb，体现用户的行为偏好。

语义子图

**节点类型：**用户（U）、营销对象（M）、类目（C）。
**边类型：**U-M-M（用户-营销对象-营销对象的语义关联）、U-C-M（用户-类目-营销对象的语义关联）等。
**作用：**通过语义层面的关联（如营销对象的文案、品类相似性），生成语义 Emb，挖掘用户的潜在语义需求。

（四）营销对象塔：丰富语义子图，强化内容相关性连接

营销对象塔同样通过两个并行的HGAT-Encoder，处理 “行为兴趣子图” 和 “语义子图”，生成营销对象Embedding：

行为兴趣子图

**节点类型：**营销对象（M）、用户（U）、类目（C）。
**边类型：**M-U-M（营销对象-用户-营销对象的互动关系）、M-U-C（营销对象-用户-类目的互动关系）等。
**作用：**捕捉营销对象的历史互动行为，生成行为 Emb，体现营销对象的效果表现。

语义子图（核心创新点）

**节点类型：**营销对象（M）、类目（C）。
**边类型：**M-C-M（营销对象-类目-营销对象的语义关联）、M-In-M（营销对象自身的语义相似性）、M-M-M（营销对象间的内容相关性连接）等。
**作用：**直接将内容相关的营销对象进行语义层面的连接（如 “平价口红” 与 “哑光唇釉” 因品类、功效相似被关联），生成语义Emb，强化营销对象间的内容相关性，解决传统模型仅依赖行为的局限。

03效果验证

一、落地部署

（一）模型规模与人群覆盖

**人群覆盖：**支持超10亿量级用户的图结构建模，能够完整覆盖平台活跃用户群体，为全量用户的广告推荐提供关系网络支撑。
**图节点规模：**包含用户、营销对象、类目、行业等多类型节点，边量级达到百亿, 其中营销对象节点与 LLM 的语义关联达7亿量级，实现营销对象与大模型语义能力的深度融合。

（二）数据处理与行为流水

**日处理行为流水：**每日可处理约百亿量级的用户行为流水（包括点击、转化等互动行为），并实时更新图中 “用户-营销对象”“营销对象-标签” 等关系边，确保图结构的时效性与准确性。

（三）营销对象 LLM 关联覆盖

**LLM 关联规模：**累计实现约7亿量级营销对象与 LLM 的语义关联，通过 LLM 解析营销对象的文案、品类、属性等信息，生成细粒度语义表征，为 GNN 的关系挖掘提供语义层面的精准输入。

（四）新营销对象冷启支持

**冷启占比：**新营销对象在 GNN 的推荐物料中占比超过50%，通过 “LLM 语义赋能 + GNN 关系复用” 的协同机制，新营销对象可快速关联平台已有热门营销对象的用户关系网络，实现冷启动阶段的高效曝光与转化，解决传统模型中长尾营销对象的曝光不足问题。

二、实际效果

自2024年Q4起，基于 LLM+GNN 的相关技术方案已在多场景、多任务累计上线10余次, 显著提升新品效果，在改善平台营销对象生态同时, 推动全平台GMV提升。

新营销对象指标

大盘GMV+0.33%，新营销对象折算大盘GMV+2.8%。分流量下效果：

朋友圈流量累计GMV+2.23%，其中新营销对象GMV+4.8%；
视频号流量累计GMV+1.87%，其中新营销对象GMV+3.74%；
公众号流量累计GMV+1.4%。

有效改善了营销对象投放生态。

用户体验指标

朋友圈广告用户：CTR+0.12%，CVR+0.36%，素材重复UV占比-1.26%；
视频号广告用户：CTR+0.38%，CVR+0.91%, 素材重复UV占比-1.01%。

04展望

我们将持续优化“LLM+GNN”融合框架在广告召回及全链路推荐中的应用，不断探索更深层次的模型协同机制：包括通过大语言模型增强图神经网络的关系推理能力，以及借助图结构为大语言模型注入更丰富的语义知识，进一步提升系统的理解与泛化能力。

腾讯广告技术团队始终秉持开放协作的理念，期待与行业伙伴共同推进推荐技术的创新与落地，携手创造可持续的商业价值与广泛的社会效益。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

基于Spring Boot的在线学习系统的设计与实现毕设

效果翻倍的秘密！用LLM+GNN引爆广告推荐，让你的ROI坐上火箭！

摘要

01业务痛点

02技术方案

03效果验证