大模型面试通关指南：28道高频考题深度解析与实战要点-平芜编程栈

大模型面试通关指南：28道高频考题深度解析与实战要点

本文系统梳理大模型核心技术栈，从RAG架构到训练推理优化，覆盖面试高频考点，附关键原理剖析与工程实践建议，助你构建完整知识体系。

一、RAG技术体系：架构、评估与优化

1.1 核心流程与关键设计

RAG（Retrieval-Augmented Generation）通过外挂知识库增强大模型能力，标准流程如下：

分块策略决定上限：

固定长度分块（如512 tokens）易切断语义连贯性
滑动窗口分块（重叠10%~20%）保留上下文
语义分块（基于句子边界/标题层级）更符合知识结构
层次化索引：粗粒度（章节）+ 细粒度（段落）双层检索提升召回率

1.2 效果评估双维度

环节	指标	说明	工具推荐
检索	Hit@K	Top-K结果中包含正确答案的比例	-
MRR (Mean Reciprocal Rank)	正确答案排名倒数的平均值	-
NDCG@K	考虑排序位置的加权命中率	Rank-BERT
生成	Faithfulness	生成内容是否忠实于检索结果	FactScore
Answer Relevance	回答与问题的相关性	BERTScore
ROUGE-L	与参考答案的最长公共子序列	HuggingFace Evaluate

💡实战建议：优先优化检索环节（Recall@5 > 85%），再调优生成质量。使用LlamaIndex的SentenceWindowRetriever可自动处理上下文扩展。

1.3 垂直领域改进方向

Query优化：
- 纠错：pycorrector处理用户输入噪声
- 改写：用LLM将模糊Query转为专业表述（如“怎么修电脑” → “笔记本开机无显示故障排查步骤”）
- 扩展：同义词扩展（WordNet）+ 领域术语映射
混合检索：关键词（BM25）+ 语义向量双路召回，加权融合
后处理规则：对医疗/金融等高风险领域，设置关键词黑名单与合规校验模块

二、大模型架构演进：从LLaMA到ChatGLM

2.1 LLaMA系列核心技术

特性	LLaMA 1	LLaMA 2	改进价值
训练数据	1.4T tokens	2.0T tokens	提升知识覆盖广度
上下文长度	2K	4K	支持更长文档处理
归一化	Pre-LN	RMSNorm	训练稳定性↑30%
位置编码	RoPE	RoPE (增强外推)	长文本泛化能力提升
激活函数	SwiGLU	SwiGLU	表达能力优于ReLU

关键创新点：

RMSNorm：移除LayerNorm中的均值归一化，减少计算量且保持稳定性
SwiGLU：x ⋅ σ ( x ) ⋅ W x \cdot \sigma(x) \cdot Wx⋅σ(x)⋅W，门控机制增强非线性表达
旋转位置编码（RoPE）：通过旋转矩阵注入位置信息，支持外推至训练长度2倍

2.2 ChatGLM架构特色

ChatGLM基于GLM（Generalized Language Model）框架，核心差异：

# GLM双模式训练[mask]# BERT式：随机mask短片段 → 双向编码[gMASK]# GPT式：mask末尾长片段 → 自回归生成

ChatGLM2关键升级：

Multi-Query Attention (MQA)：多头共享KV，显存↓60%
FlashAttention：SRAM内分块计算，减少HBM访问瓶颈
DeepNorm：残差连接+RMSNorm，支持更深网络训练（140层→稳定收敛）

💡架构选型建议：
长文本生成 → 选RoPE架构（LLaMA/Qwen）
中文场景 → 优先ChatGLM3（中文语料优化）
推理速度敏感 → 选MQA/GQA架构（Qwen/ChatGLM2）

三、微调技术全景：从SFT到RLHF

3.1 微调方法对比

方法	参数更新量	适用场景	优势	劣势
Full Fine-tuning	100%	领域迁移	效果最佳	显存消耗大（7B模型需≥48GB）
LoRA	0.1%~1%	多任务适配	低资源、可插拔	可能欠拟合复杂任务
QLoRA	0.1%	4-bit量化微调	7B模型6GB显存可训	精度轻微损失
P-Tuning v2	0.5%	知识注入	保留原始能力	对prompt设计敏感
RLHF	100%	价值观对齐	生成质量显著提升	训练复杂、需人工标注

LoRA原理图解：

原始权重 W (d×k) ↓ 旁路：A (d×r) → B (r×k) # r << min(d,k)，典型值8~64 ↓ 输出 = W·x + B·A·x

A用高斯分布初始化，B初始化为0 → 训练初期旁路无影响
推理时合并权重：W m e r g e d = W + B × A W_{merged} = W + B \times AWmerged=W+B×A

3.2 RLHF三阶段详解

SFT（监督微调）
- 数据：人工编写的高质量问答对（10K~100K）
- 目标：让模型学会“如何回答”，而非“回答什么”
Reward Modeling
- 数据：同一问题的多个回答，人工排序（如A>B>C）
- 损失函数：Pairwise Ranking Loss
  L = − log ⁡ σ ( r θ ( x , y w ) − r θ ( x , y l ) ) \mathcal{L} = -\log \sigma(r_\theta(x, y_w) - r_\theta(x, y_l))L=−logσ(rθ(x,yw)−rθ(x,yl))
PPO优化
- 策略网络：SFT后的模型
- 价值网络：Reward Model
- 约束项：KL散度防止偏离原始分布
  L C L I P = E [ min ⁡ ( r t ( θ ) A t , clip ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A t ) ] − β ⋅ KL [ π θ ∣ ∣ π S F T ] \mathcal{L}^{CLIP} = \mathbb{E}[\min(r_t(\theta)A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)A_t)] - \beta \cdot \text{KL}[\pi_\theta || \pi_{SFT}]LCLIP=E[min(rt(θ)At,clip(rt(θ),1−ϵ,1+ϵ)At)]−β⋅KL[πθ∣∣πSFT]

⚠️避坑指南：RLHF需严格控制KL系数（β=0.01~0.1），过大导致能力退化，过小引发reward hacking。

四、推理优化：从KV Cache到FlashAttention

4.1 显存占用分析

组件	占用比例	优化方向
模型参数	50%	量化（INT8/INT4）
KV Cache	30%~40%	MQA/GQA、分页缓存
中间激活	10%~20%	激活重计算
其他	<10%	内存池优化

KV Cache原理：
自回归生成中，每步需重复计算历史Token的K/V。缓存后：

第t步：仅计算当前Token的Q，K/V从缓存读取
显存增长：O ( L × d k × h ) O(L \times d_k \times h)O(L×dk×h)，L为序列长度，h为注意力头数

4.2 注意力计算优化演进

技术	核心思想	显存↓	速度↑	适用场景
MHA	每头独立KV	基准	基准	训练
MQA	所有头共享KV	70%	20%	推理
GQA	KV分组共享（如8头→2组）	40%	15%	训练+推理平衡
FlashAttention	SRAM内分块计算+IO感知调度	-	3×	长序列（>2K）

FlashAttention关键技巧：

将Q/K/V切分为P × P P \times PP×P小块，仅加载当前计算所需块到SRAM
重计算Softmax分母：前向存储S i j S_{ij}Sij，反向重算避免存储全部注意力矩阵
IO复杂度从O ( N 2 ) O(N^2)O(N2)降至O ( N ) O(N)O(N)

五、训练工程实践：OOM破解与DeepSpeed

5.1 OOM问题定位与解决

现象	根本原因	解决方案
训练初期OOM	Batch Size过大	梯度累积（accumulate_steps=4）
中期OOM	梯度爆炸	梯度裁剪（max_norm=1.0）
推理OOM	KV Cache膨胀	启用PagedAttention（vLLM）
持续增长	内存泄漏	检查DataLoader pin_memory

梯度累积示例：

# 逻辑Batch=32，物理Batch=8fori,batchinenumerate(dataloader):loss=model(batch)loss=loss/4# 累积4步loss.backward()if(i+1)%4==0:optimizer.step()optimizer.zero_grad()

5.2 DeepSpeed ZeRO三阶段

阶段	分片对象	通信量	显存↓	适用场景
ZeRO-1	Optimizer States	3×	4×	单机多卡
ZeRO-2	+ Gradients	2×	8×	中等规模集群
ZeRO-3	+ Parameters	3×	16×	千卡级训练

ZeRO-3工作流：

前向：All-Gather获取完整参数 → 计算 → 丢弃非本卡参数
反向：All-Gather参数 → 计算梯度 → Reduce-Scatter聚合梯度
更新：仅更新本卡分片参数

💡配置建议：7B模型单卡训练 → 启用ZeRO-3 + CPU Offload；70B模型千卡训练 → ZeRO-3 + Pipeline Parallelism

六、幻觉与安全：根源分析与缓解策略

6.1 幻觉分类与成因

类型	表现	根源	缓解方案
事实性幻觉	编造不存在的事实	训练数据缺失/噪声	RAG + 知识图谱校验
逻辑性幻觉	自相矛盾的推理	注意力机制局限	思维链（CoT）提示
领域外幻觉	对未知问题强行回答	过度自信	设置置信度阈值 + 转人工

6.2 复读机问题根治

数据层：训练前过滤重复文本（SimHash去重）
生成层：
- Temperature > 0.7 避免贪婪搜索
- Repetition Penalty（典型值1.2）：p n e w ( w ) = p ( w ) / penalty count ( w ) p_{new}(w) = p(w) / \text{penalty}^{\text{count}(w)}pnew(w)=p(w)/penaltycount(w)
架构层：使用MQA减少注意力头间冗余