news 2026/5/13 4:34:09

Depth-Wise Emergence of Prediction-Centric Geometry in Large Language Models

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Depth-Wise Emergence of Prediction-Centric Geometry in Large Language Models

Depth-Wise Emergence of Prediction-Centric Geometry in Large Language Models

Authors:Shahar Haim, Daniel C McNamee

Deep-Dive Summary:

论文总结:ControlNet - 为文本到图像扩散模型添加条件控制

这篇文章介绍了一种名为ControlNet的神经网络架构,旨在通过学习特定任务的条件来增强预训练的大型文本到图像扩散模型(如 Stable Diffusion)。

1. 研究背景与动机


尽管预训练的扩散模型在生成高质量图像方面表现出色,但仅通过文本提示(Prompt)往往难以实现对图像空间结构的精细控制。ControlNet 的出现解决了如何在大模型中有效引入空间条件引导(如边缘图、人体姿态、深度图等)的问题。

2. ControlNet 核心架构


ControlNet 的设计思路是复制预训练模型的网络权重,分为“锁定副本”(Locked Copy)和“可训练副本”(Trainable Copy)。这种架构确保了在学习新条件的同时,不会破坏原有模型在大规模数据集上习得的生成能力。


该模型引入了**零卷积(Zero Convolution)**技术,即初始化为零的1 × 1 1 \times 11×1卷积层。其数学表达如下:
y = F ( x ; Θ ) + Z ( F ( x + Z ( c ; Θ z 1 ) ; Θ c ) ; Θ z 2 ) y = \mathcal{F}(x; \Theta) + \mathcal{Z}(\mathcal{F}(x + \mathcal{Z}(c; \Theta_{z1}); \Theta_c); \Theta_{z2})y=F(x;Θ)+Z(F(x+Z(c;Θz1);Θc);Θz2)
其中Z ( ⋅ ) \mathcal{Z}(\cdot)Z()表示零卷积操作,c cc是条件向量。这种设计使得模型在训练初期能够保持输出与原模型一致,避免了随机噪声对预训练权重的干扰。

3. 模型集成与条件处理


ControlNet 被应用于 Stable Diffusion 的编码器部分。通过这种方式,它能够提取各种图像特征(如 Canny 边缘、HED 边缘、人体骨架点等)并将其转化为引导信息。


作者探讨了在不同数据规模和计算资源下的训练稳定性。即使在计算资源受限的情况下(如单张消费级 GPU),ControlNet 也能展现出强大的学习能力。

4. 实验与功能展示


论文展示了 ControlNet 支持的多种控制模式,包括但不限于:

  • Canny 边缘引导:基于图像轮廓生成。
  • OpenPose 姿态引导:通过人体骨架控制生成角色的动作。
  • 深度图与法线贴图:保留场景的三维结构信息。



通过对比实验,ControlNet 在控制精度和图像质量上显著优于此前的基准模型。无论是复杂的线条还是精细的纹理,ControlNet 都能在保持文本一致性的同时,严谨地遵循空间条件约束。

5. 结论与未来影响


ControlNet 为大型生成模型提供了一种高效、稳健的微调方案。它不仅推动了图像生成技术在专业艺术创作、工业设计等领域的应用,也为后续多模态生成研究奠定了基础。

Original Abstract:We show that decoder-only large language models exhibit a depth-wise transition from context-processing to prediction-forming phases of computation accompanied by a reorganization of representational geometry. Using a unified framework combining geometric analysis with mechanistic intervention, we demonstrate that late-layer representations implement a structured geometric code that enables selective causal control over token prediction. Specifically, angular organization of the representation geometry parametrizes prediction distributional similarity, while representation norms encode context-specific information that does not determine prediction. Together, these results provide a mechanistic-geometric account of the dynamics of transforming context into predictions in LLMs.

PDF Link:2602.04931v1

部分平台可能图片显示异常,请以我的博客内容为准

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/13 1:04:49

基于8086计算器系统仿真设计

一 概要基于8086计算器系统仿真设计是一个结合了硬件与软件技术的综合性项目,旨在通过仿真技术模拟实现一个能够执行基本算术运算的计算器系统。以下是对该设计概要的详细阐述: 一、设计目标 该设计的主要目标是利用8086微处理器为核心,结合适…

作者头像 李华
网站建设 2026/5/13 1:04:32

QGIS应用教学——降雨量的空间插值与等值线绘制

前期准备1.QGIS(安装教程见本账号文章) 2.气象数据(请到地球资源数据云中学术社区的同名文章下载)一、从孤立的观测站到连续的雨量图当我们打开附件中从 NOAA(美国国家海洋和大气管理局)下载的气象数据时,映入眼帘的往…

作者头像 李华
网站建设 2026/5/11 2:53:08

基于虚拟仪器LabVIEW实验平台的典型环节的实验系统测试

基于虚拟仪器LabVIEW实验平台的典型环节的实验系统测试 第一章 系统测试目标与核心需求 本测试以LabVIEW虚拟仪器为核心搭建实验平台,开展控制系统典型环节的实验系统测试,核心目标是突破传统物理实验台设备固定、操作繁琐、数据处理效率低的局限&#x…

作者头像 李华
网站建设 2026/5/11 2:53:08

简单理解:高频注入与滑膜观测器是什么意思?

“高频注入” 和 “滑膜观测器” 是电机控制(尤其是无刷电机 FOC 控制)里的两种核心技术,作用都是获取电机转子的位置 / 速度信息(无感 FOC 场景下,不需要编码器),但原理和适用场景完全不同&…

作者头像 李华
网站建设 2026/5/12 5:03:05

Management Controls任命高管,推动澳大利亚业务扩张

战略性任命强化了MCi对澳大利亚及亚太地区增长的长期承诺承包商支出优化领域的全球领导者Management Controls, Inc. (MCi)宣布在澳大利亚进行两项关键的高管任命,以加速其在全澳及更广泛的亚太(APAC)地区的战略扩张。Kelly McLennan加入MCi,担任战略与发…

作者头像 李华