14800黄大年茶思屋“难题揭榜”第148期–EDA专题第四期完整题目整理-平芜编程栈

“难题揭榜”第148期–EDA专题第四期完整题目整理

通用信息

发布时间：2026-06-08
浏览量：185次
出题组织：半导体业务部、诺亚方舟实验室、马尔科夫实验室
接口专家：伍宏忠、焦润、范明洲、许思源、刘安琪、黄宇、王涛、周恒毅、顾庆龙、王一可
联系邮箱：huangyu61@hisilicon.com

难题1：一种快速有效的网表拆分质量评估技术

一、技术背景

在异构集成芯片设计中，网表拆分是对芯片设计指标达成影响程度最大的环节之一。需要将一张电路网表分配到上下两层乃至多层中，要求在满足必要设计约束（例如：工艺制造类约束）的同时为后续物理设计环节留出优化空间。
一般而言，以单个memory或一组cells组成的cell-cluster为最小拆分粒度，一张网表的拆分是一个NP难问题。如何定义实际工程中可用、可靠的评估metrics及快速评估流程，以低成本实现对于给定网表拆分结果的可实现性评估，是一个挑战。

二、技术挑战

完整的芯片物理实现流程是一个多环节长链条多轮迭代的过程，涉及工程师与商业EDA工具的多轮交互。对于芯片设计早期阶段的网表拆分结果，想要精确地评价该结果的设计指标以评估其可实现性及实现效果是一件费时且复杂的事情。
在这个问题层面，一个具体的子问题是：对于给定的多个网表拆分候选结果（候选解集合），如何从数据角度出发，更有效地挖掘并设计低精确度的评估指标集并将其组合，以评估候选解集合中各个解的拆分质量并给出各结果之间的正确排序，即：基于数据角度提出一个快速有效的拆分质量评估器，是一个具体的挑战任务，要求：

有效：拆分质量评估器应当能够考虑一般性物理设计工具引擎的行为与实现能力，能够考虑到前后工具在实现方面的优化方向一致性；
快速：拆分质量评估器针对典型场景的有效评估时间应当具有现实应用价值。

三、当前结果

基于开源数据集和配套的验证流程（Open3DBench[1]），针对给定case的多组网表拆分候选解，已尝试的拆分评估方案如下：

【技术路径1】基于人工设计经验，构造经验指标型Metrics，并应用D-Optimal Design[2]策略进行候选解集合中各个解相对于所在问题空间的重要性判定，基于此设计代理评估模型；
【技术路径2】直接以Coarse-level的物理实现结果作为评估依据，模拟一个拆分后物理实现过程[3-4]，将该流程给出的结果作为排序评估依据。

四、技术诉求

给定具体case的多个拆分候选解，评估并排序拆分质量：给定具体case的多个网表拆分候选解（有限集合）：X={x1,x2,...,xn}X = \{x_1, x_2, ..., x_n\}X={x1,x2,...,xn}，设计一套评估策略，期望能够给出performance目标f(xi)f(x_i)f(xi)下（计算成本高，如：商业工具布线完成时序TNS指标，即f(xi)=TNS(xi)f(x_i) = TNS(x_i)f(xi)=TNS(xi)）所有候选解的打分与排序，输出一套排列π:{1,2,...,n}→{1,2,...,n}\pi: \{1,2,...,n\} \to \{1,2,...,n\}π:{1,2,...,n}→{1,2,...,n}，使得：
f(xπ(1))≤f(xπ(2))≤...≤f(xπ(n))f(x_{\pi(1)}) \leq f(x_{\pi(2)}) \leq ... \leq f(x_{\pi(n)})f(xπ(1))≤f(xπ(2))≤...≤f(xπ(n))

度量指标：
1. π\piπ与工具真实流程运行后的评估指标排列π′\pi'π′在排序一致性（Kendall-τ）上达到90%以上；
2. 3M网表节点数（instances）及以下规模的用例，整个评估过程的端到端评估速度<2h。
验证步骤：
1. 方案设计；
2. 在华为指定的公开数据集验证（Open3DBench）；
3. 在华为实际业务数据集验证同时达成以上全部性能指标。

参考文献

[1] Yunqi Shi, et al. Open3DBench: Open-Source Benchmark for 3D-IC Backend Implementation and PPA Evaluation. arXiv preprint arXiv:2503.12946, 2025.
[2] J. Kiefer, et al. The equivalence of two extremum problems. Canadian Journal of Mathematics, 12:363 – 366, 1960.
[3] Quentin Delhaye, et al. Impact of gate-level clustering on automated system partitioning of 3D-ICs. Microelectronics Journal, 139:105896, 2023.
[4] Donggyu Kim, et al. TA3D: Timing-Aware 3D IC Partitioning and Placement by Optimizing the Critical Path. In 2024 ACM/IEEE 6th Symposium on Machine Learning for CAD (MLCAD), pages 1–7, 2024.

难题2：面向时序驱动的异构集成混合键合互联寻优

一、技术背景

混合键合（Hybrid Bonding, HB）是一种结合了多种键合技术的先进工艺，正逐渐成为异构集成互连的关键技术，它有望实现高互连密度和优异的电气性能，同时降低互连寄生效应。该技术融合了直接键合和金属互连的优势，能够实现芯片表面的直接连接，从而显著提高互连密度。
混合键合寻优算法是异构集成芯片物理设计（Physical Design）环节中的核心步骤之一，需要同时对芯片内模块互联以及跨芯片互联进行有效评估及寻优，最终目标是优化芯片的性能、功耗、面积（PPA）指标。

二、技术挑战

多目标优化：HB寻优涉及多目标的优化问题，功耗、性能、面积等，但由于这些目标之间存在复杂的耦合，目标之间存在冲突，难以高效地针对性优化。
代理指标一致性：传统优化指标与最终PPA指标强关联性，需寻找更有效的中间指标或直接优化PPA。
运行时间：大量标准单元和宏单元导致评估耗时，要求算法具备高效率，尤其在评估次数和策略选择上，需要在合理时间内完成高质量寻优。
流程相互影响：前序及后续步骤中芯片单元位置及端口与混合键合的位置互相影响，对整个芯片的质量产生关键性影响，直接决定了芯片的最终物理实现质量。能否综合考虑混合键合分配与端口位置选择成为提升设计质量的挑战。

三、当前结果

二分图匹配：将混合键合位置寻优建模为二分图匹配问题，但是受寻优的顺序及中间代理指标（HPWL）影响，导致最终的性能优化有限。
路径寻优最短化：将HB寻优问题建模为整数线性规划问题，通过求解该优化问题获得最短距离的HB位置，然而受限于HB规模及代理指标（HPWL）选择，性能和runtime收到挑战。

四、技术诉求

提出一种时序驱动的混合键合寻优算法，在（1）Open3DBench[3]上（8个cases）及（2）华为实际业务数据集验证（三个cases，instances数目5M量级）上相较于当前寻优结果，其他指标不恶化的情况下（WNS、Overflow、NVP），提升电路的时序TNS 10%。

验证步骤：方案设计 - 在华为指定的公开数据集验证（Open3DBench） - 在华为实际业务数据集验证同时达成以上全部性能指标。

参考文献

[1] Kuhn, Harold W. The Hungarian method for the assignment problem
[2] Pruek Vanna-iampikul et al: Placement-Aware 3D Net-to-Pad Assignment for Array-Style Hybrid Bonding 3D Ics
[3] Yunqi Shi, et al. Open3DBench: Open-Source Benchmark for 3D-IC Backend Implementation and PPA Evaluation

难题3：异构集成多层布局优化进度求解策略

一、技术背景

在多Die堆叠场景中，各芯片的物理布局需要协同优化，以确保信号完整性、时序收敛、热管理及功耗分布的整体最优。
然而由于不同芯片在器件规模、模块复杂度、互连密度等方面存在差异，其布局优化进度/迭代优化程度往往不一致。
优化速度快的芯片可能过早收敛至局部最优，而进度滞后的芯片仍处于布局探索阶段，导致整体布局方案无法均衡兼顾各芯片的物理约束与性能目标，进而影响最终的系统级PPA（性能、功耗、面积）指标。

二、技术挑战

进度评估与量化困难：现有布局优化过程缺乏统一的、可量化的进度评估标准。不同芯片的布局状态（如单元分布、拥塞程度、时序路径长度等）差异大，难以直接比较优化进度，更无法实时判断是否需要干预。
动态协同机制缺失：现有布局工具通常以单芯片为优化单位，缺乏跨芯片的协同优化机制。若强行同步各芯片优化迭代次数，可能抑制优势芯片的进一步优化潜力，或导致滞后芯片被迫提前收敛，影响整体布局质量。
多目标权衡下的进度同步：进度同步不仅涉及优化速度的匹配，还需兼顾各芯片在拥塞、时序、功耗等多个目标上的均衡。简单地“等待”或“加速”可能破坏已取得的优化成果。

三、当前结果

启发式进度调控：现有方法主要通过预设固定的优化迭代次数或时间阈值，对各芯片布局过程进行粗粒度同步。该方法无法响应各芯片实时优化状态，常导致进度匹配不精确，整体优化效果受限。
基于简单指标的锁存策略：部分研究尝试通过布局密度、线长加权和（HPWL）等单一指标判断优化进度，并据此调整优化器参数（如学习率）。然而这些指标难以全面反映布局质量，尤其在高密度异构集成堆叠中，其对时序、拥塞等关键目标的表征能力较弱，锁存与恢复效果不稳定。

四、技术诉求

提出一种面向异构集成多层布局的优化进度求解策略，在华为实际业务数据集上验证（三个cases，规模大小：instances数目5M量级），每个case提供多种候选布局结果（不少于10个），达到GP阶段布局质量评分判断与最终芯片绕线后PPA结果的一致率达到90%以上。

Note: 一致率：
1. 同一case候选布局两两比较，对任意两个候选布局A、B：若GP阶段布局质量评分判断A优于B，且最终芯片绕线PPA结果也判断A优于B；
2. PPA质量结果以布线后整体TNS时序为判断依据。
验证步骤：方案设计 - 在华为指定的公开数据集验证（Open3DBench） - 在华为实际业务数据集验证同时达成以上全部性能指标。

参考文献

[1] 刘静，一种基于滑动窗口和离散差分进化算法的3D布局优化方法
[2] 王嘉诚，一种3D芯片的布局优化方法
[3] Y. Zhao, et al. Analytical Heterogeneous Die-to-Die 3D Placement with Macros
[4] Yunqi Shi, et al. Open3DBench: Open-Source Benchmark for 3D-IC Backend Implementation and PPA Evaluation

难题4：热仿真加速

一、技术背景

随着芯片设计的复杂度提高，热仿真变得越来越重要，但是也越来越复杂了。矩阵求解规模领域持续增大，以热仿真为例，目前求解矩阵规模已达到1.6亿，后续可能达到4亿以上，急需开发新的大型矩阵求解技术，提升仿真效率。

二、技术挑战

当前已针对上述模型，采用模型降阶方法进行矩阵降维计算。然而，针对上述场景，还存在以下问题/挑战：

矩阵规模过大时，降阶内存开销大，并行算法开发存在挑战。当前1.6亿规模仿真，降阶内存超出机器资源限制；
针对流热耦合场景，后续微流道等场景仿真，可能存在变流速情况。传统FVM求解时长会更久，若采用降阶方案，需支持变HTC场景，在降阶时长和右端项处理上存在困难，资源开销大；
后续两相流换热场景，物性存在温度非线性，且往往变化剧烈。当前采用的降阶算法展开点有限，可能无法保证降阶精度。增加展开点，某种程度上失去了降阶的意义。

三、当前结果

当前1.6亿网格@4600热源规模仿真，稳态仿真时长1800s@24core，瞬态仿真时长80h以上。无法满足当前电热联合仿真对计算效率（8h以内）的要求；
当前3000w网格微流道流热耦合仿真，稳态仿真时长2h@32core。后续需支持多轮流道优化迭代，当前仿真效率较低。
由IBM与Synopsys联合打造Thermonat技术宣称可以将求解速度提高几个数量级。它包括以下几个方面：
1. 机器学习热求解器（ML Thermal Solver）：使用深度神经网络（DNN）训练一个“热场预测代理模型”（Surrogate Model）。该模型可直接从芯片设计参数（如晶体管布局、功耗分布、材料属性）快速预测出温度场分布，无需传统网格划分与迭代求解。
2. 数据驱动 + 物理约束联合训练：ML模型不是纯黑箱，而是采用PINNs（Physics-Informed Neural Networks）技术，将热传导方程（Fourier’s Law）、边界条件、材料热导率等物理规律嵌入到神经网络损失函数中。确保预测结果既“快”又“准”。
3. 自动化参数化建模与网格自适应：利用AI自动识别芯片中的“热敏区”（如高功耗单元、互连密集区），并动态调整网格密度，实现“重点区域精细求解，普通区域粗略处理”的智能优化。

四、技术诉求

参考Thermonat技术，但是不限定于AI技术，提出创新的热仿真加速技术，提升仿真效率。
验证案例：
- 案例一（24core）：1.6亿网格@4600热源仿真案例，计算精度偏差±1℃以内。瞬态计算时长1h以内；
- 案例二（32core）：3000w网格规模微流道流热仿真，计算精度偏差±3℃以内，压降、速度场偏差10%以内。稳态计算时长要求10min以内。
算力限制：通用算法优化-与鲲鹏920B/2T内存的等效计算资源。AI方法优化-昇腾910C 8卡资源。
验证步骤：方案设计 - 非AI的方法上基于华为给定的以上2个案例验证同时达成以上全部技术指标要求或AI方法要基于2个案例及其100+变种推理结果同时达成以上全部技术要求。

参考文献

[1] 《模型降阶方法》蒋耀林，2010
[2] https://research.ibm.com/blog/from-atoms-to-chips-thermonat-models-heat-with-unprecedented-accuracy

难题5：面向大规模Global Placement的非光滑优化建模与求解

一、技术背景

随着数字芯片设计规模持续增长，布局布线问题的复杂度不断提升，Global Placement（GP）作为物理设计流程中的核心环节，对后续设计质量、收敛效率及整体实现成本具有重要影响。当前业界与学界主流GP方法，多采用解析式优化框架，将线长、密度等目标构造为连续可导或经平滑近似后的优化问题，并借助优化算法或GPU并行框架进行高效求解。以ePlace[1]、DREAMPlace[2]为代表的研究工作，已在大规模benchmark上验证了该类方法在效率与结果质量之间的良好平衡。
但从优化建模角度看，现有方法普遍依赖“平滑化处理”来获得可微结构，这在提升可解性的同时，也可能带来以下局限：

对某些具有突变特征、分段特征或局部极值驱动特征的目标表达能力不足；
平滑近似可能削弱原始问题中的关键结构信息；
现有框架对更复杂目标的适配能力仍有进一步研究空间。
基于此，该难题希望围绕GP场景中的非光滑优化展开，问题如下：
min⁡x,yW(x,y)+λD(x,y)\min_{x,y} W(x,y) + \lambda D(x,y)x,yminW(x,y)+λD(x,y)
需要研究具有明确物理意义的非光滑目标建模方式，以及适用于大规模电路布局问题的高效求解方法。

二、技术挑战

保证求解稳定性的同时兼顾算法效率：非光滑优化在理论上可处理不可微问题,但是在placement场景下通常不可避免的要面临次梯度信息不稳定、参数敏感性较强、算法收敛速度受限等问题；
多目标耦合下的优化平衡：非光滑目标之间的耦合机制与传统可微系统有一定的差别，参数设计与调优难度增加。

三、当前结果

subgradient 和 Moreau-envelope求解：Nonsmooth Optimization Method for VLSI Global Placement[3] 直接把HPWL写成精确但非光滑的L1-norm模型，并配合精确overlap建模，用subgradient方法求解；以及采用Moreau envelope来对HPWL做更稳定的可微近似，并报告了相对以往smooth wirelength模型平均超过1%的HPWL改善、最高到5.4%。但是收敛速度和可扩展性在百万变量级的布局问题上还是很吃亏；
非光滑 + 深度学习工具链：用绝对值 wirelength 和分段线性 overlap penalty，配随机子梯度、算子分裂和PyTorch实现，相关实验主要还是GSRC/中等规模数据，且论文结论中承认当前实现的速度仍落后于其他方法，大规模效率还需要改进。

四、技术诉求

从原始非光滑GP模型出发，提出一种兼顾结构保真性、数值稳定性与大规模可扩展性的nonsmooth optimization框架，在ISPD2005[6] benchmark中选取的8个case上同时满足：

不使用光滑近似；
无case崩溃；
平均HPWL相对baseline 变异化小于1.0%；
overflow达到baseline同量级；
runtime(CPU,相同并行数)不超过baseline的2倍；
优化的迭代次数5倍。

验证步骤：方案设计 - 基于上述8个case数据集验证，需要同时达成以上全部技术诉求。

参考文献

[1] ePlace: Electrostatics-Based Placement Using Fast Fourier Transform and Nesterov’s Method
[2] DREAMPlace: Deep Learning Toolkit-Enabled GPU Acceleration for Modern VLSI Placement
[3] Nonsmooth Optimization Method for VLSI Global Placement, Wenxing Zhu, Jianli Chen, Zheng Peng, Genghua Fan, 2015
[4] On a Moreau Envelope Wirelength Model for Analytical Global Placement, Peiyu Liao, Hongdu Liu, Yibo Lin, Bei Yu, Martin Wong, 2023
[5] An Efficient Stochastic Optimization Method for Global Placement in VLSI Problem, Yi-Shuang Yue, Yu-Hong Dai, Haijun Yu, 2024
[6] The ISPD2005 placement contest and benchmark suite

声明：以上整理已完整包含本期所有题目正文信息，可直接用于方案设计与验证。

14800黄大年茶思屋“难题揭榜”第148期–EDA专题第四期完整题目整理

“难题揭榜”第148期–EDA专题第四期完整题目整理

通用信息

难题1：一种快速有效的网表拆分质量评估技术

一、技术背景

二、技术挑战

三、当前结果

四、技术诉求

参考文献

难题2：面向时序驱动的异构集成混合键合互联寻优

一、技术背景

二、技术挑战

三、当前结果

四、技术诉求

参考文献

难题3：异构集成多层布局优化进度求解策略

一、技术背景

二、技术挑战

三、当前结果

四、技术诉求

参考文献

难题4：热仿真加速

一、技术背景

二、技术挑战

三、当前结果

四、技术诉求

参考文献

难题5：面向大规模Global Placement的非光滑优化建模与求解

一、技术背景

二、技术挑战

三、当前结果

四、技术诉求

参考文献

【课程设计/毕业设计】依托 SpringBoot 的企业数据资产统一登记服务系统设计【附源码、数据库、万字文档】

不止于rem：用cssrem插件探索vw适配与微信小程序rpx的实战技巧

MPC8245 PIC中断控制器：从硬件原理到驱动实战的深度解析

Windows网络卡顿排查实战：手把手教你用Speedtest CLI定位是带宽问题还是延迟/丢包

深入解析MPC7450处理器MMU：地址转换、TLB机制与软件表搜索实战

DeepL Chrome翻译插件：3步打造专业级网页翻译体验

“难题揭榜”第148期–EDA专题第四期 完整题目整理

通用信息

难题1：一种快速有效的网表拆分质量评估技术

一、技术背景

二、技术挑战

三、当前结果

四、技术诉求

参考文献

难题2：面向时序驱动的异构集成混合键合互联寻优

一、技术背景

二、技术挑战

三、当前结果

四、技术诉求

参考文献

难题3：异构集成多层布局优化进度求解策略

一、技术背景

二、技术挑战

三、当前结果

四、技术诉求

参考文献

难题4：热仿真加速

一、技术背景

二、技术挑战

三、当前结果

四、技术诉求

参考文献

难题5：面向大规模Global Placement的非光滑优化建模与求解

一、技术背景

二、技术挑战

三、当前结果

四、技术诉求

参考文献

【课程设计/毕业设计】依托 SpringBoot 的企业数据资产统一登记服务系统设计【附源码、数据库、万字文档】

不止于rem：用cssrem插件探索vw适配与微信小程序rpx的实战技巧

MPC8245 PIC中断控制器：从硬件原理到驱动实战的深度解析

Windows网络卡顿排查实战：手把手教你用Speedtest CLI定位是带宽问题还是延迟/丢包

深入解析MPC7450处理器MMU：地址转换、TLB机制与软件表搜索实战

DeepL Chrome翻译插件：3步打造专业级网页翻译体验

“难题揭榜”第148期–EDA专题第四期完整题目整理