TR-C 2026｜北交大 TransFM：统一建模多模态交通，实现跨城市泛化-平芜编程栈

由于微信推送机制改版，是不是经常看不到论文推送啦？如果你也在做交通+机器学习相关研究，别再让优质论文分享从指尖溜走了。

👉给「交通遇上机器学习」点个⭐️星标

第一时间获取最新论文解读、前沿方向，不再错过任何一次灵感碰撞。把时间留给有价值的内容，我们帮你筛选好。

导读

多模态交通需求精准预测是城市智慧出行、资源动态调配的核心支撑。现有模型要么专城专用、跨城失效，要么强统一、弱差异，难以兼顾模式特性与城市异质性。

本文解读发表于Transportation Research Part C的最新成果 ——TransFM，首次将基础模型范式引入跨城多模态交通需求预测，用混合专家 + 记忆机制，同时破解模式差异、跨城泛化两大难题，在 6 城 4 模式 11 个数据集上实现显著性能突破，为数据稀缺城市快速部署预测能力提供全新方案。

基本信息

标题：TransFM: A foundation model for cross‑city multimodal transportation demand prediction

期刊:Transportation Research Part C: Emerging Technologies

作者：Zhihuan Jiang, Ailing Huang*, Renhe Jiang, Geqi Qi, Qian Luo, Yoshihide Sekimoto

单位：北京交通大学、东京大学、中国民航局第二研究所等

关键词：基础模型；多模态交通系统；时空预测；混合专家；跨城泛化

发表时间：2026年 3 月在线出版

原文链接：https://doi.org/10.1016/j.trc.2026.105618

核心创新点

范式创新：首次提出面向跨城市多模态交通需求预测的基础模型 TransFM，从单城专用走向全域通用。
模式级创新：设计模式专用记忆增强混合专家（MoE），用私有记忆库编码模式专属特征，通过跨模式记忆交互实现无真实出行关联下的模式联动建模。
城市级创新：提出跨城通用时空 MoE，用异质性感知专家捕捉城‑模式独特性，用通用原型记忆库提炼跨城可迁移时空规律，平衡异质性与通用性。
小样本优势：小样本跨城场景仅微调<6.50% 参数，即可超越全量训练基线，实现数据富城→贫城知识迁移。

论文摘要

精准的多模态交通需求预测对无缝城市出行与主动资源配置至关重要。现有多模态需求预测面临根本困境：专用模型适配特定城市 / 模式，跨城泛化能力差；通用模型强调跨城可迁移表示，但对模式差异、城市异质性刻画不足。

本文提出TransFM基础模型，将多模态交通需求预测从传统单城范式推进至跨城场景，解决两大核心挑战：

1）模式层面：协调模式专属属性与跨模式交互；

2）城市层面：弥合异质性与通用性。

模式层面采用模式专用记忆增强混合专家，为每种模式分配带私有记忆库的专属专家编码特征，通过记忆交互实现跨模式知识联动；城市层面采用跨城通用时空混合专家，用异质性感知专家捕捉城‑模式时空差异，用通用原型记忆库蒸馏跨城可迁移时空模式。

在6 城 4 模式 11 个数据集上的实验表明，TransFM 较先进基线平均提升 5.63%；小样本跨城场景仅微调<6.50% 参数即可取得最优性能，验证其从数据富城向数据贫城迁移知识的卓越能力。

研究动机

现实中，城市交通系统包含地铁、网约车、出租车、共享单车等多种出行模式，各模式在空间结构与功能定位上差异显著，且同一模式在不同城市中的时空需求分布也存在巨大差异，导致传统依赖单城市数据训练的专用模型在迁移至新城市时需要大量数据重训，使数据稀缺城市难以部署。

从学术角度看，现有专用模型虽能在单城单模场景下实现精细建模，但跨城市泛化能力极弱，难以实现知识迁移；而当前基础模型过于强调统一建模，忽视不同交通模式之间的差异性，难以捕捉城市与模式层面的细粒度异质性。同时，跨模式交互建模通常依赖单城市内的真实出行关联，一旦跨城市缺乏直接关联便难以发挥作用。

因此，亟需解决的核心科学问题是：如何构建一个统一的交通基础模型，在实现对各出行模式专属属性精准刻画的同时，有效建模跨模式潜在关联，精细捕捉城市—模式的时空异质性，进而高效蒸馏跨城市的通用规律，并支持在小样本条件下快速适配新城市或新出行模式。

专用模型与基础模型在多模态需求预测中的对比

不同交通模式特征与城市级时空异质性

研究方法

整体框架

跨城多模态交通需求序列 → 统一表征学习 → 模式专用记忆增强 MoE → 跨城通用时空 MoE → 时空解码 → 需求预测

统一表征学习

编码空间、时间、模式、城市四维信息，生成多尺度嵌入；通过 SwiGLU、空洞卷积、Meta‑GCN 完成初步时空特征提取，适配不同模式空间单元（站点 / 网格 / 区域）。

模式专用记忆增强 MoE

为每种模式设专属专家 + 私有记忆库，编码模式独有特征；
支持专家从自身 / 其他模式记忆库检索，无真实出行关联下实现跨模式交互；
门控机制融合主专家（本模式）与辅助专家（其他模式）输出，平衡专属特征与跨模知识。

模式专用记忆增强混合专家（MoE）结构示意图

跨城通用时空 MoE

时空异质性感知 MoE：用元学习生成城‑模式专属参数，通过 GCRU 精细建模时空差异；
跨城通用原型记忆库：共享基库 + 模式注入，蒸馏跨城可迁移时空原型，增强泛化能力。

跨城市通用时空混合专家（MoE）结构示意图

异质性感知专家结构示意图

解码与输出

时空自注意力解码 + 轻量级 MoE 输出层，融合多尺度时空特征，输出最终预测结果；损失函数：Huber 损失 + MAPE联合优化。

实验结果

在 8 个数据集上全面超越 ASTGCN、Graph WaveNet、AGCRN、MVSTT、STAEFormer、L‑STGTN、HimNet 等基线；
相对各数据集最优基线平均提升 5.63%，MAE、RMSE、MAPE 全面最优。

整体性能

多模态对比

移除模式专用 MoE、跨城时空 MoE 均导致性能显著下降，两大核心模块缺一不可，协同提升效果最优。

小样本跨城泛化

测试集：上海地铁、北京地铁、北京出租车（未训练城市）；
仅用10% 训练数据，微调 **≤6.50% 参数 **（出租车仅 0.78%）；
性能大幅超越需全参数训练的基线，小样本跨城迁移能力碾压现有模型。

可解释性

城市 / 模式嵌入聚类清晰，有效编码差异性；

记忆库可捕捉早晚高峰、工作日 / 周末等时间规律；

记忆表征与城市功能区（POI）、需求趋势高度对齐；

跨城市相似功能区记忆表征高度相似，验证通用规律蒸馏有效。

未来展望

拓展零样本预测能力，进一步提升跨城跨模泛化性；
将 TransFM 架构推广至OD 预测、车速预测等更多城市交通预测任务；
融合更多维度数据（如土地利用、天气、事件），提升模型鲁棒性与适用场景；
轻量化与工程化部署，面向真实城市多模式协同调度落地应用。

TransFM 首次将基础模型范式落地跨城多模态交通需求预测，用混合专家 + 记忆架构平衡模式专属、跨模交互、城市异质、跨城通用，在精度与泛化性上取得双重突破，为数据稀缺城市快速构建智慧交通预测系统提供了低数据成本、高泛化、快部署的全新技术路径。

期待你的

在看

END

欢迎关注微信公众号《当交通遇上机器学习》！如果你和我一样是轨道交通、道路交通、城市规划相关领域的，也可以加微信：Dr_JinleiZhang，备注“进群”，加入交通大数据交流群！希望我们共同进步！

· 往期推荐

TR-C 2026 | 同济：GATSim，基于生成式智能体的城市交通仿真框架

TITS |基于动态超图卷积的地铁客流预测

ACM | 提示赋能的通用城市时空预测模型

TITS | 一种用于地铁客流需求预测的深度多任务学习模型

IEEEICDE2025 | TimeKD：融合大语言模型与知识蒸馏的时间序列预测方法

TR-C 2026｜北交大 TransFM：统一建模多模态交通，实现跨城市泛化

别再折腾Mono了！Mac上安装Fiddler Everywhere的保姆级避坑指南（附证书配置）

Agent 记忆系统设计：短期、长期到知识图谱

当Marlin 2.0遇上Arduino IDE：解决STM32定时器中断编译报错的全过程记录

Jackson反序列化进阶：深入解析ACCEPT_EMPTY_*_AS_NULL_OBJECT的适用边界与实战陷阱

告别选择困难！实测三大AI编程助手：Cursor、Windsurf、Copilot，哪个最适合你的项目？