北京航空航天大学联合澳门大学,共同开发了跨 POI、道路、地块的统一地图要素表征学习工具库:VecCity。
该工具库通过统一数据、统一流程、统一测评,集成了 9 座城市数据、复现 21 种主流的时空要素表征模型,覆盖 POI /道路/地块城市地图全要素,为研究者和开发者提供一站式的建模、预训练、微调与评测支持的工具集。
基于 VecCity 这一翔实的工具库,论文还对不同地图表示学习技术路线进行了对比,进一步揭示了各路线的优势与不足。
例如,完整的 “token–graph–sequence” 三阶段模型在道路场景中表现最优,序列增强与对比学习在 POI 任务中优势显著,而图神经网络在复杂关系建模中更具鲁棒性。
VecCity 算法库基于论文作者团队(北航 BIGSCITY 实验室)此前所提出的 “LibCity 时空数据处理统一基座平台”(http://www.libcity.ai),将为地图数据表示学习(MapRL)提供重要基础设施。
本文第一作者为北京航空航天大学计算机学院博士生张文涛,通讯作者为北京航空航天大学计算机学院王静远教授。目前该研究已被 VLDB 2025 正式接收,相关代码与模型已经全部开源。
论文标题:
VecCity: A Taxonomy-guided Library for Map Entity Representation Learning
论文链接:
https://arxiv.org/abs/2411.00874
代码链接:
https://github.com/Beihang-BIGSCity/VecCity
研究背景
电子地图由多种类型的实体组成,包括兴趣点(POI)、路段(Road Segment)和地块(Land Parcel),分别对应着几何学中的点、线、面三类核心要素。
这些实体承载了丰富的时空信息,在智能交通系统(ITS)和基于位置的服务(LBS)等关键应用中扮演着不可或缺的角色。
地图实体表示学习(Map Entity Representation Learning,MapRL) 旨在利用预训练技术生成通用且可复用的数据表示,为高效管理与利用地图实体数据提供了关键技术支撑。
然而,尽管 MapRL 发展迅速,目前仍面临两个核心挑战,限制了领域的进一步发展:
1. 研究碎片化(Fragmented Research Fields):现有研究通常按“点、线、面”等实体类型进行划分。这种割裂导致不同实体间的技术难以复用(例如为路段设计的图编码器难以直接用于地块),阻碍了技术的融通。
2. 缺乏统一基准(Lack of Standardized Benchmark):不同模型往往在不同的数据集和实验设置下进行评估。缺乏标准化的 Benchmark 使得横向对比变得极其困难,难以总结出通用的设计原则。
为了应对这些挑战,本文提出了一种全新的 MapRL 模型分类方法:不再以实体类型为划分标准,而是从模型的功能模块出发,围绕编码器、预训练任务与下游任务等核心组件对现有方法进行统一归类。
在此基础上,我们构建了一个以分类体系为核心指导的开源算法库 VecCity,并对经典模型进行了全面的评估分析。本文的主要贡献包括:
全新的分类体系:提出 Method-based 的时空数据表征分类体系,将模型解构为编码器、预训练任务与下游任务,打破了按实体类型划分的传统壁垒,实现了跨实体技术的统一梳理;
统一的开源算法库:构建了 VecCity 库,实现数据处理、模型实现、训练流程与评估方法的深度解耦,支持高效复用与灵活组合,显著提升模型开发效率;
标准化评测基准:整合来自九座城市的数据集,复现了 21 个主流 MapRL 模型,建立了领域内首个标准化的 Benchmark,并进行了全面的系统评估与归因分析。
基于方法的分类方法
为了打破“碎片化”的僵局,本文不再以实体类型为核心,而是围绕模型的功能模块进行解构,提出了一种 Method-based 的分类体系。
我们发现,MapRL 模型的核心组件——编码器(Encoder)和预训练任务(Pre-training Tasks)——并不与特定的地图实体类型强耦合。
因此,我们将 MapRL 模型解构为四个核心要素:
1. 地图数据(Map Data):数据是表征学习的基石。本文将地图数据抽象为两个层面:首先是地图实体(Map Entities),无论是点状的 POI、线状的路段,还是面状的地块,都被统一建模为包含 ID、类型、几何形状及属性特征的通用对象。
其次是辅助数据(Auxiliary Data),整合了轨迹数据(Trajectories)与关系网络(Relation Networks),旨在为模型引入动态时序信息与全局拓扑结构,从而显著增强表征的上下文感知能力。
2. 编码器模型(Encoder Models):编码器是将原始数据映射到潜在向量空间的核心引擎,根据处理的数据结构不同,可划分为三大范式:
Token-based 编码器负责处理实体的静态属性特征(如 POI 类别、地理坐标),构建基础语义嵌入;
Graph-based 编码器利用图神经网络(GNN)建模实体间的拓扑关联(如路网连接、OD 交互),捕捉空间结构信息;
Sequence-based 编码器则利用序列模型(如 Transformer、RNN)处理轨迹数据,捕捉实体在时间维度上的动态演化规律。
3. 预训练任务(Pre-training Tasks):本文提炼出了一套跨越实体类型的通用学习目标,通过构造自监督信号驱动编码器学习鲁棒表征。
其中包括旨在强化语义判别力的 Token 级任务(如属性推理 TokRI、对比学习 TRCL),旨在保留全局拓扑特性的 Graph 级任务(如图结构重构 GAu、邻域对比学习 NCL),以及旨在捕捉长程时序依赖的 Sequence 级任务(如掩码轨迹恢复 MTR、轨迹预测 TrajP)。
4. 下游任务(Downstream Tasks):该部分是模型与实际应用对接的接口,也是唯一与实体类型强相关的组件。它负责将预训练好的表征适配于特定的应用场景,如 POI 分类、路段速度推断及地块人流预测等,从而量化模型的泛化性能。
现有模型总结:基于这一分类体系,我们对现有的主流模型进行了重新梳理。我们发现,大多数先进模型都遵循 “Token → Graph → Sequence” 的建模流水线:首先提取基础特征,然后融合关系结构,最后捕捉时序依赖。
VecCity:分类学指导的开源算法库
基于上述分类体系,我们开发了 VecCity 算法库。它不仅仅是一个代码集合,更是一个标准化的开发平台。其核心架构包含三个功能模块,并通过统一的配置(Config)与评估(Evaluation)模块串联,覆盖了 MapRL 开发的全流程:
1. 数据模块(Data Module):
(1)原子文件(Atomic Files):VecCity 定义了三种原子文件格式—— geo(存储地图实体)、traj(存储轨迹数据)和 rel(存储关系网络)。这种设计屏蔽了原始数据(如 Shapefile,GeoJSON,NPZ 等)的格式差异,实现了数据的统一加载与处理。
(2)丰富的内置数据:库中预置了来自纽约、芝加哥、东京、新加坡、波尔图、旧金山、北京、成都、西安等 9 个城市的标准化数据集,涵盖了不同规模和类型的城市形态。同时,我们还提供了数据转换脚本,支持导入私有数据。
2. 上游模块(Upstream Module):
(1)标准化接口:通过 encode() 和 pretraining _loss() 两个核心接口,将编码器实现与预训练任务解耦。encode() 负责将原子文件转化为向量,而 pretraining_loss() 则封装了数据掩码、负采样、数据增强等复杂的预训练逻辑。
(2)全面覆盖:我们集成了 21 个主流 MapRL 模型,覆盖 POI、路段和地块三大类实体(每类 7 个模型),为研究人员提供了简单易用的 Baseline 库。
3. 下游模块(Downstream Module):
(1)灵活微调:提供 downstream_model() 接口实现微调模型(如 MLP 分类器、LSTM 回归器),以及 finetuning_loss() 接口定义优化目标(如交叉熵、MSE、InfoNCE)。
(2)多任务支持:内置了 9 类典型的下游任务,包括 POI 分类、下一跳预测、路段速度推断、旅行时间估计、地块功能分类、人流预测等,支持对表征质量进行全方位的评估。
4. 配置与评估(Configuration & Evaluation):通过统一的配置文件即可控制“数据加载 → 预训练 → 微调 → 评估”的全生命周期,用户无需编写繁琐的胶水代码即可运行实验。
实验分析
利用 VecCity,本文建立了领域内首个标准化的 Benchmark,对 21 个主流模型在统一环境下进行了全方位的评测与分析。
4.1 总体性能对比
我们在 POI、路段和地块的三类下游任务上进行了广泛的对比实验,不仅给出了准确的性能排名,还通过深度分析总结了每类实体的建模关键。
POI 表征学习:实验结果显示,CTLE 和 CACSR 等引入了序列编码器(Sequence-based Encoder)的模型,表现显著优于仅依靠静态特征的模型。这主要是因为轨迹数据中蕴含了丰富的用户移动模式信息。
进一步分析发现,相比于传统的下一跳预测(TrajP),采用掩码轨迹恢复(MTR)和增强轨迹对比学习(ATCL)的任务表现更好。
这是因为 TrajP 仅关注相邻点的短期依赖,而 MTR 和 ATCL 能够迫使模型捕捉整条轨迹中的长距离时序依赖(Long-range dependencies),从而生成更具判别力的 POI 表征。
Takeaway:轨迹序列建模与长程依赖捕捉是 POI 表示学习的关键。
路段表征学习:路段表征因涉及路网拓扑与动态交通流的耦合,复杂度最高。实验发现,JCLRNT 和 START 等模型凭借 “Token + Graph + Sequence” 的全流程建模拔得头筹。
这表明,要精准刻画路段特性,既不能脱离静态的路网结构(Graph),也不能忽视动态的交通流序列(Sequence)。
此外,多视角预训练在其中也发挥了关键作用,例如 JCLRNT 巧妙结合了图对比学习和轨迹对比学习,相比单一视角的模型展现出更强的性能。
Takeaway:“Token+Graph+Sequence” 的全流程建模与多视角预训练是路段表征学习的制胜法宝。
地块表征学习:对于地块而言,其功能属性(如商业区、住宅区)很大程度上由其内部包含的 POI 决定。实验数据清晰地表明,ReMVC 和 HREP 等显式融合 POI 语义特征的模型,显著优于仅利用移动流(Mobility Flow)的模型。
POI 类别分布为地块提供了关键的上下文信息(Contextual Information),有效弥补了仅靠人流数据在功能区分度上的不足。值得注意的是,目前该领域的主流仍是 Token + Graph 架构,序列信息的利用尚有巨大的挖掘空间。
Takeaway:POI 语义特征的显式融合是精准理解地块功能属性的核心要素。
4.2 深入探究:预训练任务的组合效应
除了基准测试,我们利用 VecCity 的模块化特性进行了系统性的消融实验,以探究不同类别预训练任务的组合效果。
实验结果深度分析了多视角预训练(Multi-view Pre-training)策略,即融合 Token、Graph 和 Sequence 异构视角的任务,对模型性能的影响。
进一步的分析揭示了针对不同地图实体的最优任务配置:
对于 POI 实体:POI 表征的核心在于兼顾静态的功能语义与动态的访问模式。实验表明,TokRI(关系推理)+ MTR(掩码轨迹恢复)是最有效的任务组合。TokRI 专注于捕捉显式的类别与属性语义,而 MTR 通过对轨迹序列的掩码重建,有效捕捉了长距离的时序依赖,两者在特征空间上形成了良好的互补。
然而,在数据稀疏(如低频访问)的场景下,TrajP(轨迹预测)任务因其更关注局部时序依赖,表现出更强的鲁棒性。
对于路段实体:路段数据天然受限于路网的拓扑结构。实验显示,AGCL(增强图对比学习)展现出显著的性能优势,这表明捕捉地理关系网络中的空间依赖是路段表征的基础。
在此基础上,若数据密度较高,引入 MTR 任务可进一步增强时序特征的表达;而在稀疏数据条件下,TrajP 则是更为适宜的辅助任务。
对于地块实体:地块的功能属性通常隐含在复杂的 POI 分布中,易受噪声干扰。实验发现,AToCL(增强 Token 对比学习)的表现最优。通过数据增强与对比学习机制,AToCL 能够有效过滤冗余的语义特征,提炼出地块的核心功能属性,从而生成更具鲁棒性的表征。
此外,在涉及社交关系网络(如人流移动)的场景中,基于图重建的 GAu 任务通过建模节点间的相似性连接,也提供了重要的补充信息。
4.3 效率与可扩展性分析
除了性能指标,模型的效率与可扩展性决定了其能否真正落地于大规模城市应用。我们从参数量、训练时间及推理时间三个维度对模型进行了全面分析。
Token-based 模型:Token-based 模型(如 P2Vec,Tale)展现出了极佳的可扩展性。由于结构相对简单,它们在处理海量数据时,依然能保持较低的训练耗时和参数规模。对于对实时性要求极高、数据规模巨大的应用场景,这类模型是性价比极高的选择。
Graph-based 模型:Graph-based 模型的效率高度依赖于预训练任务的复杂度。例如,采用图自编码器(GAu)任务的模型(如 HRNR),随着图节点数量的增加,其训练时间呈现出超线性增长的趋势,这在大规模路网中可能成为瓶颈。
相比之下,采用更高效采样策略或简化图结构的模型(如 HREP)则表现出更强的鲁棒性。
Sequence-based 模型:虽然引入序列编码器显著提升了模型在轨迹相关任务上的精度,但这并非“免费的午餐”。
实验数据显示,Sequence-based 模型普遍面临参数量激增和推理延迟的问题。特别是在在线推理阶段,复杂的序列计算使得其响应速度远低于其他两类模型。
因此,它们更适合对精度敏感但对延时容忍度较高的离线分析场景。
总之,在实际部署中,不存在绝对的“完美模型”。开发者需要在模型复杂度(精度)与推理时延(效率)之间寻找最佳平衡点:全流程模型适合追求极致精度的场景,而轻量级模型则是大规模实时服务的首选。
总结
面对电子地图中庞大且多样的实体数据,VecCity 以原创“方法学驱动”的统一分类体系突破现有研究碎片化困境,首次实现跨 POI、道路、地块的通用化建模框架。
基于统一的原子化数据格式,VecCity 集成了来自 9 座城市的真实数据,复现 21 种主流 MapRL 模型,构建了该领域首个系统化、可复现的标准基准。
更重要的是,VecCity 对不同技术路线进行了系统、细致的对比评测,揭示了各类模型在特征表达、结构建模与时空依赖捕捉方面的优势与不足。
例如,完整的 “token–graph–sequence” 三阶段模型在道路场景中表现最优,序列增强与对比学习在 POI 任务中优势显著,而图神经网络在复杂关系建模中更具鲁棒性。
这些结论为研究者选择模型范式、优化算法设计提供了清晰的实证依据。
凭借模块化、标准化与全面评测能力,VecCity 不仅提升了模型复用与实验效率,更为 MapRL 领域的理论研究、算法创新和应用落地提供了坚实的基础设施。
相关信息
如果你觉得本文有用的话,请引用:
@article{10.14778/3742728.3742749, author = {Zhang, Wentao and Wang, Jingyuan and Yang, Yifan and U, Leong Hou}, title = {VecCity: A Taxonomy-Guided Library for Map Entity Representation Learning}, year = {2025}, volume = {18}, number = {8}, doi = {10.14778/3742728.3742749}, journal = {Proceedings of the VLDB Endowment.}, pages = {2575–2588}, }指导教师:
王静远教授
https://www.bigscity.com/jingyuan-wang/
课题组:
北京航空航天大学计算机学院 BIGSCITY 实验室
https://www.bigscity.com/
智慧城市大数据智能组(BIGSCITY)专注于数据智能驱动的城市智能关键技术,重点涵盖城市计算、时空数据挖掘、可解释机器学习等方向。
团队已在智慧城市、数据挖掘、人工智能等领域发表 PNAS、UTD24、CCF A 等高水平论文近百篇。相关技术已落地城市规划、智能交通、医疗服务等场景,在北京、天津、深圳、无锡、成都等地应用。实验室长期招聘青年教师、博士后,招收博士研究生以及实习生。有意者请联系 bigscity@126.com.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·