机器学习融合时间序列分解重建缺失劳动力数据：以哥伦比亚为例-平芜编程栈

1. 项目概述：用机器学习重建缺失的劳动力市场数据

在任何一个国家，劳动力市场的健康状况都是衡量经济与社会发展的核心晴雨表。无论是政策制定者评估就业政策的效果，，还是研究者分析经济周期的波动，都离不开准确、及时且空间细分的劳动力统计数据。然而，现实往往骨感。在许多发展中国家，由于预算、技术或地理覆盖的限制，官方的劳动力调查数据常常存在巨大的时空缺口。哥伦比亚就是一个典型的例子：截至2025年，其国家综合家庭调查（GEIH）仅能稳定提供全国33个省份中23个的劳动力指标，其余10个省份长期处于数据“盲区”。这种数据缺失，使得我们无法全面理解区域间的就业不平等、无法精准评估经济危机对不同地区的异质性冲击，更难以制定有针对性的地方发展政策。

面对这种“数据贫困”，传统的插值或简单外推方法往往力不从心。它们要么假设区域间高度同质，要么无法捕捉劳动力市场复杂的非线性动态。这正是机器学习与统计学习方法大显身手的舞台。我最近深度参与并主导了一个研究项目，核心目标就是：利用一套融合了监督学习、时间序列分解和深度学习的统一框架，为哥伦比亚所有33个省份，重建一套从1993年到2025年、月度频率、且内部逻辑一致的完整劳动力市场面板数据。

这不仅仅是一个技术练习。我们最终产出的数据集，首次实现了对七个核心劳动力变量（就业、失业、非经济活动人口、劳动力人口、工作年龄人口、总人口、非正规就业率）的长期、高频、全覆盖监测。更重要的是，我们构建了一个“就业质量指数”（EQI），它不仅仅看就业率高低，还惩罚了“高就业率伴随高非正规率”的畸形结构，为评估区域劳动力市场的“健康度”提供了一个多维视角。下面，我就来拆解这个数据重建项目的完整思路、技术细节和那些从实战中得来的宝贵经验。

2. 核心思路与框架设计：从“盲人摸象”到“全景复原”

重建缺失数据，听起来像是“无中生有”，但我们的方法论核心是“有中生有”——充分利用一切可得的、碎片化的信息，通过统计模型将它们编织成一张完整的图景。整个流程是一个层次分明、环环相扣的管道，我将其概括为“三步走”战略：国家锚定、城市信号、省份重建。

2.1 整体架构：一个分层递进的估计管道

我们的管道设计遵循从宏观到微观、从已知到未知的逻辑。下图清晰地展示了这个多阶段流程：

第一步：建立国家基准线。这是所有重建工作的“定盘星”。我们整合了世界银行、国际劳工组织（ILO）的跨国数据，以及哥伦比亚国家统计局（DANE）的官方家庭调查（GEIH）和人口预测数据。目标是构建一个从1993年到2025年、月度频率的全国劳动力指标一致序列。这里的关键是“时间序列分解”（Temporal Disaggregation）技术。我们手头有世界银行提供的1993-2000年的年度数据，但需要把它变成月度数据。我们采用了Chow-Lin方法，利用消费者价格指数（CPI）、生产者价格指数（PPI）、汇率等月度宏观经济指标作为“指示器”，将年度总量合理地分配到各个月份，使其与2001年后的GEIH月度数据平滑衔接。这个过程确保了全国总量在长期内是连贯和可信的。

注意：直接使用世界银行的原始估计往往无法捕捉哥伦比亚特有的经济周期（如1999年金融危机）。因此，我们进行了“结构性再校准”，根据已知的重大经济事件（如1998-99年衰退、2008年全球金融危机、2020年新冠疫情）对就业和失业序列进行平滑调整，使其更符合历史事实。

第二步：构建城市级预测信号。自2021年12月起，GEIH开始发布32个主要城市的月度劳动力数据。这是一个宝贵的“中间层”信息。我们的策略是，将这些城市数据作为“捐赠者”或“信号发射塔”，将其信息向后（1993-2020年）和向外（无数据的省份）传递。具体做法是：首先，将2021-2025年的城市月度数据聚合为年度中位数；然后，通过相关性分析（使用斯皮尔曼等级相关系数），为每个在2007-2024年间有GEIH数据的“城市域”找到历史上最匹配的“捐赠城市”；接着，采用“比例回推法”将城市信号年度序列扩展至2007年；最后，再次使用时间序列分解技术，将这些年度城市信号转化为月度序列，并与第一步得到的全国月度基准进行对齐。这样，我们就得到了一套覆盖1993-2025年、包含33个（32个真实城市+1个合成的昆迪纳马卡省）城市信号的完整面板。

第三步：重建省级劳动力指标。这是最终目标。对于有GEIH数据的23个省份，我们将其官方年度数据用Chow-Lin方法分解为月度数据。对于全部33个省份（包括10个无数据的），我们采用监督学习模型进行预测。模型以第二步构建的城市月度信号为核心预测变量，同时加入人口结构、宏观经济指标（汇率、通胀、实际最低工资等）以及基于地理经济特征划分的“结构聚类”变量。我们选择了梯度提升回归树（XGBoost）作为主力模型，因为它能有效处理非线性关系和特征交互。模型在23个有数据的省份上训练，然后预测所有33个省份的月度劳动力份额（如就业率、失业率），最后再通过官方人口预测数据，将这些份额转换为绝对人数，并强制满足“就业+失业=劳动力人口”、“劳动力人口+非经济活动人口=工作年龄人口”等会计恒等式。

2.2 为什么选择这样的技术组合？

这个框架的每个技术选型背后都有深思熟虑的考量：

时间序列分解（Chow-Lin）用于基准构建：当我们需要从低频（年度）数据生成高频（月度）数据时，简单的线性插值会忽略经济周期。Chow-Lin方法的优势在于，它利用一个与目标变量相关的、高频的“指示序列”（如月度CPI），通过回归关系将年度总量“分配”到各个月份，使得生成的高频序列既符合年度总量，又能反映指示序列的月度波动模式。这比单纯插值要合理得多。
监督学习（XGBoost）用于空间外推：对于10个没有数据的省份，我们本质是在做“空间外推”。XGBoost这类集成树模型有几个不可替代的优点：首先，它能自动捕捉预测变量（城市信号、宏观经济指标）与目标变量（省份劳动力指标）之间复杂的非线性关系；其次，它对特征缺失不敏感，且能给出特征重要性，帮助我们理解哪些因素驱动了区域劳动力市场差异；最后，它的预测性能通常非常稳健，泛化能力强。
深度学习（神经网络）用于非正规率估计：非正规就业的估计是最大的难点。城市数据无法直接代表农村占比较高的省份，且非正规率与经济发展水平、教育、产业结构等因素的关系高度非线性，甚至存在阈值效应。标准的梯度提升模型在这里容易“回归到均值”，对高非正规率区域的预测误差很大。我们设计了一个定制化的多层感知机（MLP），引入了残差连接和可选的单调性约束（例如，强制模型认为“教育水平提高”对“非正规率”的影响是负向的）。这种灵活的神经网络架构更适合捕捉这种异质且复杂的模式。
会计恒等式的强制约束：这是保证数据“逻辑自洽”的生命线。无论模型预测出什么结果，最终都必须满足“就业+失业=劳动力人口”这样的基本等式。我们在后处理阶段通过比例缩放进行强制对齐。这虽然会轻微调整模型预测值，但确保了整个数据集在数学上是严谨的，避免了出现“失业人数大于劳动力人口”这类荒谬结果。

3. 数据准备与特征工程：魔鬼在细节中

一个机器学习项目成功与否，八成取决于数据质量与特征工程。在这个项目中，数据准备工作异常繁琐但至关重要。

3.1 多源数据的清洗与对齐

我们面对的数据源五花八门：世界银行的年度跨国数据、ILO的估计、DANE的月度家庭调查、年度人口预测、宏观经济时间序列、城市级数据。第一步是彻底的“概念对齐”。例如，不同来源对“失业”的定义可能有细微差别，我们必须确保在整个时间序列上使用的是同一套标准。对于人口数据，DANE发布了多个版本（1993-2004, 2005-2019, 2020-2050），我们需要将它们平滑地拼接成一个从1993年到2035年的连续序列，作为所有比率计算的分母。

实操心得：处理断裂的时间序列：当官方统计方法变更或数据源切换时，时间序列经常出现断裂。我们的策略是“先回推，后对齐”。以城市数据为例，我们不是简单地将2021年后的新数据与旧数据拼接，而是先利用有重叠期的旧数据（23个城市域）建立与新数据（32个城市）的相关性映射，将新数据的“模式”回推到历史时期，形成一个长的、连贯的“信号”序列。这比直接拼接能更好地保持历史趋势的连续性。

3.2 预测变量的构建与选择

我们为监督学习模型构建了一个统一的月度特征矩阵。变量选择遵循三个原则：自1993年起可用、月度频率、与劳动力市场动态有经验相关性。最终纳入的预测变量包括：

宏观经济变量：名义汇率（TRM）、消费者价格指数（CPI）、生产者价格指数（PPI）、进出口额、工业生产总值指数（IPI）、实际价值单位（UVR）。这些是反映整体经济周期的同步或滞后指标。
制度变量：法定最低工资、交通补贴。我们通过CPI平减生成了一个“实际最低工资”代理变量。
人口变量：各省份的城乡人口份额（来自官方预测）。这是控制结构性差异的基础。
核心信号：从城市数据重建得到的月度劳动力指标（就业率、失业率等）。这是最具预测力的变量。
结构聚类变量：我们将33个省份根据人口、地理、经济特征进行聚类（例如，首都区、加勒比沿海地区、安第斯山区、亚马逊地区等）。每个聚类的劳动力指标平均值被作为一个特征，这相当于让模型知道“这个省份属于哪一类地区”，从而借鉴同类地区的平均模式。

重要技巧：防止数据泄露：在预测劳动力“份额”（如就业人口/工作年龄人口）时，我们刻意没有将“工作年龄人口”这个变量放入特征中。因为我们的目标就是就业人口的绝对数，如果模型知道了分母（工作年龄人口），它可能会通过简单的除法关系“作弊”，导致严重的过拟合。正确的做法是，模型预测份额，我们在后处理阶段再用独立的人口预测数据将份额转换为绝对数。

3.3 为无数据省份引入“信息桥梁”：聚类策略

对于10个没有GEIH数据的省份，模型在训练时完全“看不见”它们。如何让模型能够合理地预测它们？单纯的宏观经济变量和人口变量可能不够。我们引入了“结构聚类”作为信息桥梁。具体规则是：每个聚类中必须至少包含一个有GEIH数据的省份。这样，当模型预测一个无数据省份时，它可以通过该省份所属的聚类特征，间接“借用”同类省份的劳动力动态模式。这相当于为模型提供了关于该地区经济结构类型的先验知识，极大地改善了外推效果。

4. 模型训练、验证与后处理

有了干净的数据和特征，就进入了模型构建的核心环节。我们的目标不是追求训练集上的最高分数，而是确保模型在未知省份和未知时间点上依然可靠。

4.1 多输出预测与模型训练

我们同时预测五个核心劳动力指标：工作年龄人口（PET）、劳动力人口（PEA）、就业人口、失业人口、非经济活动人口。采用多输出预测（Multi-output Regression）而不是为每个指标单独建模，是因为这些变量之间存在强烈的内在关联（会计恒等式）。联合建模可以让模型学习到这些变量之间的协同变化模式，预测结果在逻辑上会更一致。

我们选择了XGBoost模型。在训练前，对所有特征和目标变量进行了标准化。训练集仅包含23个有观测数据的省份。模型参数通过网格搜索结合交叉验证进行调优，重点关注树的深度、学习率和正则化参数，以防止过拟合。

4.2 严苛的验证策略：模拟最坏情况

我们设计了四种验证方案，层层加码地测试模型的泛化能力：

全样本拟合：在所有23个有数据的省份上训练并评估。这给出了模型性能的上限，但参考价值有限。
时间分层留出法：按时间将数据分为80%训练集和20%测试集（例如，用1993-2015年数据预测2016-2025年）。这测试模型对未来时间的预测能力。
留K省出法：随机隐藏K个（我们取K=3）省份的所有数据，用剩余省份训练，然后预测被隐藏的省份。这模拟了当一部分地区完全缺乏数据时的外推场景。
留一省出法：迭代地将每一个省份作为测试集，用其他所有省份训练。这是最严苛的测试，模拟了预测一个全新、完全无数据省份的情况。

验证结果与解读：

时间分层留出法的平均绝对百分比误差（MAPE）约为1.38%，说明模型在时间维度泛化能力很好。
留一省出法（LOGO）的误差上升到10-12%。这个数字看似不小，但必须放在背景下理解：我们是在完全不知道这个省任何劳动力数据的情况下进行预测。考虑到区域间巨大的差异性，这个误差水平是可以接受的，并且显著优于简单的均值填充或空间插值方法。它清晰地揭示了模型外推的极限：当目标区域与训练集省份的结构性差异过大时，预测不确定性会显著增加。

4.3 后处理：从预测值到可用数据

模型输出的是月度份额（如就业率）。后处理是将这些份额转化为最终可用的数据面板的关键步骤：

全国对齐：将33个省份预测的份额加总，其全国总量必须与第一步构建的国家基准线完全一致。我们通过比例缩放进行调整。
转换为绝对水平：将对齐后的份额，乘以对应省份、对应月份的官方工作年龄人口预测数，得到就业、失业等的绝对人数。
强制会计恒等式：检查并微调数据，确保“就业+失业=劳动力人口”、“劳动力人口+非经济活动人口=工作年龄人口”严格成立。通常通过最小化调整量的优化算法实现。
非正规就业的特别处理：对于神经网络预测的非正规率，我们将其与重建的就业总数相乘，得到非正规就业人��。同样，需要将各省加总后与全国非正规就业基准对齐，再重新计算回非正规率。

5. 成果、验证与就业质量指数构建

经过上述复杂流程，我们最终得到了一个覆盖哥伦比亚33个省份、1993年1月至2025年12月、包含7个核心劳动力变量的完整月度面板数据集。

5.1 精度验证：与官方数据对比

我们使用2007年至2024年有官方GEIH年度数据的省份进行样本内验证。所有核心指标的MAPE均低于2.3%。非正规率的估计与城市级月度基准（2007-2025）的误差也在可接受范围内（MAPE < 2.1%）。这意味着，我们的重建数据在已知区域和已知时间段内，与真实调查数据的吻合度非常高。

更令人鼓舞的是，重建的序列成功捕捉了哥伦比亚劳动力历史上的关键时期：1990年代末的参与率持续上升、1999年金融危机的急剧收缩、2000年代中期的部分复苏、2008年全球衰退的再次冲击，以及新冠疫情造成的混乱。这说明我们的模型不仅拟合了静态水平，更捕捉到了动态趋势。

5.2 构建就业质量指数

有了全面的数据，我们就可以进行更深度的分析。我们构建了一个就业质量指数（Employment Quality Index, EQI），旨在超越单一的就业率，从多维度评估一个地区劳动力市场的“健康度”。

EQI的构建步骤如下：

指标选择与处理：选取就业率、劳动力参与率、失业率、非正规就业率等关键指标。首先对它们进行平滑处理（如使用HP滤波或移动平均），以消除季节性波动，突出长期趋势。
方向性与标准化：将指标转化为“越高越好”的方向。例如，就业率是正向指标（越高越好），而非正规率是负向指标（越低越好）。我们将其取倒数或负值进行处理。然后，将所有指标标准化到0-100的百分位数。
加权聚合：给每个标准化后的指标赋予权重（通常根据其政策重要性，也可等权加总），计算加权平均，得到初步的EQI分数。
惩罚调整：这是EQI的核心创新。我们引入一个惩罚项，专门针对“高就业率与高非正规率并存”的情况。例如，一个地区就业率很高，但几乎都是非正规就业，其EQI分数会被大幅调低。这反映了“有工作”和“有好工作”的本质区别。
分类与可视化：根据EQI分数，将各省份分为“极低”、“低”、“中”、“高”、“极高”五个等级。通过“ bump chart ”（ bump 图）可以直观展示各省份排名随时间的变化，清晰看出哪些地区在进步，哪些在停滞或倒退。

这个EQI为政策分析提供了强大的工具。决策者可以一眼看出哪些地区的劳动力市场在“虚胖”（高就业但低质量），哪些地区在“健康增长”（就业率和质量同步提升），从而将资源更精准地投向最需要改善的维度。

6. 常见问题、挑战与实战心得

在这个长达数月的项目中，我们踩过了无数的坑，也积累了大量在论文中不会详述的实操经验。

6.1 数据与模型层面的典型挑战

挑战：城市数据无法代表农村地区
- 问题：我们的核心预测信号来自城市，但许多省份农村人口占比很高，其劳动力市场结构与城市迥异。
- 解决方案：我们并未直接使用城市数据，而是将其作为“信号”之一。模型同时纳入了该省份的城乡人口结构特征。更重要的是，我们通过“结构聚类”变量，让模型知道这个省份属于“农业主导型”还是“城市主导型”区域，从而调整从城市信号中汲取信息的权重。对于非正规率，我们更是采用了更复杂的神经网络来捕捉这种城乡异质性。
挑战：宏观经济指标的滞后性与共线性
- 问题：CPI、汇率等指标与劳动力市场的变化可能存在时滞，且这些指标之间高度相关（共线性），会影响模型稳定性和解释性。
- 解决方案：在特征工程中，我们不仅使用当期值，还构建了滞后项（如前3个月、6个月的平均值）作为特征。对于共线性，树模型（如XGBoost）本身对其不敏感，这是选择它的一个优势。但我们仍会通过方差膨胀因子（VIF）检查，必要时移除相关性过高的变量。
挑战：模型在“留一省出”验证中误差较大
- 问题：LOGO验证误差达到10-12%，表明对某些结构特殊的省份预测不准。
- 解决方案：首先，接受这是外推的固有不确定性，并在最终报告中明确说明。其次，我们分析了误差最大的省份，发现它们通常具有极端的经济结构（如高度依赖单一产业、或地处偏远亚马逊地区）。为此，我们改进了聚类策略，确保每个聚类内部更具同质性。同时，我们为这些“特殊省份”生成了预测区间（而非单一值），以量化不确定性。

6.2 流程与工程化心得

心得：建立可复现的自动化管道
- 整个流程涉及数据下载、清洗、分解、建模、后处理、验证等多个步骤。我们早期用脚本串联，经常因为中间文件格式或路径问题出错。后来，我们使用Makefile或Apache Airflow这样的工具构建了自动化管道。每个模块有明确的输入输出，管道自动按顺序执行，并记录日志。这极大地提高了效率，也保证了结果的可复现性。
心得：版本控制一切
- 不仅仅是代码，数据、模型参数、甚至生成的图表，我们都用DVC（Data Version Control）结合Git进行管理。这让我们可以随时回溯到任何一个历史版本，比较不同参数或特征组合下的结果差异。当合作者问“为什么某个月的数看起来不对劲？”时，我们可以快速定位到是哪个环节的数据或代码版本导致了变化。
心得：可视化贯穿始终
- 不要等到最后才画图。在数据清洗阶段，我们就绘制每个省份每个指标的时间序列图，肉眼检查异常值和断裂点。在模型训练阶段，我们实时绘制预测值与真实值的对比图、残差图、特征重要性图。这不仅能快速发现问题（比如某个省份的预测曲线出现不合理的跳跃），也能帮助我们向非技术背景的合作伙伴直观解释模型在做什么、效果如何。
心得：后处理中的“艺术”
- 强制会计恒等式听起来是机械的，但具体如何调整（是调整就业数还是失业数？按什么比例调整？）需要谨慎。我们的原则是：优先调整预测不确定性更高的变量。例如，通常失业率的预测误差比就业率大，因此在平衡恒等式时，我们会更多地微调失业人数，尽量保持就业人数的预测值不变。这需要结合业务理解来判断。

这个项目最终产出的不仅是一个数据集，更是一套应对“数据稀疏环境下社会经济指标重建”的完整方法工具箱。它证明了，通过巧妙地融合传统计量经济学（时间序列分解）、现代机器学习（监督学习、深度学习）和严谨的统计约束（会计恒等式），我们能够从碎片化的信息中，拼凑出一幅相对可靠、可用于严肃政策分析的宏观图景。对于其他面临类似数据挑战的国家和地区，这套技术路径提供了极具参考价值的范本。