汉阳大学与韩国外国语大学联手破解医疗数据困局-平芜编程栈

这项由韩国汉阳大学与韩国外国语大学联合开展的研究，于2026年6月以预印本形式发布（论文编号：arXiv:2606.19827），目前正在等待正式会议或期刊收录。对完整技术细节感兴趣的读者，可通过该编号在arXiv平台查阅原文。

医院里每天都在产生海量的表格数据——患者年龄、血压读数、实验室检验结果、病史评分……这些数据被整整齐齐地排列在电子健康档案里，却像一座巨大的沉睡宝库，很少被充分挖掘。原因并不难理解：要让AI从这些数据中真正学到有用的知识，通常需要医生逐一标注每条记录——"这位患者有肝脏问题"、"那位患者心衰风险高"——但医生的时间极其宝贵，标注工作既昂贵又耗时。

研究团队从这个痛点出发，探索了一种让AI在没有人工标注的情况下，依然能从医疗表格数据中自主学习的方法。他们的核心创新，可以用一个非常直观的比喻来理解：教一个孩子认识事物，你不会一开始就要求他分辨"米其林三星餐厅的红酒与二星餐厅的区别"，而是先让他分清"甜的还是咸的"，等他掌握了基础，再逐步引导他识别更细微的差异。这个"从粗到细、循序渐进"的思路，就是这篇论文的灵魂所在，研究团队将整套方法命名为"自适应分箱"（Adaptive Binning）。

一、为什么表格数据让AI如此头疼

在理解这项研究的创新之前，有必要先搞清楚一个问题：AI处理图片、文字都已经相当成熟，为什么一遇到医疗表格数据就犯难？

图片有像素的空间规律，文字有语法和语义的序列结构，但表格数据两样都没有。一张表格里，第一列可能是患者性别（男/女/其他），第二列是年龄（具体数字），第三列是某项血液指标（浮点数），第四列是是否有某种病史（是/否）。这些数字和类别混在一起，彼此之间的关系复杂且非线性，就像一个菜单里同时出现了食材重量、烹饪时间、口味评分和菜系分类，AI很难找到统一的"语言"来理解它们。

正因如此，在没有标注数据的情况下，传统的深度学习方法在表格数据上的表现往往不如XGBoost、CatBoost这类基于决策树的经典算法。这些决策树算法天生擅长处理混合类型数据，会自动对数据进行"切分"——比如把年龄分成"小于45岁"和"大于等于45岁"两组，再在每组内继续切分，最终形成一棵判断树。

于是，有研究者萌生了一个聪明的想法：既然深度学习在表格上打不过决策树，那能不能让深度学习也学会决策树那种"切分"的思维方式？具体来说，就是把连续的数值特征（比如年龄）预先分成若干个"箱子"（比如0-20岁、20-40岁、40-60岁……），然后让AI预测每个数据点落在哪个箱子里。这种方法叫做"分箱预训练任务"，在无标注学习领域已经被验证是有效的——这正是这篇论文所改进的基础方法（由韩国延世大学等机构2024年提出，发表于国际机器学习大会ICML）。

然而，已有的分箱方法存在一个根本性的局限：所有特征从头到尾都用同样数量的箱子，箱子的边界在训练开始前就固定死了，整个过程中从不调整。这就好比教学生认识音乐，无论是学鼓还是学钢琴，无论是初学者还是进阶者，永远只给他们同一套粗粒度的乐理入门知识，而不根据每个学生的进展来调整教学深度。这种"一刀切"的方式，自然会留下大量可以改进的空间。

二、从"一套固定菜谱"到"因材施教"：自适应分箱的核心逻辑

汉阳大学与韩国外国语大学的研究团队设计了一套精妙的机制，让AI在学习过程中能够动态调整每个特征的"分箱精细度"。整套方法由三个紧密配合的模块构成，分别回答了三个关键问题：何时细化、在哪里细化、如何在细化的同时保持正确的学习方向。

**一、何时细化——特征级高原触发机制（FPT）**

每一位有经验的教练都知道，运动员的训练不能一直停留在同一难度上，但也不能毫无根据地随意加难。最好的时机，是当运动员在当前难度上已经达到瓶颈、进步停滞时，再推进到下一个层次。

研究团队把这个逻辑直接搬进了AI的训练过程。在整个预训练阶段，AI会同时学习多个数值特征，比如患者年龄、血压、胆固醇水平等。每个特征的学习进度是不同的——有些特征的规律简单，AI很快就能掌握；有些特征的规律复杂，需要更长时间。系统会独立监控每一个特征的学习损失（一个衡量AI预测有多不准的指标），当某个特征的损失在连续若干轮训练中不再下降、陷入"高原期"，系统就会判定："好了，这个特征在当前粗粒度下已经学到头了，是时候把它的箱子分得更细，给AI一个更难的挑战。"

这种按需触发、特征各自为政的机制，避免了全局统一加难带来的效率损耗——那些还在快速进步的特征不会被打扰，而已经停滞的特征会得到针对性的推进。研究中将这个等待周期（高原触发所需的轮数）设为5轮，通过大量实验验证这是一个稳健的默认值。

**二、在哪里细化——基于分散度的信息增益分裂机制（DIGS）**

当某个特征被判定需要细化时，新的分界线应该画在哪里？这是第二个需要回答的问题。

最简单的方法是直接用统计学中的方差减少原则：把一个箱子从中间劈开，使得两个子箱内部的数值差异尽可能小（即降低方差）。这和决策树的分裂逻辑如出一辙，直觉上合理，但有一个盲点：它完全无视了AI当前已经学到的"内心世界"——那些被AI处理后形成的高维表示向量。

研究团队在这里加入了一个独到的设计。他们不仅考虑数值空间中的方差减少，还同时考虑AI内部表示空间中的"分散度减少"。简单来说，就是：候选的分割线不仅要让两组数据在原始数值上更均匀，还要让AI对两组数据的"理解"在语义空间中更加聚焦、内部更加一致。

这就像在图书馆重新分类书籍，不仅要按照出版年份（原始数值）来划分，还要参考读者实际借阅行为形成的隐含相关性（表示空间）。只有同时满足两个维度的分割，才能真正提升分类的质量。最终，系统会计算每个候选分割的综合得分——数值方差减少量乘以表示分散度减少量——只有当得分超过预设阈值时，这个分割才会真正执行。研究将这个阈值设为万分之一，并通过系统性实验证明这个选择相当稳健。

**三、如何细化——异质感知的序数损失函数（HORD）**

前两个模块解决了"何时"和"在哪里"的问题，第三个模块则解决"用什么方式学习"的问题。

医疗表格中的特征大致分为两类：一类是纯类别型特征，比如性别、民族，这些类别之间没有大小顺序之分，"男"不比"女"大，也不比"女"小；另一类是数值型特征，比如年龄、血压，这些特征被分成箱子后，箱子之间是有顺序的——第1箱代表最小值范围，第3箱代表中间值范围，第5箱代表最大值范围，预测错一格比错五格要轻得多。

现有的分箱方法对两类特征一视同仁，都用均方误差（方差）来衡量预测的好坏，这对数值特征来说是个合理的近似，但本质上忽略了箱子之间的有序关系。研究团队为此设计了一套新的损失函数，对类别特征沿用经典的交叉熵损失（即让AI准确预测属于哪个类别），而对数值特征则引入了"软序数标签"——当真实答案是第3箱时，不是硬性要求AI只能预测第3箱，而是用一个以第3箱为中心、向两侧衰减的分布作为目标，预测成第2箱或第4箱扣的分比预测成第1箱或第5箱少得多。此外，这个损失函数还加入了对预测分布的均值和方差的约束，防止AI做出过于模糊或过于极端的预测。

最终，整个预训练的损失函数将类别特征的损失和数值特征的损失按照各自的特征数量加权平均，无论一张表格里类别特征多还是数值特征多，两类特征都能获得公平的监督信号。

三、在什么数据上验证，验证了什么

为了让实验结果有说服力，研究团队专门整理了一个标准化的医疗表格数据集基准，涵盖了来自不同临床场景的八个公开数据集。这八个数据集覆盖了几乎所有常见的预测任务类型，包括两个二分类任务（判断患者是否患有肝病或心力衰竭），两个无序多分类任务（判断心脏超声图像属于哪种类别、判断癫痫发作类型），两个有序多分类任务（预测肥胖程度等级、预测母婴健康风险等级），以及两个回归任务（预测帕金森病震颤的严重程度评分、预测体脂率）。

这些数据集的规模从252条记录到11500条不等，特征数从6个到178个，有些数据集存在缺失值，有些则没有。这种多样性确保了实验结论不是针对某一种特殊情况的偶发结果。

研究团队为所有方法设定了统一的预训练协议：在没有任何标签的情况下，模型在这些数据上训练1000轮，期间完全不使用任何下游任务的标签信息。预训练完成后，再用两种方式评估学到的表示质量。

第一种方式是"线性探针"——冻结预训练好的编码器，只在顶部训练一个极简的线性分类器或回归器，训练100轮。如果预训练学到了好的表示，这个线性探针的效果就好；如果预训练几乎什么都没学到，线性探针就会很差。这种评估方式对表示质量的要求极为苛刻，因为线性层本身几乎没有任何拟合能力。

第二种方式是"微调"——使用预训练权重初始化模型，然后在有标签的数据上进行端到端的训练。研究团队测试了多种下游模型架构，包括标准MLP（多层感知机）、ResNet（残差网络）、TabNet（专为表格设计的注意力模型）、FT-Transformer（基于Transformer的表格模型）和T2G-Former（基于关系图的表格Transformer）。

四、数字背后的故事：方法真的有效吗

在线性探针评估中，研究团队对比了十种不同的方法组合，包括原始值重建、掩码预测、固定分箱重建，以及是否加入随机遮挡或固定值替换等噪声扩增手段。评估指标被汇总为"平均排名"——每种方法在每个数据集上的排名取均值，排名越低表示综合表现越好。

结果相当清晰：自适应分箱在三种遮挡配置（无遮挡、固定值遮挡、随机值遮挡）下分别获得了3.56、2.50和1.50的平均排名，而其他所有方法的最佳成绩是固定分箱加随机遮挡的6.31分。也就是说，即便自适应分箱在完全不加噪声的情况下运行，也比固定分箱加了最优噪声的版本强得多。研究团队特别指出，这说明自适应分箱带来的提升主要来自训练自适应的特征级分箱机制本身，而不是噪声扩增带来的正则化效果——后者只是锦上添花。

在具体数据集上，这种改进也体现得相当突出。以心力衰竭数据集的AUC（分类面积指标，越高越好）为例，固定分箱加最优遮挡得到90.11%，而自适应分箱不加遮挡就达到93.25%，加了随机遮挡后更是飙升至96.88%，提升幅度相当显著。在帕金森病震颤预测（回归任务）上，固定分箱的均方根误差最好约为15.71，而自适应分箱不加遮挡就已降至14.27，加了随机遮挡后更进一步降至11.32，几乎减少了近三分之一的误差。

消融实验（即逐个拆除方法的某一模块来验证其贡献）的结果同样清晰地展示了三个模块各自的价值。移除特征级自适应机制（让所有特征同步细化）会导致多个数据集上性能下降。移除高原触发机制（改为固定间隔触发分裂）带来更大的损失。移除表示空间感知分裂（只用方差减少判断分裂点）损失最为显著。移除序数感知损失函数的损失同样不可忽视——尤其是在心力衰竭数据集上，虽然训练过程中几乎没有触发任何分裂（特征规律相对简单），但仅仅换上更合适的损失函数，AUC就从88.41%提升到了96.88%，可见序数感知监督本身就具有独立的价值。

超参数敏感性实验对研究的实用价值同样重要。研究团队系统地测试了损失函数中三个权重系数以及高原触发的等待轮数和分裂阈值在不同取值下的表现，结果显示：选择默认配置时，各数据集上的统计显著性最强；偏离默认值越远，性能下降越明显。这意味着研究者不需要为每个新数据集重新调参，一套默认配置就能提供可靠的起点，降低了在临床部署中因过度调参而引入风险的可能性。

在微调评估中，自适应分箱的预训练初始化在大多数模型架构和数据集的组合上，都能达到与固定分箱持平或更优的性能。特别是对于TabNet和FT-Transformer这类更具表达力的架构，自适应分箱的预训练带来的提升尤为明显。以FT-Transformer在心力衰竭数据集上的结果为例，无预训练的纯监督训练AUC为89.43%，固定分箱预训练初始化为92.47%，而自适应分箱预训练初始化达到了93.43%，逐级提升的趋势相当稳定。这表明自适应分箱学到的表示是真正可转移的归纳偏置，而不只是在线性探针这种特殊评估条件下的表面优势。

五、这项研究的意义与边界

归根结底，这项研究解决的核心问题是：如何让AI从无标注的医疗表格数据中学到更好的表示，从而减少对昂贵人工标注的依赖。

医疗场景对这一问题的需求尤为迫切。一个关于肝病风险的预测模型、一个关于心衰早期筛查的工具，都需要大量经过医生确认的标注数据才能训练，而这在许多医疗机构中是难以为继的。自适应分箱提供了一个可行路径：先用大量无标注的常规检查数据对模型进行预训练，让它学会如何理解不同特征之间的关系和每个特征的内部结构，再用少量标注数据微调，就能达到相当不错的效果。

研究团队自己也坦承了这项工作的局限性：目前的实验都是在同一个数据集上进行预训练和下游任务评估，也就是说，数据没有跨机构、跨数据集的泛化验证；此外，评估的下游任务种类相对有限。未来的研究方向指向跨数据集的预训练与迁移适应，以及更广泛的临床终点评估，这些都是将这项技术真正推向实际应用所必须解决的问题。

另一方面，这项研究还为领域提供了一个标准化的医疗表格SSL基准——八个数据集、统一的评估协议、公开的代码实现，这对一个过去缺乏可比较实验标准的研究方向来说，本身就是一项重要贡献。

说到底，这篇论文做的事情，就是把"按需教学"这个朴素的教育直觉，用严谨的数学和工程语言实现在了AI的自学过程里。它告诉AI：不同的知识点应该分开学，学到瓶颈了再加难，加难的时候要聪明地选位置，而且学习不同类型的知识要用不同的方式打分。这些听起来理所当然的原则，落实到代码层面并不简单，但带来的效果也是扎实的。

对于那些希望用深度学习处理医疗数据却苦于标注成本的研究者和工程师来说，这篇工作提供了一套值得尝试的工具——不需要针对每个数据集反复调参，一套默认配置就能让AI在没有监督的情况下，学会越看越仔细。有兴趣深入了解全部技术细节的读者，可以通过arXiv编号2606.19827查阅完整论文，也可以访问论文中提到的开源代码库获取可复现的实验实现。

Q&A

Q1：自适应分箱方法和普通分箱方法相比，主要区别是什么？

A：普通分箱方法在训练开始前就固定好箱子数量和边界，整个训练过程中从不改变，所有特征用同样的分箱粒度。自适应分箱则会监控每个特征的学习进度，当某个特征陷入停滞时才触发细化，而且细化位置由AI当前学到的内部表示共同决定，同时对数值型和类别型特征分别采用不同的损失函数。

Q2：自适应分箱需要标注数据吗？

A：预训练阶段完全不需要标注数据，AI只通过预测每个特征落在哪个箱子里来自我学习。只有在后续的微调或线性探针评估阶段，才会用到少量有标注的数据。这正是这套方法在标注成本高昂的医疗场景中具有实际价值的原因。

Q3：自适应分箱方法在哪些数据集上做了验证？

A：研究团队在八个公开医疗表格数据集上进行了验证，涵盖肝病患者数据集、心力衰竭临床记录、心脏图谱、癫痫发作识别、肥胖程度估计、母婴健康风险、帕金森遥测监控和体脂预测，任务类型包括二分类、无序多分类、有序多分类和回归，数据规模从252条到11500条不等。