一、研究问题与背景
1.1 问题定义
不平衡回归:在连续目标变量中,极端值(高值或低值)样本稀少,导致模型偏向预测平均值,忽略重要极端情况。
应用场景:极端天气预测、海面温度异常、药物敏感性检测、金融欺诈识别等。
1.2 现有方法的局限性
阈值依赖:许多方法(如SMOTER、SMOGN)通过人为设定阈值将连续目标离散化,破坏回归任务的连续性,导致解释性差、划分突兀。
深度生成模型(如GAN、VAE):灵活但计算密集、可解释性差、调参复杂。
传统采样方法(如随机过采样/欠采样):简单但易过拟合或丢失信息。
二、核心方法:CARTGen-IR
2.1 方法来源与适配
基于CART(分类与回归树)的合成数据生成思想,原用于隐私保护与分类任务,现首次系统适配于不平衡回归。
继承CART的白盒特性:可解释、可审计、支持数值/类别特征与缺失值。
2.2 关键创新点
| 创新点 | 说明 |
|---|---|
| 无阈值处理 | 不使用任何用户定义的阈值,避免连续目标离散化 |
| 双引导采样 | 结合相关性函数(基于极端值重要性)与DenseWeight(基于密度逆加权) |
| CART条件生成 | 对每个选中的稀有样本训练CART,从叶节点采样生成新样本,保持特征间非线性关系 |
| 逐列生成策略 | 按特征顺序生成数据,模拟真实条件分布 |
| 可选高斯噪声 | 对数值属性添加轻微噪声,提升泛化能力 |
2.3 算法流程(简略)
计算每个样本的稀有度权重(相关性或密度);
用稀有指数 α 调整权重并归一化;
按权重有放回重采样;
对每个选中样本训练CART模型;
从CART叶节点中采样生成合成样本。
三、实验设计
3.1 数据集
15个公开回归数据集,涵盖高值极端、低值极端、双边极端类型。
特征包含数值型与类别型,样本量从数百到数万不等。
3.2 对比方法(共11种)
传统采样:RU、RO、WERCS、GN
SMOTE变体:SMOTER、SMOGN、WSMOTER、G-SMOTER
深度生成模型:TVAE、CTGAN、CopulaGAN、TabDDPM
其他专门方法:DAVID、KNNOR-REG
3.3 评估指标
SERA(平方误差-相关性面积):专为不平衡回归设计
RW-RMSE(相关性加权RMSE)
RMSE:标准回归误差(作为对照)
3.4 学习器
随机森林(RF)
支持向量回归(SVR)
XGBoost(XGB)
3.5 验证策略
分层重复2×5折交叉验证 + 嵌套网格搜索
数据增强仅在训练集内进行,无测试集泄漏
3.6 总实验量
14个模型超参数 × 15个数据集 × 56种预处理配置 =11,760次实验
四、主要实验结果
4.1 性能排名(图3)
WSMOTER整体最稳定
CARTGen-IR排名第四,但胜/负比显著更高(胜出更具统计意义)
强变体特征:高斯噪声 + 密度加权 + α=1.5或2.0
4.2 与WSMOTER的贝叶斯对比(图4)
RF模型:CARTGen-IR 99%概率优于WSMOTER
SVR模型:SERA指标上>90%概率更优
XGB模型:>70%概率更优
总体结论:CARTGen-IR 通常为更优方法
4.3 超参数敏感性(图5)
相关性加权整体优于 DenseWeight
最佳 α:
相关性加权:1.5–2.5
DenseWeight:1.0
采样比例 η 增加:帮助相关性加权,损害DenseWeight
噪声影响不对称:提升DenseWeight,降低相关性加权
4.4 运行时间(图6)
CARTGen-IR在所有生成方法中第二快(仅次于KNNOR-REG)
标准差更低,表示更稳定
深度学习方法平均慢131倍
4.5 与KNNOR-REG对比
KNNOR-REG更快,但在稀有目标值上表现较差
CARTGen-IR在效率与性能之间最佳平衡
五、研究结论
5.1 回答的研究问题
| 问题 | 结论 |
|---|---|
| RQ1:是否有效? | 是,在SERA、RW-RMSE上均表现优秀 |
| RQ2:相比SOTA如何? | 综合排名高,胜/负比最优,平衡稀有与常见案例 |
| RQ3:性能与时间权衡? | 速度与性能最佳平衡,快于多数生成方法,远快于深度学习 |
5.2 核心贡献
提出了首个系统适配CART用于不平衡回归的合成采样方法;
完全避免阈值设定,保持回归任务连续性;
保持可解释性与透明度(白盒);
在效率与效果之间实现最优平衡;
开放了完整代码与实验数据。
5.3 未来工作方向
扩展到更多非极端稀有区间数据集;
探索其他决策树学习者(如随机森林、梯度提升树);
融合成本敏感学习(针对SERA等指标);
分析合成样本数量对性能的影响。
六、方法优劣势总结(简洁版)
| 维度 | 评价 |
|---|---|
| 是否需要阈值 | 否(核心优势) |
| 可解释性 | 高(白盒) |
| 支持特征类型 | 数值、类别、缺失值 |
| 计算效率 | 高(第二快生成方法) |
| 预测性能 | 优秀(胜/负比最高) |
| 稀有值处理 | 强(引导采样 + CART条件生成) |
| 实现复杂度 | 中等(比深度学习简单,比传统采样复杂) |
| 开源 | 是(提供完整代码) |
这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
摘要
处理回归中的不平衡目标分布一直是一个持续的挑战,因为相关目标值的代表性不足会严重阻碍模型性能。现有的数据层面解决方案常常采用源自分类技术的策略,在连续目标上引入任意阈值,导致问题表述人为且可能产生误导。深度生成模型提供了灵活的样本合成,但计算量大且难以解释。我们提出了一种基于CART的合成采样方法,专门设计用于表格数据的不平衡回归。该方法整合了相关性和密度引导的采样,以解决稀疏目标区域的问题,无需设置阈值,并采用特征驱动的树结构,在异构特征和非线性交互作用下生成逼真的表格样本。在极端值预测基准数据集上的实验表明,所提出的方法与最先进的重采样和生成方法相比具有竞争力,同时提供了更快的执行速度和更高的透明度。这些结果凸显了其作为一种可扩展且可解释的数据层面策略,用于改进不平衡领域中回归模型的潜力。
关键词:不平衡回归 · 数据层面策略 · 采样 · 合成数据生成 · 极端值预测
1 引言
针对表格数据的不平衡领域学习研究主要集中在分类任务上[22,4],重点在于改进对少数类的预测。然而,许多现实世界问题涉及连续目标,在回归设置中也存在类似的挑战。这包括预测极端天气事件[23]、预测异常高的海面温度[2]、识别癌细胞中表明敏感性增加的异常低药物反应[16]以及检测重大金融欺诈。与分类不同,回归任务带来了额外的困难:确定连续目标空间的哪些区域应被视为稀有、相关且值得重点建模。
数据层面方法仍然是解决不平衡问题最广泛使用的策略之一:它们修改训练分布以强调最相关的案例,提供了相当大的灵活性,并且可以在预处理期间应用,从而扩展了标准机器学习算法的适用性[4]。
在不平衡回归中,已经提出了几种数据层面技术[6,27,5,10,11,3,26,17,25]。然而,这些提议中有许多表现出固有的局限性。通过人为阈值对连续目标变量进行离散化的方法通常会损害可解释性和透明度,实际上将方法变成了黑箱。此外,过于简单的数据生成机制可能增加过拟合的风险,并且许多策略处理分类特征或缺失值的能力有限。
为了解决这些问题,本文改编了一种最初为分类设计的基于CART的数据增强方法[18],使其适用于不平衡回归的上下文。我们的方法避免了在目标变量上使用用户定义的阈值,从而消除了现有方法[5,28,6]中与领域离散化相关的任意性。此外,由于该技术利用决策树进行合成数据生成,它继承了CART模型特有的透明度和可解释性,同时自然地支持数值特征、分类特征以及缺失值。
本文的其余部分结构如下:第2节描述了问题定义,并简要概述了相关文献,包括现有的过采样和数据增强技术。第3节介绍了我们提出的解决方案,而第4节讨论了广泛实验评估的结果。第5节提供了结论性意见。
2 相关工作
不平衡回归中的一个核心挑战是定义对连续域的非均匀偏好。虽然理想情况下,完整的领域知识将根据用户需求和偏好来指导这一过程,但这种知识很少可用,特别是对于无限的目标域。有两种主要方法解决了这个问题。第一种方法由[21,22]提出,通过插值基于领域的控制点来逼近相关性函数 ϕ()∈[0,1];当缺乏知识时,它采用一种非参数的、数据驱动的过程,该过程假设极端值最重要,并根据调整后的箱线图统计量推导控制点[14]。第二种方法 DenseWeight [24] 使用核密度估计 (KDE) 分配与目标值估计密度成反比的权重,通过优先考虑低密度区域来强调代表性不足的结果;所有权重均为正数并进行归一化以确保稳定的梯度下降。
数据层面策略通过使用采样和数据增强技术修改数据分布以更好地代表相关实例来解决不平衡回归问题[4]。例子包括随机欠采样 (RU)、随机过采样 (RO) 和加权相关性组合策略 (WERCS) [6],它们利用相关性函数进行引导采样。高斯噪声 (GN) [6] 通过扰动相关案例同时欠采样常见案例来增强数据。此外,SMOTER [27] 通过基于相关性插值合成样本来使 SMOTE 适用于回归,而 SMOGN [5] 将欠采样与 SMOTER 和 GN 结合起来,以平衡合成数据的保真度和变异性。此外,G-SMOTER [10] 使用几何变换扩展了 G-SMOTE,以多样化生成的样本。
然而,这些方法中有许多源于分类设置,通常依赖于任意阈值来划分连续目标空间,这由于在目标域中引入了人为离散化,非常不适合回归任务。这对于连续目标变量的性质尤其有害。通过引入阈值,用户例如规定任何超过阈值的值都是显著且有价值的,而任何低于阈值的样本都被视为普通且不重要的。因此,如果阈值是,例如,x=5,那么 5.1 被认为是重要的,而 4.9 则不是。直观地说,这不太合理,并在域内造成了一个突兀的划分。此外,这意味着,例如,一个目标值为 1.2 的样本和另一个值为 4.9 的样本都被归类为正常、常见的案例,但目标变量的大小被忽略了。因此,人工阈值最终会划分无限域并消除连续目标变量的固有价值。
WSMOTER [11] 通过将 DenseWeight 与 SMOTE 相结合来缓解这一问题,使用概率加权来聚焦于稀疏区域。KNNOR-REG [3] 通过 k-近邻(k-NN)过滤来增强 SMOTE,以识别具有代表性的少数点,从而处理域内不平衡和噪声问题。深度学习模型(如 GAN 和 VAE)也已被探索用于合成数据生成,其中一些模型是专门为不平衡回归任务而开发的。像 TVAE [29]、CTGAN [29]、CopulaGAN [19] 以及基于扩散的 TabDDPM [15] 等模型已被广泛研究用于合成样本生成,但它们缺乏对不平衡回归任务的专门关注。DIRVAE [26] 使用双模型 GAN 框架来提高稀疏回归数据上的生成性能。IRGAN [17] 集成了生成、校正、判别和回归模块来创建合成样本。DAVID [25] 将回归训练与 β-VAE 架构相结合。尽管这些生成模型具有灵活性,但由于其黑箱特性,它们计算密集且可解释性有限。
在文献 [20] 中,作者引入了使用 CART 算法 [8] 生成合成数据以保护敏感微观数据的方法,强调了与参数模型相比,它在处理未知分布、复杂交互以及无需显式插补即可处理缺失值方面的优势。遵循同样的思路,文献 [1] 应用 CART 为肿瘤学试验中的生存分析生成合成患者数据,在该任务中,它的表现优于随机森林、贝叶斯网络和 CTGAN 等方法——尤其是在低数据量环境下。基于 CART 对复杂关系建模的能力,文献 [18] 在类别不平衡和公平性背景下评估了一种基于 CART 的表格数据合成生成方法,结果显示其与 SMOTE 和 GAN 等传统技术相比具有强劲的性能。总体而言,先前的研究表明,基于 CART 的数据生成能够有效捕获原始数据中的复杂依赖关系,同时避免 SMOTE 和 GAN 经常引入的失真。进一步扩展这些基于树的机制,文献 [9] 提出了一种用于回归增强的随机森林方法。通过从集成模型的终端节点中采样,他们逼近了底层的条件分布,并有效地建模了非线性依赖关系。
3 我们的提案
基于文献中报道的基于 CART 的合成数据生成的良好结果[20,1,18],我们提出了 CARTGen-IR,一种使用 CART 为不平衡回归生成合成表格数据的方法。我们的方法消除了在识别相关或稀有案例时需要任意用户定义阈值的问题,这个问题与回归目标的连续性质相冲突。通过避免对目标域进行清晰划分,CARTGen-IR 防止了 SMOTER [27] 和 SMOGN [5] 等方法所需的领域离散化。由于该方法基于决策树,它根据 CART 估计的条件分布进行采样,同时保留了算法固有的透明度和可解释性。递归划分过程提供了合成数据生成方式的可审计视图。此外,CARTGen-IR 自然地处理数值变量、分类变量以及缺失值,使其广泛适用于表格数据。
CARTGen-IR 的整体过程在算法 1 中进行了总结。该方法首先根据其稀有度或相关性对目标值进行加权,为稀有案例分配更高的权重。稀有度使用 DenseWeight 方法[24]或相关性函数[22]进行估计,通过 ρ 权重方案超参数选择。前者使用概率估计,当密度不平衡不能反映用户优先级时(与基于相关性的方法不同),可能不匹配用户偏好。这些分数通过稀有度指数 α 进行调整,归一化,并用于有放回地重采样数据集,以便稀有实例更有可能被选中。
基于稀有性的加权也用于WERCS[6]和G-SMOTER[10]等方法中,但CARTGen-IR的独特之处在于它对原始数据集进行重采样的方式,该方式在很大程度上将常见的目标值排除在增强之外。这产生的合成数据更有效地集中在目标空间的稀有和相关区域。尽管我们实现了DenseWeight和相关性函数,但该方法支持任何稀有性估计机制,无需更改整体框架,从而确保了对未来发展的适应性。
重采样的程度由超参数η∈[0,1]控制,该参数决定了要生成的合成样本的比例。遵循合成数据生成中的既定实践[12,13],每个选定的实例作为生成多个合成样本的基础。
由于重采样可能创建重复的实例,因此可以应用由δ控制的可选噪声机制来减少数值特征上的过拟合。然后,使用富含稀有案例的重采样数据集,通过基于CART的、顺序的、逐属性的数据生成过程来生成合成数据,该过程通过在叶节点中采样实现,如[18,20]中所述。在该过程中,使用剩余的前序属性作为预测变量,为每个属性迭代地拟合一个CART模型。合成过程遵循三步协议。首先,通过将每个变量视为目标并仅使用前序变量作为预测变量(例如,使用X1和X2训练X3的模型),通过FitCARTModels函数训练多个CART树。其次,GenSynthetic函数通过基于已为该案例生成的前序变量的值,为每个变量迭代地选择适当的终端/叶节点,从而为新的合成案例生成数据。对于序列中的第一个变量,由于合成样本不存在先验值,该过程默认使用根节点,并使用该变量的整个值池来随机选择一个值。第三,然后从该节点的成员中随机抽取一个值,并将观察到的值作为该变量的合成输出。此外,对于连续变量,该方法不是直接从叶节点中的离散值进行采样,而是对叶节点中的值拟合高斯核密度估计器,并从该平滑分布中进行采样。这通过生成符合统计特征(包括稀疏尾部)的合理值来提高泛化能力,而不仅限于训练集中存在的确切点。
该过程对每个合成案例重复进行,始终使用在FitCARTModels阶段拟合的相同树,这些树仅从原始数据中导出,并且不受生成的新合成数据的影响。此过程在图1中进行了说明。
图2显示了一个简单的示例,其中包含两个特征以及标记为普通或罕见的目标值。此设置展示了CARTGen-IR如何处理不平衡回归,与基于插值的方法不同。SMOTER创建了不切实际的合成点,KNNOR-REG未能生成多样化的特征值,并且仅在一个稀有簇中执行增强,而CARTGen-IR使用基于树的分区在稀有区域内局部生成样本,从而保留了原始数据结构。
4 实验研究
我们的主要目标是在与其他最先进的不平衡回归任务数据层面策略进行比较研究的更广泛背景下,评估CARTGen-IR的性能和能力。通过实验研究,我们旨在回答以下研究问题:(RQ1)CARTGen-IR在不平衡回归场景中是否有效,无论是从标准误差指标还是专门适用的误差指标来看?(RQ2)与为表格数据不平衡回归任务提出的最先进数据层面方法相比,它在稀有和常见目标子域上的表现如何?(RQ3)这些方法在预测性能和执行时间方面提供了怎样的权衡?
4.1 实验设置
在本研究中,我们使用了15个广泛使用的回归数据集。这些数据集的关键属性总结在表1中,该表还报告了稀有实例的绝对和相对频率,以及根据0.8的相关性阈值定义的极端值类型。为此,我们使用[22]中概述的自动化方法为每个数据集推导了一个相关性函数。所选数据集呈现出广泛的特征,例如数值和名义特征、实例数量、极端值类型和稀有发生情况。
我们评估了一套全面的预处理策略来处理回归任务中的数据不平衡。所考虑的方法包括来自[6]的RU、RO、WERCS和GN,SMOTER [27],SMOGN [5],WSMOTER [11],G-SMOTER [10],DAVID [25],KNNOR-REG [3]以及CARTGen-IR,这些都是专门为不平衡回归任务开发的。此外,我们还包含了其他最先进的深度学习技术,尽管它们并非有目的地为解决不平衡回归问题而开发,但仍然适用于这些场景:(i)基于VAE的方法:TVAE [29];(ii)基于GAN的方法:CTGAN [29]和CopulaGAN [19];(iii)基于扩散的方法:TabDDPM [15]。表2展示了56种重采样配置的完整概述。每种预处理策略的超参数值是根据它们被提出或引入的文献中使用的值来选择的。对于CARTGen-IR,超参数搜索空间是通过综合相关文献中已有的值并通过初步实证分析进行细化来定义的。需要注意的是,无法与[26]提出的DIRVAE方法以及[17]提出的IRGAN方法进行直接比较,因为这两个源代码均未公开。
为了评估这些数据层面策略的有效性,我们将它们与三种算法配对:随机森林(RF)、支持向量回归器(SVR)和XGBoost(XGB)。实验设置包含14个用于调整学习模型的超参数组合:RF使用'n_estimators'(100,200)和'max_features'('sqrt','log2');SVR使用'rbf'核,'C'(1,10,100)和'epsilon'(0.1,0.5);XGB使用'n_estimators'(100,200)和'max_depth'(3,6)。每个模型在所有56种预处理条件下对15个回归数据集进行了评估,总共进行了11,760次实验(14 × 15 × 56)。
在本研究中,我们使用了平方误差-相关性面积(SERA)[22]和相关性加权RMSE(RW-RMSE)[7]作为评估指标,以更好地评估不平衡条件下的模型性能。我们还纳入了RMSE作为标准回归误差指标。
所有评估指标均使用分层、重复的2×5折交叉验证过程进行计算,以确保稳健可靠的性能估计,并结合嵌套网格搜索同时调整回归器超参数和采样策略配置。数据增强严格应用于交叉验证循环内的训练集,确保没有合成数据泄漏到测试集。分层过程是考虑目标变量的分位数进行的。
4.2 实验结果
图3概述了每种数据增强方法在所有评估指标上的胜场和负场,突出了使用Wilcoxon符号秩检验在95%置信水平下确定的统计显著差异。为了可读性,该图仅报告了CARTGen-IR的六个表现最佳的配置(共测试了16个),以及所有竞争方法。该检验的目的是能够在方法之间进行比较分析,而无需使用预先确定的绝对阈值来区分好性能和差性能。
从这一分析来看,WSMOTER成为跨指标最一致的表现者,其次是KNNOR-REG和G-SMOTER。CARTGen-IR在整体一致性方面排名第四,具有其他方法未观察到的稳健性水平。例如,WERCS在其过采样主导的版本中表现良好,但当欠采样变得更加突出时性能下降。值得注意的是,尽管CARTGen-IR不是最频繁的赢家,但与类似表现的方法相比,它表现出优越的显著胜/负比,表明其胜利通常更有意义。此外,最强的CARTGen-IR变体表现出一致的特征:它们向数值属性引入高斯噪声,并在两种密度加权方案以及1.5和2.0的稀有指数下表现良好。合成样本的比例影响很小,因为两个测试值产生了相似的结果。
在观察到先前测试中CARTGen-IR和WSMOTER都有强劲表现后,我们进行了贝叶斯符号秩检验来比较它们,使用了[-1%,1%]的实际等价区域(ROPE)。结果表明,CARTGen-IR在所有被评估的模型上持续优于WSMOTER。具体来说,对于RF,CARTGen-IR在所有指标上表现出99%的优越概率——图4b。虽然SVR在RMSE和RW-RMSE上的表现是平衡的(图4a),但CARTGen-IR在SERA指标上占据主导地位,概率超过90%。对于XGBoost,CARTGen-IR在大多数指标上显示出高于70%的优越概率——图4c。总体而言,分析表明CARTGen-IR通常是更优越的方法。
我们还对CARTGen-IR进行了超参数敏感性分析,检查了密度方案ρ、指数α、采样比例η和噪声水平δ对性能的影响。结果是在一个具有代表性的回归数据集上使用随机森林模型获得的,并总结在图5中。
相关性加权机制始终比密度加权带来更好的性能。对于α,1.5到2.5之间的值被证明在相关性下最有效,而对于密度加权,α = 1是更可取的。增加η有利于相关性,但对密度加权有相反的影响。噪声也具有不对称的影响:额外的抖动改善了密度加权,却损害了相关性。
RMSE表现出一种独特的模式。由于它不是为不平衡回归量身定制的,并且统一惩罚所有偏差,因此随着η的增加,强调稀有案例自然会导致RMSE的轻微恶化。然而,其他专门为不平衡回归设计的指标显示出明显的改善,表明常见案例上的适度损失被最重要区域的巨大收益所抵消。这种权衡与之前报告的对比结果一致。
为了结束我们的实验研究,我们对所有数据增强技术进行了运行时比较。为了公平起见,我们在相同的并行化条件下专门测量了数据增强过程的执行时间。图6以对数尺度展示了每种策略的运行时值(以秒为单位)。CARTGen-IR在生成合成数据的技术中脱颖而出,成为最快的技术之一。基于采样的方法(如RU、RO和WERCS)表现出最低的运行时,因为它们不合成新数据。在创建新合成数据的增强方法中,只有KNNOR-REG在速度上超过了CARTGen-IR,尽管CARTGen-IR表现出更低的标准差,表明更高的一致性。WSMOTER和G-SMOTER的运行时接近CARTGen-IR,而其他基于SMOTER的方法明显更慢。基于深度学习的方法是最慢的,平均运行时间比CARTGen-IR长131倍。
本研究中使用的代码以及所有实验结果可在SynthTabularDataGeneration-IR获取。
4.3 讨论
针对RQ1和RQ2,CARTGen-IR已被证明对不平衡回归任务有效。它在所有数据集上持续取得强劲表现,并且总体排名最高。与领先的最先进重采样策略相比,CARTGen-IR在这些方法的基础上有所改进或与之相当,特别是在平衡稀有值和常见值案例之间的关注方面。对于专门为评估不平衡回归任务性能而设计的RW-RMSE和SERA指标,WSMOTER、KNNOR-REG和CARTGen-IR成为明显的赢家,同时在RMSE上也表现出稳健的性能。这表明CARTGen-IR在整个领域内具有良好的泛化能力,而不会损害整体预测性能。此外,与其他两种方法相比,它表现出显著优越的胜/负比。关于RQ3,在分析每种策略的特征时,我们可以将方法分为采样技术和增强技术。采样技术由于其实现简单,执行时间最低;然而,它们也产生不一致且排名较低的分数。在生成合成样本的方法中,KNNOR-REG是最快的,尽管它在稀有目标值上表现不佳。CARTGen-IR是第二快的,并在效率和预测性能之间提供了良好的平衡。
5 结论
这项工作解决了不平衡回归的问题,其目标是预测连续目标的稀有和非典型值,这对许多学习算法来说仍然是一项具有挑战性的任务。我们引入了CARTGen-IR,一种针对这种情况量身定制的、基于CART合成数据生成的非参数方法。与其他针对不平衡回归的最先进重采样策略不同,CARTGen-IR不依赖用户定义的连续目标阈值。通过采用基于CART的机制,它捕捉数值和分类变量之间的复杂关系,并自然地处理缺失数据,同时保持计算效率。重要的是,合成数据生成过程本身保持透明和可解释,继承了决策树的白盒特性。此外,在一组多样的基准数据集和最先进方法上进行的实证评估证实了所提出方法在不平衡回归场景中的竞争力。这表明采用利用CART的数据层面策略的概念是可行的。然而,作为未来的工作,可以采用替代方法来利用特征之间的交互以及本提案所奠定的框架。
这些发现表明,基于CART的数据层面策略是不平衡回归的一种可行方法,并为未来的工作指出了几个有前途的方向。这些方向包括:将实验评估扩展到更广泛的数据集,特别是那些具有非极端稀有区间的数据集;在所提出的框架内探索替代的决策树学习器以捕捉更复杂的特征交互;结合针对不平衡回归指标(如SERA)量身定制的成本敏感学习方法;以及分析每个重采样实例生成的合成样本数量的变化如何影响整体性能。