一、决策树方法所属模块
决策树在SPSSAU【机器学习】模块。
二、方法概述
(1)决策树是一种通过层层分支进行判断的建模方法,可以同时用于分类和回归。
(2)它适合做用户分群、风险识别、转化预测等任务,尤其适用于解释性要求较高的业务场景。
(3)在SPSSAU中,该方法可直接完成建模并输出评估结果、结构图和关键变量贡献度。
三、变量设置规则
1. 总体规则
(1)需设置2类变量:分析项(X定量)和因变量Y。
2. 分项规则
(1)分析项(X定量):可放入1-400项,必填。
(2)因变量Y:仅可放入1项,必填。系统可自动判断是分类任务还是回归任务。
四、参数设置及解释说明
1. 基础参数
(1)训练集比例:默认0.8,表示80%样本用于训练,20%样本用于测试。
(2)数据归一化:默认不处理;若变量量纲差异明显,可选择标准化或归一化。
(3)保存预测值:勾选后可回写预测类别/概率(分类)或预测值(回归)。
(4)保存训练测试标识:勾选后会新增训练集与测试集标识字段。
(5)交叉验证:默认不进行,可选2折、3折、5折、10折。
2. 更多参数
(1)节点分裂标准:分类常用gini或entropy;回归可选残差平方、绝对残差、泊松偏差。
(2)节点划分方式:best更偏向最优划分,random用于降低过拟合风险。
(3)节点分裂最小样本量:值越大,树更保守。
(4)叶节点最小样本量:值越大,叶节点更稳定。
(5)树最大深度:用于控制模型复杂度,越大越容易过拟合。
(6)任务类型:自动判断(默认)/分类任务/回归任务。
五、分析结果表格及其解读
1. 输出表格总览
(1)决策树会输出基本信息汇总、模型评估结果、特征权重值、模型汇总表、数据集情况等表格。
2. 分表解读
(1)表1:决策树分类基本信息汇总
该表用于查看因变量各类别分布,包含名称、选项、频数、百分比。
● 频数:反映各类别样本量,用于识别类别是否失衡。若某类占比过低,模型可能更偏向多数类。
● 百分比:反映类别结构比例。一般建议避免极端偏斜分布,以提升分类稳定性。
(2)表2:决策树回归基本信息汇总
该表用于查看有效样本与缺失样本情况,包含选项、频数、百分比。
● 有效占比:有效占比越高,模型训练基础越稳定。
● 缺失占比:缺失占比越低越好;若缺失偏高,建议先处理数据再建模。
(3)表3:模型评估结果(分类任务)
该表用于评估训练集与测试集的分类效果,常见指标有准确率、精确率、召回率、F1-score。
● 准确率:总体预测正确比例,越高越好。
● 精确率:预测为某类时的准确程度,越高说明误报更少。
● 召回率:真实为某类时被识别出来的比例,越高说明漏报更少。
● F1-score:兼顾精确率和召回率的综合指标,越高越好。
(4)表4:模型评估结果(回归任务)
该表用于评估回归拟合效果,常见指标有R方值、MAE、RMSE等。
● R方值:反映模型解释能力,取值越接近1越好。
● MAE:平均绝对误差,越接近0越好。
● RMSE:均方根误差,越接近0越好,对较大误差更敏感。
(5)表5:特征权重值
该表用于展示各特征对模型决策的相对贡献,包含项与权重值。
● 权重值:值越大表示该变量越关键。实际分析中应重点解释高权重变量。
(6)表6:模型汇总表
该表用于记录模型参数设置与核心效果,便于复盘和复现。
● 参数值:用于确认本次建模配置,避免结果无法复现。
● 模型评估效果:用于快速比较不同参数方案下模型表现。
(7)表7:数据集情况
该表用于查看训练集、测试集、预测集和缺失数据构成。
● 样本量:用于确认数据划分与训练集比例是否一致。
● 占比:用于判断样本结构是否合理,避免测试样本过少导致评估不稳。
六、分析结果图表及其解读
1. 输出图表总览
(1)决策树会输出决策树结构图、特征权重图;分类任务还会输出测试集结果混淆矩阵图。
2. 图表解读
(1)决策树结构图:用于查看分裂路径和叶节点规则。树过深、分支过多时需警惕过拟合。
(2)特征权重图:用于快速识别关键影响因素,权重越高优先级越高。
(3)测试集结果混淆矩阵图:对角线值越集中,说明分类效果越好;非对角线值较高表示误判较多。
以上就是SPSSAU决策树方法的相关内容,更深入教程可查看SPSSAU帮助手册、教学视频、疑难解惑等资料。