基于决策树对骨质疏松症的预测(源码+万字报告+讲解)（支持资料、图片参考

基于决策树对骨质疏松症的预测

目录
本科毕业论文（设计）开题报告及任务书 2
前言 6
第一章绪论 8
1.1研究背景与意义 8
1 .2国内外研究现状 9
第二章相关技术 10
2.1有监督机器学习算法 10
2.1.1支持向量机算法 10
2.1.2人工神经网络算法 12
2.1.4决策树算法 12
2.1.5集成学习算法 14
2.2半监督机器学习算法 14
2.2.1自训练算法 14
2.2.2基于图的半监督学习算法 15
2.2.3协同训练算法 16
第三章数据分析及预处理 17
3.1 数据集说明 17
3.2 相关性分析 1
3.3 数据清洗与编码 1
4 实验分析 3
4.1 实验数据 3
4.2 实验结果分析 3
第六章总结与展望 5
6.1 论文工作总结 5
6.2 展望 5
参考文献 6

前言

骨质疏松症是骨骼的主要疾病，其特征是骨密度降低和骨组织微结构损坏，进而导致骨折敏感性增加［1］。由骨质疏松症引起的骨折叫骨质疏松性骨折，其给患者带来巨大痛苦，并给社会和医疗系统带来沉重负担［2］。骨质疏松症的发病率在女性中最高，但在接下来的 50 年中，男性的发病率有可能会翻 3 倍［3］。因此根据临床变量预测男性骨质疏松性骨折风险对其预防至关重要。近年来机器学习在医学领域的应用越来越广泛，出现了基于机器学习的骨质疏松性骨折预测研究。章轶立等［4］通过 Group Lasso 回归算法和 Logistic 回归模型初步构建骨质疏松性骨折风险评估工具。Villamor 等［5］结合临床和生物力学数据通过支持向量机（Support Vector Machine, SVM）对髋部骨折进行有效预测。此类单一模型的预测精度仍有较大提升空间，进而有研究提出采用集成学习方法提高模型预测性能。Kruse 等［6］使用逻辑回归、随机森林模型以及 Bagging 和 Boosting 集成学习方法预测髋部骨折，研究结果表明集成学习方法预测效果更佳。 Kilic 等［7］使用 Bagging 、梯度提升（ Gradient Boosting）、随机子空间（Random Subspace）采样等集成学习方法对绝经后妇女进行骨质疏松性骨折预测，结果显示基于随机子空间的随机森林（Random Forest based on Random Subspace, RSM-RF）集成分类器模型预测精度最佳。目前使用集成学习模型的研究绝大多数是对相同结构的个体学习器进行集成，使用异构分类器的研究还相对较少。
本研究使用学习法的典型代表 Stacking 构建异构分类器 EtDtb-S，经相关性分析后筛选出 16 个特征作为特征向量，选用极端随机树、基于决策树的 Bagging 集成模型（Decision Tree Based on Bagging, DTB）作为初级学习器，逻辑回归作为次级学习器进行集成。实验结果表明集成的异构分类器比同构分类器预测准确性更高。

第一章绪论
1.1研究背景与意义

骨质疏松症是以骨量减少，骨质量受损及骨强度降低，导致骨脆性增加、易发生骨折为特征的全身性骨病。全球每年多达890万的骨折由骨质疏松症引起，即平均每隔3秒就有一个人发生骨质疏松性骨折，也就是脆性骨折。骨质疏松症非常常见。根据汤臣倍健2011-2013年中国骨密度状况调查报告2显示，中国居民10个人中就有1个人患有骨质疏松，还有2个人处于骨量减少状态。在超过50岁的人口中，三分之一的女性和五分之一的男性患有脆性骨折。随着我国逐步步入老龄化社会，老年人比例上升，骨质疏松患者数量增加，骨质疏松症及其导致的脆性骨折，在今后的几十年中将成为一项严重的健康问题。应对骨质疏松症的医疗保健预算成本也十分惊人。患有脆性骨折对于老年人、他们的家人和照看者以及国家经济均是一项重大的负担。骨质疏松症已经成为威胁中老年人生命的重要杀手，而骨质疏松症易被忽视，常常是在骨折发生后才得以发现，且其治疗颇难，目前各种治疗手段对于已经疏松的骨质均不能完全恢复。应对骨质疏松症的最有效的方法是早期发现，因此骨质疏松症的早期评估和预测是骨质疏松研究中的重中之重。中国卫生部于2011年5月9日规定将骨质疏松症定为国家健康优先计划。根据国家骨质疏松症的临床指南，所有可能有极高风险患有骨折的个人应优先进行骨质疏松症评估和接受指南规定的基础治疗。骨质疏松患者数目逐年上升，但诊断相关的医生和仪器数量却远不能满足患者的需要。中国大约有450台用于骨质疏松诊断的双能X射线骨密度仪，大多分布在各个城市，而农村几乎没有。因此，并不是每一个具有发病风险的人都有条件接受骨密度检查。而且，由于费用和辐射等因素，很多人不愿意到医院接受骨密度检查，这一现象在农村的老年群体中尤为明显。许多患者直到发生了骨折才确诊患有骨质疏松，同时也丧失了最佳的治疗时机3。而且双能X射线骨密度仪具有一定的辐射量使用者有部分限制，不能频繁测量，因此亟待构建一种方便准确的骨质疏松风险预测模型，根据与骨质疏松相关的生活健康信息，经济高效地对骨质疏松进行筛查和早期诊断。以往的许多疾病风险预测或辅助诊断系统都是基于规则和知识的专家系统，通过将已有的医学知识输入到计算机程序中，在一定规则下根据病情进行推理和判断，模拟真实场景中的诊疗过程，进而给出诊断结果和治疗方案。不过，这种专家系统受限于输入知识的局限性，无法很好地扩展到病情复杂、种类繁多的临床阶段。为克服上述缺点，人们引入了人工智能技术建立智能计算机风险预测或辅助诊断系统，通过机器学习、数据挖掘等方法，并辅以影像学、医学图像处理技术等手段，以达到提高诊断准确率的目的。
伴随着计算机信息技术的高速发展，医学越来越依赖计算机辅助处理，医疗数据挖掘在医疗诊断中起着愈发重要的作用，并正在许多方面进行实践，比如病例分析、临床诊断、药物研发等等。美国IBMWaston⁴是现在最为成熟和先进的智慧医疗平台，具有强大的数据检索和挖掘技术，并能够辅助医生诊断多种癌症，已于2012年通过了美国的职业医生资格考试。Arterys的辅助心脏MRI医学影像分析系统CardioDL⁵是美国FDA批准的第一个基于深度学习的人工智能诊断决策支持系统，它在超过3000个心脏病案例当中进行算法训练，可以通过医学图像分析系统收集心室轮廓数据，计算心室功能，辅助治疗多种心血管疾病。腾讯推出了AI医学解决方案产品腾讯觅影6,集成了大数据处理、医学图像识别等领先的深度学习技术，可以通过AI影像辅助进行食管癌、肺癌等的早期筛查，并进行智能导诊、病案管理等辅诊。
由此可见，数据挖掘和机器学习技术早已与互联网医疗深度融合，并随着人工智能技术的迅猛发展，给智慧医疗领域增添了新的活力。利用信息化的技术手段分析和挖掘医疗数据资源，并转化为科学智能的辅助诊断工具，不仅能够通过充分的数据挖掘提高对医疗数据的利用率，使得医疗领域的发展更加智能化，而且能够突破传统的基于医生知识经验和仪器进行临床诊断的局限，引入数据驱动的诊疗决策，给医生带来辅助和支持，从而缩短诊断时间，提高诊断准确度，达到减少医疗事故发生的结果。
通过机器学习算法构建骨质疏松风险预测模型，与传统临床决策工具相比，可以考虑多种与骨质疏松症相关且易于获取的变量因素，更加准确地识别患骨质疏松症的风险，为骨质疏松的早期诊断提供可行的方法，使高风险的人们尽早接受预防方案，节约医疗资源，有助于有效降低骨质疏松诊断误诊率，对患者、家庭和社会大有裨益。且通过数据分析研究骨质疏松影响因素之间的关系，并通过风险预测模型得到各影响因素的重要性排序，可以从数据挖掘角度印证现有医学结论，可能对未来骨质疏松症的流行病学研究以及设置更加合理的调查问卷具有指导意义。
其次，医疗数据尤其是骨质疏松领域的数据，常常因标注的困难使得有标注样本较少而未标注样本容易得到。在一定量的有标注训练样本的基础上，充分利用未标注数据，可以有效地避免数据资源的浪费。本文将半监督机器学习引入到骨质疏松的风险预测领域，能够借助未标注数据提升分类性能，对有标注数据较少而未标注数据较多的骨质疏松数据集具有很强的适用性和针对性。因此研究基于半监督的骨质疏松风险预测方法对骨质疏松医疗领域的发展具有重要意义。
此外，医疗数据常常具有缺失值和噪声值较多的特点，且骨质疏松领域的数据常常特征与目标之间关联较弱，本文在骨质疏松风险预测方法中引入噪声值去除模块，并提出一种改进的基于相关系数的部分KNN填充算法，为骨质疏松领域的数据预处理提供新的思路，且对其他医疗领域的数据预处理同样具有借鉴意义。

1 .2国内外研究现状

骨质疏松的诊断通常基于骨密度的测量。目前，骨密度测量的方法包括双能 X 射线吸收测定法 (DXA) 、定量CT 法 (QCT) 、定量超声测定法 (QUS) 和单光子吸收测定法 (SPA)。骨密度通常用 T 值表示，T 值=(测定值-骨峰值)/正常成人骨密度标准差。世界卫生组织(WHO) 发布的骨质疏松症的诊断标准为：使用 DXA 测得的骨密度，参照白种人年轻女性峰值骨量， T 值大于等于-1.0为正常，-2.5和-1.0之间为骨量减少，小于等于-2.5为骨质疏松[7。
此外，还有三种公认的骨质疏松简易风险评估工具。第一种是国际骨质疏松症基金会 (IOF) 提出的骨质疏松一分钟测试题8]。该试题的全部问题中任一题答案为“是”,就认为有患骨质疏松症的可能。具体试题包括身高是否降低了三厘米、是否经常过度饮酒、是否过度饮酒或每日大量吸烟等等。这种方法没有考虑到不同风险因素之间相互关联的作用，无法发现弱相关因素组合时的潜在风险且无法判断患骨质疏松风险的大小。第二种是亚洲人骨质疏松自我评估工具 (OSTA)[9], 它通过体重减去年龄的数值乘上0.2,得到骨质疏松的风险指数。
若风险指数小于-4,表明患骨质疏松的风险高；若风险指数在-1和-4之间，则为中风险；若风险指数大于-1,表明为低风险。OSTA 指数仅考虑了体重和年龄两项因素，过于简单。还有一种是WHO 推荐的骨质疏松性骨折风险评估(FRAX)

第二章相关技术

医疗风险预测领域的机器学习方法按照训练数据是否有标注可分为有监督学习、无监督学习和半监督学习，其中骨质疏松领域的研究多为有监督和无监督学习。半监督学习居于有监督和无监督学习之间，同时使用有标注数据和无标注数据来训练模型。本章阐述整个算法及模型设计中主要涉及到的机器学习关键技术，分为有监督算法和半监督算法两部分介绍。

2.1有监督机器学习算法

目前在疾病的早期诊断和预测研究中大量使用了有监督学习方法。有监督学习使用有标注的数据集训练分类或回归模型对未知数据进行预测。本文采用的基础算法为二元分类算法，因此本节介绍五种常用的机器学习分类算法：逻辑回归算法、支持向量机算法、人工神经网络算法、决策树算法和集成学习算法。
2.1.1支持向量机算法
支持向量机 (Support Vector Machine,SVM) 诞生在1995年，由Cortes和 Vapnik 提出[32],广泛应用于文本分类、图像识别等机器学习问题中。SVM 是由线性可分情况下的最优分类面发展而来，假设：

=1,…,n

寻找一个分类超平面H:W⁷x+b=0, 使得： (W⁷x,)+b>0,y₁=1 (W⁷x,)+b<0,y,=-1

H₁ :W⁷x+b=1 和H₂ :W⁷x+b=-1 之间的距离即为分类间隔。最优的分隔超
平面要使正确分类的前提下分类间隔最大，即使|W| 最小，则求解最优的分
隔超平面等价于求解下例问题：

(
s.1.v,(Wx,+b)-1≥0,i=1,…,n 来求解最优分类面：

(2-10)

在线性不可分的情况下，可以增加一个松弛项ξ,≥0,使求解最优分类超平

面变为下述问题：

(2-11)

st v:(Wx,+b)-1+5,≥0,i=1,…,n
其中C 为惩罚系数。此时在最大分类间隔和最少样本错误分类之间进行折衷，综合考虑得到广义条件下的最优分类超平面。
在非线性的情况下，可以通过核函数进行非线性变换，从而转变成高维空间下的线性求解问题。核函数可选用适当的内积函数K(x,x,), 包括线性核函数、多项式核函数、径向基核函数等。此时分类函数变为：
(2-12)
此即为支持向量机。

2.1.2人工神经网络算法
人工神经网络 (Artificial Neural Network,ANN) 以生物学中的神经网络为启发，是深度学习的基础，其中应用最广泛的算法是1986年Rumelhart 等人提出的反向传播 (Back Propagation,BP) 神经网络。一般常用的BP 神经网络由以下几部分组成：输入层 (input layer)、隐藏层 (hidden layer) 和输出层 (output layer)。每层包含多个神经元的节点。网络结构如图2-1所示：

图2-1 人工神经网络示意图
BP 神经网络的信息是由输入层经过每个隐层节点传送到输出层，层级之间连接的强弱关系由节点权重表示。
BP 神经网络的学习是使用误差反向传播算法进行梯度计算，然后根据梯度值进行参数的更新，实现训练的效果。反向传播算法常使用梯度下降进行优化训练，其过程主要是输入样本先通过神经元正向传播得到输出，通过目标函数计算得到输出值与期望得到的正确输出值的误差，从而调整权值，并反向传播误差，如此迭代，不断修正误差并调整网络参数，直到满足损失降低到一定程度为止。
2.1.4决策树算法
决策树 (Decision Tree,DT) 算法是一种基本的分类与回归方法，其思想主要来源于由Quinlan 在1986年提出的ID3 算法[34]和1993年提出的C4.5 算法[351, 以及Breiman 等人在1984年提出的分类回归树(Classification and Regression Tree, CART) 算法[36]。决策树的预测结果容易理解，易于解释，预测速度快，可以处理类别型即离散型数据和数值型即连续型数据。决策树的本质是从样本中寻找规则，划分节点，从而进行样本的判别输出。按回归树和分类树的不同，采用不同的方式来划分节点进行特征选择，并使用每个节点样本的均值或类别情况投票来得到测试样本的输出。其中， ID3 算法使用信息增益，而C4.5 算法使用信息增益比进行节点划分，通常选择信息增益或信息增益比大的特征进行划分。特征A对数据集T 的信息增益g(T,A) 如式2-13所示：
g(T,A)=H(T)-H(T|A)
(2-13)

其中，H(T) 表示数据集的经验熵， p=P(T=x,)
是概率值， H(T|A) 表示经验条件熵，代表了在给定特征A 的条件下对训练集T 进行分类时的不确定性。设训练样本集为
T={(x,y1),(x₂,y₂), …,(xn,yn)},
其中x,=(x¹),x(²),…,x(“)”
为输入的样本，特征维度为n,y,∈{1,2,…,K} 表示每个样本对应的类别标记。如图2-2所示，叶子节点即代表最终的单独类别。所有样本根据规则逐步划分到决策树的每个叶节点上，即完成了样本的类别判定。

x¹≤a x¹>a

x²≤a
+1

x²>a -1

x²≤a

x²>a -1

图2-2决策树示意图1371

2.1.5集成学习算法
集成学习(EnsembleLearning)是指通过结合多个基础学习器来获得比单一学习器泛化性能更好的学习器的一类方法，目前根据个体学习器的生成方式大致可分为序列化方法和并行化两大类。序列化方法中参与训练的基础学习器间存在强依赖关系、必须串行生成，其思想是通过对之前训练中标记有误的样本赋予高权重，来提高整体预测性能。并行化方法以Bagging和随机森林(RandomForest,RF)算法为代表，参与训练的基础学习器间不存在强依赖关系、可并行生成，其思想是利用基础学习器之间的独立性，利用平均的方法来显著降低错误。
Boosting是序列化方法的代表算法，其思想为：先训练得到基础学习器，再根据其表现调整样本分布，给分类不准确的样本赋予更高的权重，然后根据调整后的样本分布再训练接下来的基础学习器；如此反复，直至全部基础学习器训练完成，再对所有基础学习器进行加权结合，从而将弱学习器提升为强学习器。Boosting族算法中以自适应提升算法(AdapativeBoosting,AdaBoost)、梯度提升决策树(GradientBoostDecisionTree,GBDT)和极端梯度上升(ExtremeGradientBoosting,XGBoost)最为著名。

Bagging又名套袋法。它直接基于自助采样法(BootstrapSampling):对每个采样集训练出一个基础学习器后再将基础学习器结合。输出预测结果时，若为分类任务则采取简单投票法，若为回归任务则采取简单平均法。这种方法通过降低基础学习器的方差(Variance),改善了泛化误差。Bagging的性能依赖于基础学习器的稳定性。

2.2半监督机器学习算法

实际应用中，往往存在大量无标注数据，20世纪60-70年代半监督思想的出现，一定程度上缓解了大量人工标注费时费力且难以获得的问题，到20世纪90 年代，随着自然语言处理的发展，半监督成为机器学习领域的研究热点方向，许多半监督分类算法，如自训练算法、基于图的半监督学习算法、协同训练算法等已经引起了研究人员的广泛关注。
2.2.1自训练算法
自训练是一种增量算法 (Incremental Algorithm),它既不需要像基于图的半监督学习方法一样构造复杂的图模型，也不需要像协同训练一样基于特定的假设条件。自训练方法只需要一个分类模型，少量的有标记样本和大量的无标记样本，就可以完成复杂的半监督学习任务。
自训练算法首先利用少量的有标注的样本训练得到一个原始分类器，然后用这个基础的原始分类器不断地预测大量的无标注数据，并从中选取可信度较高的数据，再把这些数据添加到训练集中，以不断更新训练集并对基础分类器重新训练，直到满足停止条件，得到具有最高分类精度和最强的泛化性的最终分类器。训练流程如图2-3所示：

图2-3 自训练算法流程图
设L=(L,L2,…,A) 为有标注样本集，U=(u,u₂…,u;) 为无标记样本集，自训练算法基本流程如表2-1所示：
表 2 - 1 自训练算法流程描述
输入：有标注样本集L, 无标注样本集U, 有标注样本的类标注Label_t,
始分类器C, 置信度阈值θ 初
输出：训练好的分类器C

使用L 和Label_t 训练分类器C。
使用分类器C 对U 进行分类，选择U 中分类器标注的置信度高于阈值θ的样本，得到满足条件的{u,}加入U’中。
3.L=L+U’, 并将C 对 U '分类得到的类标注加入到Label_t 中，U=U-U。
重复1到3,直到为空，或迭代达到一定次数，迭代结束。
5 .得到类标注U n l a b e l t和训练好的分类器C " 。

2.2.2基于图的半监督学习算法
基于图的半监督学习算法基于聚类或流形假设。它假设所有的有标注和未标注的样本点以及样本点之间的关系可以表示为一个无向图g=<V,E> 。图构造方法可以为全连接图或者近邻图，其中，图的结点为训练样本点，边的权重则依据一定的规则得到，如欧式距离、高斯核等等，体现了两个样本点之间的相似度关系，然后再结合图中定义的光滑性正则化项确定最优化问题进行学习。这种算法的基本思想就是相似的结点尽可能赋予相同的标记，保证在已标记点上的结果尽量符合而且要满足流型假设，即使图的标记尽可能平滑。
常用的基于图的半监督学习算法包括两种标签传播算法： Label Spreading和 Label Propagation[38]。但这类方法由于存储代价和计算开销的原因，很难应用到较大数据集中去。且当数据集中引入新的样本时，需要对图进行重构并重新进行标记传播，或引入额外的预测机制，因此可扩展性较差。
2.2.3协同训练算法
标准协同训练算法是 Blum 和 Mitchell在1998年提出的[39]。该算法假设给定的已标记样本集存在两个或多个充分冗余的视图，且每一个视图的子集合都足以训练一个强分类器。
协同训练算法的基本思路是：对已标记的样本在这两个或多个属性集上训练分类器，得到两个或多个分类器，分别对未标记样本进行标记，然后选择每个分类器对分类结果置信度高的未标记样本和该样本的预测标记加入到另一个分类器已标记样本集中重新训练分类器，如此迭代，直至满足条件时结束。这种迭代的思想与自训练算法类似，使用两个或多个分类器又借鉴了集成学习的思想。
但在实际应用中，并非所有数据集都能划分成两个独立的视图，因此很多学者展开研究，提出了很多针对标准协同训练的变形或改进算法。Z.-H.Zhou 和M. Li 提出Tri-training[40]算法，无需要求充分不同分类器和冗余视图。该算法使用集成学习的思想提高了泛化性能，同时很好地解决了对未知样本的预测问题。
Tri-training 算法基于分歧，首先通过可重复取样(bootstrap sampling)获取三个有标注训练集并基于三个训练集分别产生三个分类器。最初的三个分类器必须具有较大的分歧，且强于弱学习器。若其中两个分类器对同一无标注数据点的预测相同，那么该数据点将在标注后加入有标注的训练集用于另一分类器的训练。最后，使用投票法得到集成分类器对未知样本进行预测。

第三章数据分析及预处理

3.1 数据集说明
实验数据由某医院提供的被测者的调查问卷、骨密度测量结果和骨密度图像组成。调查问卷有10072份，每份问卷均有相对应的被测者的诊断结果。问卷中包括了各种影响骨质疏松的因素，分为数值数据和文本数据两类。数值数据包含性别、年龄、身高、体重、籍贯、原籍生活时间、健康状况、绝经年龄、工作种类、每天日照时长、每天锻炼时长、吸烟情况(是否吸烟、吸烟年限、每日吸烟量)、饮酒情况、日常饮料偏好、日常饮料饮用量、补钙情况、疾病史、中毒史(是否中毒、哪种中毒)、是否手术等22项属性特征，文本数据为手术史(变量名称为哪种手术)1项。其中，数值数据中日常饮料偏好、日常饮料饮用量、疾病史可以多选，为多值变量，其余属性均为单值变量。骨密度图像有330份，为被测者的双能X 射线骨密度图，与诊断结果一一对应。骨密度测量结果为通过骨密度仪测得的BMD 测量值，本文根据骨密度测量值和T 值的关系计算得到 T 值，并由 WHO 发布的诊断标准按T 值的范围将诊断结果分为正常、骨量减少、骨质疏松3类，其中本文将骨量减少与骨质疏松一同归为有风险的一类。不同诊断结果下的数值数据、图像数据、文本数据分布如表3-1所示：
表3-1数据集各类别分布表
诊断结果总数据量 (份) 数值数据量
(份) 文本数据量
(份) 图像数据量
(份)
正常 4310 4310 734 153
有风险骨量减少 4038 4038 815 116
骨质疏松 1724 1724 380 61

总计 10072 10072 1929 330
由表3-1可知，分类结果为正常和有风险的数据分别为4310份和5762份，占总数据量的比例分别为42.79%和57.21%。每位被测者均有对应的数值数据。文本数据缺失较多，数据量约占总数据量的19.15%。图像数据缺失最多，数据量约占总数据量的3.28%。其中文本数据和图像数据中两种诊断结果的比例和数值数据中两种诊断结果的比例大致相同。
3.2 相关性分析
研究表明，骨质疏松症是受多因素影响的复杂疾病，是由多种个体因素和环境因素等微小作用积累的共同结果[41]。年龄[42]、体重指数[42]、性别[431、女性绝经[44]、饮食[45]、补钙[46]、地域[47]等因素都会对骨质产生不同程度的影响。
因此，本文对性别、年龄、身高、体重、籍贯、原籍生活时间、健康状况、绝经年龄、工作种类、每天日照时长、每天锻炼时长、是否吸烟、吸烟年限、每日吸烟量、饮酒情况、补钙情况、是否中毒、哪种中毒、是否手术等19项单值变量，使用皮尔逊相关系数，对属性之间和属性与诊断结果之间的相关性进行分析。
皮尔逊相关性系数 (Pearson Correlation) 是度量两个变量之间的相关程度的一种常用方法。输出范围为-1到+1,0代表无相关性，负值为负相关，正值为正相关。相关系数的绝对值越小，即相关系数越接近于0,相关度越弱；相关系数越接近于1或-1,相关性越强。皮尔逊相关系数的定义如式(3-1)所示：

其中，cov 表示协方差， σx、σy,分别为X、Y 变量的标准差， E 表示期望， Hx、Hy 分别为X、Y 变量的平均值。为了能够更好地表现变量之间的相关程度，本文以热力图的形式，可视各变量与诊断结果的相关系数的绝对值如图3-2所示：
3.3 数据清洗与编码
由于数据集由调查问卷、骨密度测量结果和骨密度图像三部分组成，因此本文首先进行了数据匹配的工作，即将调查问卷数据通过人名和ID 与骨密度测量结果和图片对应起来。然后进行了数据清洗。对于调查问卷中的数值数据项，去除重复和错误数据并统一数据格式；对于调查问卷中的文本数据项，进行了分隔词统一、同义词替换和错别字替换。由于调查问卷中的数值数据项包括连续的数值特征如身高、体重等和非连续的类别特征如日常饮料偏好、疾病史等，为了预测模型能够具有更好的效果，本文对两类不同的特征分开处理。对于连续特征，虽然身高、体重等特征项量纲不同，但由于本文所选用的分类器基于树模型，数值缩放不影响分裂点位置，对树模型的结构不造成影响，因此不进行归一化处理。对于单类别特征，本文对其进行独热 (One-Hot) 编码，将分类值表示为整数值，并映射为由0、1表示的二进制向量。这种编码方式将离散特征的取值扩展到了欧式空间，以使特征之间的距离计算更加合理。对于多类别特征，即多选变量，本文采用类似于独热编码的形式，每个类别值对应一维索引，若该类别被选中，则该维索引标记为1,否则标记为0。特征编码后，共得到40维数值特征。

4 实验分析
4.1 实验数据
4.2 实验结果分析

图激素水平与风险等级

图不同风险等级的年龄分布

图特种重要排序

图决策树

基于决策树对骨质疏松症的预测(源码+万字报告+讲解)（支持资料、图片参考_相关定制）

3.24 Word Embedding算法详解：Word2Vec、GloVe、FastText原理与实现

监控视角垂直视角室内人员检测数据集VOC+YOLO格式4255张1类别

AI绘画参数调优：步数、CFG、尺寸组合实验数据集

RAID入门指南：5分钟看懂0/1/5/6/10的区别

5种创意Python圣诞树原型速成

如何快速验证人体解析效果？M2FP提供在线Demo体验链接