news 2026/6/2 12:25:25

【文献分享】EXPLANA一种用户友好型的工作流程,适用于横断面和纵向微生物组研究中的探索性分析和特征选择。

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【文献分享】EXPLANA一种用户友好型的工作流程,适用于横断面和纵向微生物组研究中的探索性分析和特征选择。


文章目录

    • 介绍
    • 代码
    • 参考

介绍

纵向微生物组研究(LMS)正变得越来越常见,但其分析过程中存在一些挑战,比如数据并非相互独立,这就需要使用混合效应模型来处理。此外,大量的数据促使进行探索性分析,以确定与结果变量相关的因素。尽管变化分析(即计算不同时间点特征的变化)可能非常有效,但如何最好地进行这些分析往往并不明确。例如,观察性的 LMS 测量显示出自然波动,因此基线可能不是主要关注的参考点,而对于干预性的 LMS,基线通常是关键的参考点,通常表示治疗的开始。

为应对这些挑战,我们为 LMS 开发了一种名为 EXPLANA(探索性分析)的特征选择工作流程,该流程能够处理数值型和分类型数据,并且还能适用于横断面研究。我们将机器学习方法与不同类型的变动计算以及下游解释方法相结合,以识别具有统计学意义的变量,并解释它们与结果之间的关系。EXPLANA 会生成一个交互式的报告,该报告以文字和图形的形式总结了方法和结果。EXPLANA 在模拟的纵向数据上表现良好,平衡准确率得分达到 0.91(范围:0.79 - 1.00,标准差 = 0.05),优于现有的工具 QIIME 2 特征波动性(平衡准确率:0.95 对 0.56),并且发现了新的与结果相关的顺序依赖型分类特征变化(例如,A_B 与 B_A 的效果不同)。EXPLANA 具有广泛的适用性,并简化了用于识别与感兴趣结果相关的特征的分析工作。

科学研究通常会涉及一系列复杂的多组学数据(Santiago-Rodriguez 和 Hollister 2021),例如微生物组(乌尔塞尔等人 2012 年)、转录组(赫德利科娃等人 2017 年)和代谢组(赞博尼等人 2015 年),人们很感兴趣的是,是否可能存在任何新的特征或特征集合与某个结果变量有关。此外,研究人员还会从个体中收集可能影响结果的其他数据,例如人口统计学和健康数据,或者关于饮食或药物的调查。可用数据量的不断增加使关于变量纳入的统计决策变得复杂,这些决策通常基于最初研究设计所激发的假设。此外,研究可以包含分类变量和数值变量,并且常常包含非独立的纵向数据,这带来了更大的统计挑战。随着研究进展,不同研究实验室之间的合作使得每个研究产生的数据量增多,而在研究设计和分析过程中常常会引入人为偏差。这些挑战最终激发了对数据驱动方法日益浓厚的兴趣。
数据量过大对微生物组研究产生了尤为显著的影响。微生物组研究旨在对病毒、真菌和细菌的群落及其基因进行特征描述。微生物组的特征分析通常通过 16S 核糖体 RNA(rRNA)基因测序来完成,该方法能够识别环境中的细菌和古菌种类。由于细菌群落的代谢潜力及其与众多人类疾病(包括肥胖症(马鲁瓦达等人,2017 年)、抑郁症(瓦莱斯-科洛默等人,2019 年)、自闭症谱系障碍(ASD)(克拉耶姆尼克-布朗等人,2015 年)、癌症(庄等人,2019 年;雷贝塞克,2021 年)、艾滋病(威廉斯等人,2016 年)和心血管疾病(维托科夫斯基等人,2020 年))的关联,肠道微生物组是一个被广泛研究的微生物环境。肠道微生物组与人类疾病的关系表明,通过诸如饮食改变、益生菌或粪便微生物移植等干预措施来调整肠道微生物组,可能为疾病预防或治疗提供新的选择。
为了了解健康状况的变化以及解决个体差异的影响,需要进行纵向研究,这类研究会从多个个体中收集不同时间点的数据。除了这些研究通常包含多样化的研究对象数据(包含数值变量和分类变量)之外,它们还包括对个体的重复测量,这需要对非独立数据中的特征之间的关系进行特殊统计考量(皮尼罗和贝茨 2000 年)。基于随机森林(RF)(布雷曼 2001 年)的机器学习(ML)方法对于结合不同数据类型来预测结果和识别重要特征非常有效。随机森林在高维数据(特征多于样本/实例)中表现良好(迪亚斯-乌里亚特和阿尔瓦雷斯·德·安德烈斯 2006 年),能够发现线性和非线性关系,并能处理非正态数据分布。此外,随机森林比许多其他机器学习模型更易于解释,因为它们基于简单的决策树,这可以提高复杂工具的可访问性。此外,混合效应随机森林(MERF)(哈杰梅等 2014 年)模型可用于纵向研究设计。然而,诸多挑战可能会阻碍这些方法的有效应用。
MERFs 可以基于纵向研究的原始(原始)数据进行计算,也可以通过不同参考时间点之间的差值/变化(Δ)来进行计算,这在某些研究中能够揭示出独特的见解(博库利奇等人,2018 年;费罗西诺等人,2018 年;梅斯利尔等人,2020 年;弗雷等人,2022 年;罗德内斯-加维迪亚等人,2023 年)。然而,所关注的研究问题可能会对 Δs 的最优计算方式产生影响。在某些设计中,例如干预措施或一些预期会随时间呈现趋势的观察性研究(例如婴儿生命最初几年的肠道微生物组变化(博库利奇等人,2018 年)),预期的变化会与基线值进行比较,因此 Δs 可以使用基线作为参考进行计算(费罗西诺等人,2018 年;弗雷等人,2022 年)。然而,一些观察性研究没有有意义的基线值,可能需要将结果变量与相邻时间点或所有时间点之间的预测变量的变化联系起来(福奎尔等人,2021 年;张等人,2021 年)。例如,在我们开展的一项针对患有自闭症谱系障碍(ASD)儿童的观察性纵向研究中(福奎尔等人,2021 年),我们对这些儿童进行了长期评估,以确定 ASD 相关行为与饮食、胃肠道不适以及微生物组之间的关系。由于人际间的肠道微生物组存在很大差异,这项 LMS 揭示了肠道微生物组与 ASD 行为之间的关系,即微生物组变化的程度与不同时间点的 ASD 行为变化之间存在相关性。

代码

https://github.com/JTFouquier/explana

参考

  • EXPLANA: a user-friendly workflow for EXPLoratory ANAlysis and feature selection in cross-sectional and longitudinal microbiome studies
  • https://github.com/JTFouquier/explana
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/22 8:48:04

亲测Qwen-Image-2512-ComfyUI,AI绘图效果惊艳到不敢信

亲测Qwen-Image-2512-ComfyUI,AI绘图效果惊艳到不敢信 这是一篇不讲原理、不堆参数、不谈架构的实测笔记。我用自己手头那台RTX 4090D单卡工作站,从零开始部署Qwen-Image-2512-ComfyUI镜像,全程没查文档、没改配置、没碰命令行——就按镜像自…

作者头像 李华
网站建设 2026/5/24 22:51:19

初学者必备的ESP32 Arduino环境搭建注意事项

以下是对您提供的博文进行 深度润色与重构后的技术文章 。整体遵循您的全部要求: ✅ 彻底去除AI痕迹,语言自然如资深工程师现场讲解; ✅ 摒弃所有模板化标题(引言/总结/展望),代之以逻辑递进、层层深入…

作者头像 李华
网站建设 2026/5/31 12:38:53

传感器接口电路的PCB原理图硬件实现示例

以下是对您提供的技术博文进行 深度润色与结构重构后的优化版本 。本次改写严格遵循您的全部要求: ✅ 彻底去除AI痕迹,语言自然、专业、有“人味”,像一位资深硬件工程师在技术博客中娓娓道来; ✅ 删除所有模板化标题&#xf…

作者头像 李华
网站建设 2026/5/20 22:39:43

YOLOv10性能实测:比YOLOv9延迟降低46%是真的吗?

YOLOv10性能实测:比YOLOv9延迟降低46%是真的吗? 目标检测领域从不缺少“新王登基”的消息,但真正能撼动工程落地根基的突破却不多。YOLOv10的发布之所以引发广泛关注,不只是因为它又多了一个数字编号,而是它首次在YOL…

作者头像 李华
网站建设 2026/5/20 15:11:21

从0开始学人像抠图:BSHM模型实战入门指南

从0开始学人像抠图:BSHM模型实战入门指南 人像抠图这件事,你可能已经做过无数次——打开Photoshop,用钢笔工具慢慢描边,调边缘、修发丝,一上午就过去了;或者用手机App一键抠图,结果头发边缘毛毛…

作者头像 李华
网站建设 2026/6/2 11:30:41

一文说清Altium Designer中的PCB布局布线逻辑

以下是对您提供的博文内容进行 深度润色与结构化重构后的专业级技术文章 。全文严格遵循您的所有要求: ✅ 彻底去除AI痕迹,语言自然、老练、有工程师“人味”; ✅ 摒弃模板化标题(如“引言”“总结”),…

作者头像 李华