文献介绍
文献题目:PlantPhoneDB:一个手动整理的泛植物配体-受体对数据库,用于推断细胞间通讯
研究团队:郑海雷(厦门大学)、周颖(厦门大学)
发表时间:2022-07-16
发表期刊:Plant Biotechnology Journal
DOI:10.1111/pbi.13893
摘要
配体-受体对在多细胞生物响应环境信号的细胞间通讯中发挥着重要作用。近年来,单细胞 RNA 测序(scRNA-seq)的出现为基于配体-受体表达研究细胞通讯提供了前所未有的机会。然而,目前尚无针对植物物种的可靠配体-受体相互作用数据库。在本研究中,作者开发了PlantPhoneDB(https://jasonxu.shinyapps.io/PlantPhoneDB/),这是一个泛植物数据库,包含从七个资源中手动整理的大量高置信度配体-受体对。此外,作者还开发了 PlantPhoneDB R 包,该包不仅提供了四种可选的评分方法来计算细胞类型之间配体-受体对的相互作用评分,还提供了可视化功能以展示分析结果。在 PlantPhoneDB 的网络界面中,用户可以搜索、浏览和下载处理过的数据集及结果。为了揭示植物中新的细胞间通讯事件,作者将 PlantPhoneDB R 包应用于 GSE121619 数据集,以推断拟南芥热激根细胞中显著的细胞间相互作用。结果表明,PlantPhoneDB 预测了拟南芥中无毛细胞-皮层细胞对中具有活跃通讯作用的 AT1G28290-AT2G14890 配体-受体对。重要的是,该配体-受体对的下游靶基因在核糖体通路中显著富集,这有助于植物适应环境变化。总之,PlantPhoneDB 为研究人员提供了从单细胞 RNA 测序数据集中推断细胞间通讯的整合资源。
前言
为了适应环境变化,植物通过多种方式实现受调控的短距离和长距离细胞间通讯来感知环境信号,包括移动转录组、转录因子、植物激素和小信号肽。近年来,分泌性信号肽在细胞间通讯中的重要性在植物中受到了广泛关注,它们协调细胞功能以维持植物的生长和发育。与哺乳动物类似,植物进化出了大量分泌性肽,这些肽被认为是细胞间信号分子。分泌性肽配体被认为是与细胞表面受体结合的第一信使,这些受体是具有胞外和胞内激酶结构域的跨膜蛋白,用于信号转导。例如,植物硫激肽(PSK)可与PSK受体基因1(PSKR1)和 PSK 受体基因2(PSKR2)相互作用,调控拟南芥的根系生长;AtPep3 肽与膜受体激酶基因 PEPR1 通路与拟南芥的耐盐性相关。许多细胞表面受体由受体样蛋白和受体样激酶组成,拟南芥中含有超过 610 个受体样激酶成员,水稻中含有超过 1000 个受体样激酶成员。肽-受体相互作用可以激活一系列下游生理生化过程。简而言之,分泌性肽和相应的细胞表面受体在植物细胞间通讯中发挥着重要作用。
植物由不同的细胞类型组成,它们形成一个动态而复杂的细胞间通讯网络以确保功能连接。为了更好地研究细胞功能,有必要了解细胞如何相互通信以响应其环境。高通量单细胞 RNA 测序(scRNA-seq)技术的出现为在单细胞分辨率下表征细胞组成和活性提供了前所未有的机会。与传统的 bulk RNA-seq 相比,scRNA-seq 在单细胞类型基因动态表达方面具有显著优势。scRNA-seq 已越来越多地用于研究植物组织的转录调控和发育机制、不同细胞类型对各种环境刺激的响应,以及最终的细胞间相互作用。
一些软件工具已被开发用于推断细胞间通讯。例如,SingleCellSignalR 使用一种新的正则化乘积评分(LRscore)来考虑 scRNA-seq 数据集中不同深度水平,并提供一个阈值(LRscore > 0.5)以基于两个基准控制配体-受体相互作用的假发现率。另一个软件 CellPhoneDB 通过随机打乱簇标签(例如 100 次)使用置换检验计算配体-受体相互作用评分,并基于相互作用评分的零分布计算 P 值。CellPhoneDB 认为当 P 值 <0.05 时配体与受体相互作用。此外,scTensor 采用非负 Tucker 分解,基于自动生成的 12 个生物体(包括拟南芥)的配体-受体对来检测一些超图。scTensor 算法包括五个步骤:构建 CCI 张量、CANDECOMP/PARAFAC 和 Tucker 分解、非负 Tucker 分解、将 CCI 提取为超图以及标签置换方法。然而,这些工具大多针对人类或小鼠,且没有真正适用于植物的配体-受体对数据库。尽管 scTensor 支持植物数据分析,但其预测的配体-受体对的置信度不受控制。
为了解决这一问题,在本研究中,作者创建了 PlantPhoneDB,一个包含来自七个资源且质量受控的配体-受体对的泛植物数据库。基于配体-受体对,作者开发了一个 R 包“PlantPhoneDB”,该包提供了四种可选的评分方法来计算配体-受体相互作用的评分,从而从 scRNA-seq 数据集中推断不同细胞类型之间的细胞间通讯。结果表明,PlantPhoneDB R 包可以预测由配体-受体对调控的下游靶基因,这些配体-受体对参与了植物中的信号通路。最后,作者成功开发了一个网络界面,用户可以在其中搜索、浏览和下载处理过的数据集。
研究结果
1. PlantPhoneDB 统计
当前的 PlantPhoneDB 网站包含3514 个拟南芥特有的配体-受体对,这些配体-受体对来自七个资源,包括plant.MAP、Interactome v2.0、IntAct、BioGRID、文献文本挖掘、STRING 和同源资源(Figure 1a)。PlantPhoneDB 中的配体-受体对分别包含拟南芥中的 574 个配体和 585 个受体。R 包 scTensor 使用 36 种方法从 STRING 数据库中自动生成 12 个生物体的配体-受体对。scTensor 为拟南芥生成了 3014 个配体-受体对,涉及 671 个配体和 645 个受体(Figure S1a)。与 scTensor 相比,PlantPhoneDB 仅覆盖了 scTensor 中 26.11%(787/3014)的配体-受体对,而拟南芥中有 2727 个配体-受体对是 PlantPhoneDB 中独有记录而 scTensor 中没有的(Figure S1b)。为了进一步比较,作者使用 PPI 组合得分 >600 作为过滤标准,对 scTensor 提供的配体-受体对(3014 对)进行了过滤。在获得的 818 个配体-受体对中,有 762 对与 PlantPhoneDB 中的 STRING 资源(1112 对)重叠(Figure S1b)。此外,通过使用 InParanoid 算法在拟南芥与其他四种植物物种的蛋白质组之间分配配体-受体对的同源关系,鉴定出的配体-受体对数量从 1751 个(番茄)到 3762 个(水稻)不等(Figure 1b)。
Figure 1. 分析了 PlantPhoneDB 的统计数据和 scRNA-seq 数据集的摘要
(A)从拟南芥的 plant.MAP、Interactome v2.0、IntAct、BioGRID、文献文本挖掘、STRING 和同源资源中整理的配体-受体对数量。其中 3514 个独特的配体-受体对用于推断细胞间通讯。
(B)在 5 个植物物种(包括拟南芥、水稻、银白杨×腺毛杨、番茄和玉米)中鉴定出的配体、受体及配体-受体对的数量。
(C)PlantPhoneDB 包含 29 个 scRNA-seq 数据集信息,覆盖了来自 5 个植物物种 15 个组织中的约 56 万个细胞。FAIL、PASS 和待处理数据集分别用蓝色、黑色和紫色条形表示。PASS 数据集指高质量细胞数 ≥1000 的 scRNA-seq 数据集;待处理数据集指已通过质量评估但无可用表达矩阵,或因数据量过大无法在当前笔记本电脑上分析的数据集。其余 scRNA-seq 数据集被视为 FAIL 数据集(高质量细胞数<1000)。每个数据集的细胞数(按原始论文记录)显示在括号中。
此外,在 PlantPhoneDB 中,作者手动审核并确认了 23 篇经同行评审的出版物和 4 篇预印本文章,收集了来自 5 个植物物种(包括拟南芥、水稻、银白杨×腺毛杨、番茄和玉米)15 个组织中约 56 万个细胞的 29 个 scRNA-seq 数据集的信息(Data S1)。其中,14 个 scRNA-seq 数据集直接从 PlantscRNAdb(http://ibi.zju.edu.cn/plantscrnadb/index.php)获取。经过处理后,合格的 scRNA-seq 数据集被用于进行细胞间通讯分析(过滤标准见方法)。值得注意的是,一旦处理完 10 个待处理的scRNA-seq 数据集或有新的植物 scRNA-seq 数据集可用,将更新数据库(Figure 1c)。
2. PlantPhoneDB 的功能
作者设计了多个模块来展示分析结果,包括配体-受体对、处理后的 scRNA-seq 数据集、细胞类型注释以及基于单细胞转录组的细胞间通讯结果。在 homepage 上,用户可以获取 PlantPhoneDB 的统计数据,其中包括配体-受体对的数量以及来自五个植物物种 15 个组织约 56 万个细胞的信息(Figure 2a)。在搜索选项卡中,用户可以使用公认的 ID(如 Uniprot Accession、TAIR Locus identifier 或 Rice locus)查询特定配体或受体的详细信息。References 模块提供了 27 篇关于植物 scRNA-seq 数据集的相关文章。用户点击感兴趣的文章后,可以直接查看标题和摘要。下载模块支持用户下载配体-受体对和单细胞水平的表达矩阵。
Figure 2. PlantPhoneDB 网络界面功能及 AT2G43610 基因在不同细胞类型中表达的可视化示例
(A)PlantPhoneDB 概述。导航栏上显示了七个模块。PlantPhoneDB 中收集了来自五个植物物种的配体-受体对数量。scRNA-seq 数据集和资源的详细信息显示在方框中。
(B)使用 cellxgene 软件对 GSE114615 数据集的可视化示例。每个数据集的详细元信息显示在左侧,例如注释的细胞身份和处理条件。右侧是 GSE114615 数据集的 UMAP 图,细胞按根毛细胞、无毛细胞、侧根细胞、分生细胞、内皮层细胞和皮层细胞类型着色。每个点代表一个细胞。
(C)小提琴图显示了 AT2G43610 基因在六种不同细胞类型中的表达水平分布。
在 Explorer 选项卡(Figure S2a)中,PlantPhoneDB 允许用户详细探索已处理 scRNA-seq 数据集的细胞间通讯情况。作者还在文档模块中提供了带有完整文档的 R 脚本,以帮助研究人员在本地分析他们自己的数据集。在关于选项卡中,PlantPhoneDB 欢迎用户通过电子邮件提供任何反馈。
3. 单个 scRNA-seq 数据集探索
在可视化方面,用户可以将每个处理过的 scRNA-seq 数据集上传到 FASTGenomics 平台(https://www.fastgenomics.org/)进行可视化,或在本地使用 Cellxgene(https://chanzuckerberg.github.io/cellxgene/)进行探索。在此,作者采用 MAESTRO 教程(基于基因标记的注释方法)对登录号为 GSE114615 的 scRNA-seq 数据集进行细胞身份注释,并展示了细胞类型组成(Figure 2b)和基因表达分布(Figure 2c)。如果用户对某种特定细胞类型(如拟南芥的侧根细胞)感兴趣,他们可以选择该感兴趣的细胞类型和其他细胞类型进行差异表达基因分析。用户可以选择使用 Wilcoxon 秩和检验来评估不同细胞类型之间基因表达的统计学差异。
与其他细胞类型相比,作者观察到 AT2G43610 在侧根细胞中表达水平最高(Figure 2c)。此外,AT2G43610(logFC = 1.78,FDR = 1.29 × 10−222)是侧根细胞中差异表达最显著的基因(Data S2),也是 PlantscRNAdb 报道的一个标记基因。同时,可以看到 UMAP 图和小提琴图揭示了 AT2G43610 在侧根组织中不同细胞类型的特异性表达模式(Figure S2b;Figure 2c)。总之,小提琴图和 UMAP 图可以展示 AT2G43610 在不同细胞类型中的表达模式,并检验 AT2G43610 作为标记基因之一是否有助于细胞身份注释。
4. 自动细胞识别方法的选择
为了选择更适合单细胞 RNA 测序数据集的细胞类型注释模型,作者在此使用 5 折交叉验证,在 7 个人类外周血单个核细胞(PBMC)数据集(PbmcBench;Data S3)上评估了 10 种分类器的性能。即,每个数据集被随机分为 5 部分,其中 4 折用于训练分类器,最后一折用于评估分类器的性能。重复此过程 5 次,以获得 F1 分数和运行时间。简而言之,作者分别测试了分类器在不同测序方案的数据集之间(数据集间模型;Figure 3a)和数据集内部(数据集内模型;Figure 3b)的性能。结果,获得了 49 对训练-测试组合结果。最值得注意的是,无论数据集类型如何,性能最佳的分类器都是 MAESTRO 分类器,它具有更高的 F1 分数和更短的运行时间(Figure 3c)。
Figure 3. 在 7 个 PbmcBench 数据集上对 10 种分类器的性能进行基准测试
(A)热图展示了 10 种分类器在不同测序方案之间(数据集间模型)的 42 对训练-测试组合的中位 F1 分数。热图顶部的数据集用作训练数据集,测试数据集显示在热图底部。数据集间模型表示使用来自一种测序方案的训练用 scRNA-seq 数据集来预测来自另一种测序方案的 scRNA-seq 数据集的细胞类型。
(B)10 种分类器在不同方案的数据集内部(数据集内模型)的中位 F1 分数,包括 10×v2、10×v3、CEL_Seq、Drop_Seq、inDrop、Seq_Well 和 Smart_Seq2 方案。数据集内模型表示使用来自一种测序方案的训练用 scRNA-seq 数据集来预测来自同一测序方案的 scRNA-seq 数据集的细胞类型。
(C)评估每个分类器的平均计算时间和平均 F1 分数。条形图表示每个分类器的平均运行时间(左);折线图表示平均 F1 分数(右)。
此外,除了细胞身份指数(ICI)分类器外,几乎所有分类器都表现良好,除 ICI 分类器外,所有分类器的平均 F1 分数均大于 0.75(Figure 3c)。另一个例外是 garnett 分类器在 inDrop 方案上表现较差,但在其他方案上表现良好。在实际场景中,确实需要一个分类器来预测跨数据集的细胞身份。因此,作者使用 F1 分数评估了每个分类器在数据集间模型和数据集内模型之间的性能统计差异,并得出结论:除 SingleR 和 scmap-cluster 分类器外,其他分类器均无差异(P-value <0.05; Figure S3a)。随后,作者使用 F1 分数评估了所有分类器在数据集间模型或数据集内模型上的性能,并发现性能存在显著差异(P-value <0.05; Figure S3b)。
5. 评分方法比较
随后,作者使用四种评分方法,在通过 MAESTRO 分类器注释细胞类型的 scRNA-seq 数据集上推断细胞间通讯。有趣的是,所得热图(Figure 4a, b)显示,对于 3k 或 8k 10× 人类外周血单个核细胞(PBMC)数据集,四种评分方法(LRscore、WeightProduct、Average 和 Product)得出的细胞间通讯网络相似。此外,使用余弦相似度评估细胞间通讯网络的相似性,结果显示四种评分方法之间具有高度相似性(Figure S4a),表明四种评分方法之间性能差异很小。为了评估四种评分方法的性能是否受细胞数量的影响,作者将 8k 10× PBMC 数据集按分层方式下采样至原始大小(8488 个细胞)的10%、20%、30%、40%、50%、60%、70%、80% 和 90%。使用数据集中的这些细胞,在本研究中,无论细胞数量多少,四种评分方法均表现良好(Figure S4b)。
Figure 4. 四种评分方法(LRscore、WeightProduct、Average、Product)的比较
(A)热图展示了 10 种分类器在不同测序方案之间(数据集间模型)的 42 对训练-测试组合的中位 F1 分数。热图顶部的数据集用作训练数据集,测试数据集显示在热图底部。数据集间模型表示使用来自一种测序方案的训练用 scRNA-seq 数据集来预测来自另一种测序方案的 scRNA-seq 数据集的细胞类型。
(B)10 种分类器在不同方案的数据集内部(数据集内模型)的中位 F1 分数,包括 10×v2、10×v3、CEL_Seq、Drop_Seq、inDrop、Seq_Well 和 Smart_Seq2 方案。数据集内模型表示使用来自一种测序方案的训练用 scRNA-seq 数据集来预测来自同一测序方案的 scRNA-seq 数据集的细胞类型。
(C)评估每个分类器的平均计算时间和平均 F1 分数。条形图表示每个分类器的平均运行时间(左);折线图表示平均 F1 分数(右)。
接下来,作者探究哪些细胞-细胞对之间的通讯更频繁。一个简单的策略是统计给定细胞-细胞对的配体-受体对数量,然后通过除以相应细胞-细胞对的总细胞数来对计数进行归一化。最后,基于归一化计数的排名,作者使用排名前 10 的通讯细胞类型对来比较四种评分方法的性能。作者的结果表明,四种评分方法能够识别出几乎相同的前几位通讯细胞-细胞对(Data S4)。尽管如此,用户在突出显示其感兴趣的通讯网络时,应注意评分方法之间的差异(Data S5)。因此,作者建议使用至少两种评分方法来推断细胞间通讯。
6. PlantPhoneDB 的应用
为了探索 PlantPhoneDB 的更多应用,作者接下来研究了热激胁迫下植物细胞间的通讯方式。将处理过的 scRNA-seq 数据集(GSE121619)作为 PlantPhoneDB R 包的输入,该数据集包含 15,729 个细胞,涉及 9 种细胞类型,即中柱鞘细胞、侧根细胞、根毛细胞、皮层细胞、内皮层细胞、分生细胞、韧皮部细胞、无毛细胞和木质部细胞(Figure 5a)。差异表达基因(FDR < 0.05, logFC >= 0.25)的表达表明这些细胞类型被正确注释(Figure 5b)。随后,作者想知道是否所有细胞都能表现出热激诱导效应(Figure S5a)。为此,作者计算了对照组和热激样本中不同细胞类型的比例。与对照组相比,无毛细胞、分生细胞和皮层细胞所占比例更高,这表明这些细胞对热激反应至关重要(Figure S5b)。使用卡方检验计算每种细胞类型的观察细胞数与期望细胞数的比值(RO/E)。这些细胞类型在对照组和热激样本之间表现出显著的偏好差异(Figure 5c)。
Figure 5. 拟南芥热激根细胞中显著的细胞间相互作用
(A)GSE121619 数据集的 UMAP 图,细胞按无毛细胞、皮层细胞、内皮层细胞、侧根细胞、分生细胞、中柱鞘细胞、韧皮部细胞、根毛细胞和木质部细胞类型着色。
(B)MAESTRO 软件注释的每种细胞类型特征基因的平均表达水平。低表达水平和高表达水平分别用蓝色和红色表示。
(C)热激胁迫下每种细胞类型的偏好性。RO/E 值大于 1 表示富集。
(D)成对细胞类型之间细胞间通讯的弦图。线条宽度表示显著配体-受体对的数量。
(E)P 值 <0.05 的前 10 个配体-受体对显示出不同的调控模式。列按最大配体-受体表达进行缩放。
作者还使用 PlantPhoneDB,通过 Average 评分方法,在成对细胞类型之间鉴定出总共 1640 个显著的配体-受体对(包括 439 个实验验证的、414 个文献支持的以及 787 个预测的配体-受体对)(Data S6),其中包括 1457 个旁分泌配体-受体对和 183 个自分泌配体-受体对(Figure 5d, Figure S5c, d)。在此,作者重点关注使用 Average 评分方法按评分排名前 10 的配体-受体对,它们可能在细胞间通讯中发挥重要作用。值得注意的是,一些配体-受体对在大多数细胞-细胞对中都能检测到,例如 AT3G53230–AT3G09840、AT3G53230–AT5G12110 和 AT4G12420–AT2G45960;然而,其他配体-受体对仅在少数细胞-细胞对中发现,例如无毛细胞-内皮层细胞对中的 AT4G15800–AT1G55330 和 AT4G15800–AT3G13520,这暗示了不同配体-受体对的调控机制存在差异(Figure 5e)。特别地,在最大的细胞通讯网络(从无毛细胞到皮层细胞)中检测到 49 个显著的配体-受体对,这突显了无毛细胞-皮层细胞对在响应热激胁迫中的重要性(Figure S5e)。然后,作者构建了由无毛细胞-皮层细胞对的 49 个配体-受体对中每个配体-受体对所调控的内部信号网络。通路分析结果显示,AT1G28290-AT2G14890 对(FDR = 3.77 × 10−64)的下游靶基因主要参与核糖体通路(ath03010; Data S7; Figure S5f)。有趣的是,先前的一项研究支持热胁迫会导致拟南芥中出现核糖体暂停现象。
此外,使用一个水稻 scRNA-seq 数据集(GSE146035),该数据集包含来自日本晴(粳稻)品种的 10,968 个细胞和来自 93-11(籼稻)品种的 12,564 个细胞,由六种细胞类型组成,即柱细胞、皮层细胞、内皮层细胞、表皮细胞、后生木质部细胞和中柱细胞(Figure 6a),用于进行细胞间通讯分析。已知标记基因的表达表明这些细胞类型被正确注释(Figure 6b)。PlantPhoneDB R 包不仅能够鉴定不同环境条件(如热激胁迫)下拟南芥单个根细胞中显著的配体-受体对,还能够通过除以两个 scRNA-seq 数据集之间的相互作用总数来比较不同细胞类型之间相互作用数量的分数。可以看到,使用相互作用数量的分数作为细胞间通讯的量化指标,突显了相对排名在每个水稻品种各细胞群细胞间通讯网络中的重要性(Figure 6c)。作者还提供了一个网络图视图,以可视化不同细胞类型之间不同的相互作用数量(Figure 6d, e),以及当选择某个感兴趣的细胞类型时细胞间通讯子网络的相互作用数量。我们有时可能更关注某些特定细胞类型的细胞间通讯(Figure S6)。总之,通过使用 PlantPhoneDB R 包比较两个水稻品种,可以比较细胞间相互作用的差异。
Figure 6. 两个水稻品种数据集(93-11 和 Nipponbare)之间细胞对相互作用数量的比较
(A)GSE146035 数据集的 UMAP 可视化,包含来自两个水稻品种日本晴(粳稻)和 93-11(籼稻)的 10,968 个细胞和 12,564 个细胞。每个点代表一个细胞。
(B)两个水稻品种中每种细胞类型的已知标记基因的平均表达水平。
(C)两个水稻品种中每种细胞类型的细胞间相互作用差异(考虑总细胞数)。
(D)水稻品种 93-11 中成对细胞类型之间显著配体-受体对的鉴定。
(E)水稻品种日本晴中成对细胞类型之间显著配体-受体对的鉴定。
讨论
配体-受体对被广泛用于从单细胞转录组推断细胞间通讯。scRNA-seq 数据集的快速增长使得研究植物组织细胞类型如何响应环境信号(如热激胁迫)进行通讯成为可能。许多软件工具已基于人类和模式动物的配体-受体对开发出来。然而,到目前为止,还没有植物特异的配体-受体对数据库可用。因此,有必要开发一个全面可靠的配体-受体对数据库来研究植物,特别是重要模式植物拟南芥的细胞间通讯。在本研究中,作者开发了 PlantPhoneDB,其中包含大量高置信度的配体-受体对。与 scTensor 相比,作者在 PlantPhoneDB 中鉴定出拟南芥中具有特定置信标准的 2727 个配体-受体对,而这些在 scTensor 中没有。如上所述,只有 787 个配体-受体对与 scTensor 重叠(Figure S1b)。此外,作者收集的文献支持的配体-受体对中只有 19.37%(74/382)与 scTensor 重叠(Figure S4c)。进一步比较显示,scTensor 中 93.15%(762/818)的高置信度配体-受体对和 1.14%((787–762)/(3014–818))的低置信度配体-受体对被 PlantPhoneDB 覆盖。scTensor 与 PlantPhoneDB 之间重叠率低有两个可能的原因:(1)STRING 数据库不断更新,scTensor 使用的配体-受体对不是最新的。(2)scTensor 仅包含来自植物 STRING 数据库的配体-受体对,而不包含其他数据库,如 BioGRID 和 IntAct 等。正如解释的那样,他们无法在 scTensor 预打包的示例数据集之外使用它。尽管 scTensor 做出了相当大的努力,但开发一个植物特异的细胞间通讯工具仍是必要的。PlantPhoneDB R 包不仅提供了一些可视化功能,包括点图、热图、圆形图和细胞间通讯网络,还支持四种评分方法来估计 PPI 强度(Table 1)。
最近的 scRNA-seq 技术成功解决了细胞异质性问题,并促使我们以单细胞分辨率来研究植物物种中的细胞间通讯。为了获得植物细胞通讯的全景,识别细胞类型身份至关重要。作者基于 F1 分数和计算时间评估了 10 种分类器在 7 个 PbmcBench 数据集上的性能,并选择 MAESTRO 软件来注释细胞簇。ICI 方法在所有 PbmcBench 数据集上的细胞身份注释表现最差。作者推测 ICI 方法特定于拟南芥根组织,而不适用于其他组织或生物体。Wang 等人认为该方法可能不适用于水稻 scRNA-seq 数据集。在本研究中,PlantPhoneDB R 包提供了可选的四种评分方法来推断细胞通讯。四种评分方法之间除运行时间外差异非常小。
在本研究中,作者演示了两个如何在真实的植物 scRNA-seq 数据集中使用 PlantPhoneDB 的示例。一方面,PlantPhoneDB 可以预测由 AT1G28290-AT2G14890 对调控的一个重要生物学通路,这一结果得到了先前研究的支持。这可能是一个重要的调控机制,有助于植物适应环境变化。在某种程度上,先前一项证明热胁迫会导致核糖体暂停现象的研究在整体 RNA-Seq 水平上支持了我们的结果。这些发现为进一步理解细胞如何响应热胁迫进行相互通讯提供了重要线索。然而,需要进一步的证据来支持这一发现。另一方面,我们比较了两个水稻品种之间的细胞通讯,并揭示了相对排名在每个细胞群细胞间通讯网络中的重要性。PlantPhoneDB 还提供了不同细胞类型之间相互作用数量的多种可视化方式,以比较通讯网络的差异。然而,有一些局限性需要注意。首先,我们没有考虑配体结合受体与各自共受体之间的异源多聚体相互作用,这可以作为一个重要的相互作用平台。其次,由于 PlantPhoneDB 中非文献支持对(实验对和预测对)与文献支持对之间的配体-受体对重叠率非常低,我们无法进行基准分析并准确评估细胞间通讯的可能性。此外,植物激素也参与植物生长和发育的许多过程,它们响应环境信号触发大量的转录程序。一种可能的机制是植物激素和分泌性信号肽之间的串扰,以整合细胞通讯网络并调节生理生化过程。最后,scRNA-seq 数据集对于内存来说过于庞大,需要高性能计算服务器。因此,目前我们只提供一个R包供用户安装和分析他们自己的数据集。未来,将为单细胞转录组数据集的可视化、比较和细胞间通讯构建一个应用程序。它不需要相关的专业知识和费用,只需上传数据集、分析并下载分析结果。未来,空间转录组学技术在植物物种上的应用将促使我们不断更新 PlantPhoneDB。
总之,PlantPhoneDB 提供了五个植物物种中大量高置信度的配体-受体对。作者构建了一个用户友好的网站,用于系统搜索、浏览和下载处理过的数据集,促进以单细胞分辨率探索植物中的细胞间通讯。此外,PlantPhoneDB R 包使用 R(版本:4.0.2)提供了一些功能,如LRscore、heatmap_count、CCI_circle、CCI_network 和 LR_pathway,用于推断和构建细胞间通讯网络及细胞内信号通路。
--------------- 结束 ---------------
注:本文为个人学习笔记,仅供大家参考学习,不得用于任何商业目的。如有侵权,请联系作者删除。