news 2026/2/6 0:33:44

单细胞数据解读与获取示范

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
单细胞数据解读与获取示范

在单细胞测序数据分析中,barcodes、features和matrix是三个最核心的基础文件,它们共同构成了所有分析的基石。

特性维度细胞条形码 (barcodes,BC)表达矩阵 (Matrix)
​核心角色​​细胞身份证​​核心数据账本​
​功能定位​定位数据属于哪个细胞分析每个细胞中基因表达量有多少
​数据结构​表达矩阵的列名​ (Column Names)一个二维表格:行是基因,列是细胞,元素是表达量
​文件表现​通常为 barcodes.tsv文件,每行是一个条形码序列通常为 matrix.mtx文件(稀疏矩阵格式),存储非零表达值
​依赖关系​表达矩阵的列数由有效的细胞条形码数量决定表达矩阵的列标识完全依赖于细胞条形码文件

一、进入GEO官网:https://www.ncbi.nlm.nih.gov/geo/

在GEO(Gene Expression Omnibus)数据库中下载单细胞数据时,最常见的数据存储和提供形式主要有以下四种类型:


  1. 10x Genomics 标准格式(最主流)

在GEO的数据集中,我们通常会找到一个包含以下三个核心文件的文件夹(通常以 *_filtered_feature_bc_matrix.tar.gz或类似名称的压缩包提供):

barcodes.tsv(.gz): 包含所有检测到的细胞条形码(Cell Barcode),每个条形码代表一个可能的细胞。

features.tsv(.gz)​ 或 genes.tsv(.gz): 包含所有被检测的基因(或转录本、抗体标签)的标识符和名称。

matrix.mtx(.gz): 以稀疏矩阵格式存储的基因表达计数矩阵,行对应基因,列对应细胞。


  1. H5 格式(高效二进制格式)

这是一种用于存储大规模数据的二进制文件格式。在单细胞上下文中,它通常是将上述10x标准格式的三个文件整合到了一个单一的 .h5文件中。

典型命名: *_filtered_feature_bc_matrix.h5

优势: 文件单一,便于管理和传输,存储效率高。


  1. R 数据文件(可直接使用的分析对象)

部分数据提交者会将已初步处理好的单细胞数据直接保存为R语言特有的数据文件格式,供其他研究者快速载入。

.rds文件: 存储单个R对象(如一个Seurat对象或表达矩阵)。使用 readRDS()函数读取。

.RData或 .rda文件: 可存储一个或多个R对象。使用 load()函数读取,对象会被载入当前工作环境。

优势: 读取速度极快,且能保留完整的对象结构和中间分析结果。


  1. 压缩文本矩阵(通用表格格式)

这是一种比较传统和通用的数据提供方式,将表达矩阵保存为纯文本表格,并进行压缩以减小体积。

格式: 通常是 .txt.gz或 .csv.gz文件。

内容: 行是基因,列是细胞(或样本),表格内的值为表达量。有时也可能提供转置后的格式(行是细胞,列是基因)。

如何读取: 可以使用 data.table::fread()、read.delim()等函数读取,或在Excel中打开(不推荐用于大型数据)。读取后通常需要转换为矩阵或数据框,才能用于创建Seurat对象。


二、以”GSE234527”为例子:读取一个10× Genomics格式文件

1、搜索“GSE234527”:

2、在补充材料里下载(点击“custom”)


3、在桌面解压缩,分类整理:数据来自五个不同样本,分成五类,每个样本包含多个细胞
修改前:

修改后:


*修改的目的是为了更好地用R语言进行数据处理
详细过程请参考:https://www.bilibili.com/video/BV1Ct421j7X3?spm_id_from=333.788.videopod.sections&p=4
(B站:生信幻想家——单细胞数据分析)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/5 5:59:10

AI语音分析2026年必看趋势:开源+情感识别成主流

AI语音分析2026年必看趋势:开源情感识别成主流 1. 引言:为什么AI语音理解正在进入“富文本”时代? 你有没有遇到过这样的场景?一段客服录音,光靠文字转写根本看不出客户是满意还是愤怒;一段视频内容&…

作者头像 李华
网站建设 2026/1/30 9:44:50

verl训练效率对比:相同硬件下吞吐量实测数据

verl训练效率对比:相同硬件下吞吐量实测数据 1. verl 介绍 verl 是一个灵活、高效且可用于生产环境的强化学习(RL)训练框架,专为大型语言模型(LLMs)的后训练设计。它由字节跳动火山引擎团队开源&#xff…

作者头像 李华
网站建设 2026/2/5 9:22:33

短视频营销全能助手!开源AI智能获客系统源码功能

温馨提示:文末有资源获取方式 多平台账号统一管理功能 该系统支持同时管理多个主流短视频平台账号,包括抖音、今日头条、西瓜视频、快手、小红书、视频号、B站和百家号等。用户可以在单一界面中集中操控所有账号,实现内容发布、数据监控和互动…

作者头像 李华
网站建设 2026/2/5 9:54:00

GPT-OSS部署自动化:CI/CD集成脚本分享

GPT-OSS部署自动化:CI/CD集成脚本分享 1. 引言:为什么需要自动化部署GPT-OSS? 你有没有遇到过这样的场景:每次更新模型配置、调整推理参数,或者切换环境时,都要手动执行一堆命令、检查依赖、重启服务&…

作者头像 李华
网站建设 2026/1/27 23:44:00

Live Avatar性能监控实践:GPU日志记录与分析方法

Live Avatar性能监控实践:GPU日志记录与分析方法 1. 引言:Live Avatar数字人模型的显存挑战 Live Avatar是由阿里联合高校开源的一款先进数字人生成模型,能够基于文本、图像和音频输入生成高质量的动态人物视频。该模型在影视制作、虚拟主播…

作者头像 李华
网站建设 2026/2/3 8:29:48

CosyVoice2-0.5B支持哪些语言?多语种合成实测指南

CosyVoice2-0.5B支持哪些语言?多语种合成实测指南 1. 开篇:为什么你该关心它的语言能力? 你有没有试过——用一段3秒的中文录音,让AI说出流利的日文问候?或者录下自己说“你好”的声音,再让它用同一音色念…

作者头像 李华