HiC-Pro跑完数据后，你的结果文件都看懂了吗？从out文件夹讲起-平芜编程栈

HiC-Pro结果文件深度解析：从out文件夹挖掘隐藏的生物学故事

当你第一次成功运行HiC-Pro后，面对out目录下密密麻麻的文件列表，那种既兴奋又困惑的感觉我深有体会。作为一名经历过相同阶段的生物信息学研究者，我完全理解这种"数据在手却无从下手"的困境。本文将带你系统梳理HiC-Pro的输出文件体系，不仅告诉你每个文件"是什么"，更重要的是揭示"为什么重要"以及"如何用于实际研究"。

1. 初识HiC-Pro输出结构：out文件夹全景扫描

运行HiC-Pro后生成的out目录通常包含多个子文件夹和文件，它们共同构成了一个完整的Hi-C数据分析结果体系。让我们先建立一个宏观认识：

out/ ├── bowtie_results/ # 比对相关中间文件 ├── hic_results/ # 核心分析结果 │ ├── data/ # 矩阵与交互数据 │ ├── pics/ # 质控图表 │ └── stats/ # 统计报表 ├── rawdata/ # 预处理后的原始数据 └── config-hicpro.txt # 使用的配置文件副本

关键点理解：

bowtie_results：存储比对过程的中间文件，通常不需要直接分析，但对排查问题有价值
hic_results：核心分析结果的"宝库"，包含后续分析所需的全部关键数据
rawdata：经过初步处理但尚未比对的数据，可用于重新分析或特定定制分析

提示：首次分析时，建议重点关注hic_results下的内容，这是大多数下游分析的起点

2. 数据质量评估：stats文件夹的深度解读

stats文件夹是评估实验成功与否的第一站，包含多个关键统计文件：

2.1 全局统计：all_stat.txt文件精要

这个文件汇总了整个实验的关键指标，以下是一个典型示例的部分内容：

指标名称	数值	生物学意义
Valid_interaction_pairs	45,678,921	有效互作对数，反映数据量
Invalid_pairs	2,345,678	无效互作，反映数据质量
Intra-chromosomal	78%	染色体内部互作比例
Inter-chromosomal	22%	染色体间互作比例
Short_range_<20kb	35%	短距离互作比例
Long_range_>20kb	65%	长距离互作比例

关键解读技巧：

有效互作对数应达到千万级别才能获得可靠结果
染色体内部互作通常应显著高于染色体间互作
长距离互作比例过低可能提示交联效率问题

2.2 样本比对统计：*.mpairstat文件分析

这类文件记录比对过程的详细信息，以下是一个真实案例的关键指标：

# 示例数据片段 Total_pairs: 50,123,456 Mapped_pairs: 48,901,234 (97.56%) Unique_pairs: 45,678,901 (91.13%) Dangling_end_pairs: 1,234,567 (2.46%) Religation_pairs: 456,789 (0.91%)

异常情况排查：

比对率低于90%：可能参考基因组不匹配或数据质量差
唯一比对率低：提示重复序列问题或测序深度过高
dangling end比例高：可能酶切效率不理想

3. 互作矩阵解析：data文件夹的关键文件

data文件夹包含Hi-C分析的核心——互作矩阵，理解这些文件是下游分析的基础。

3.1 矩阵文件：*.matrix的奥秘

HiC-Pro生成的.matrix文件采用稀疏矩阵格式存储互作频率，前几行示例如下：

1 10000 1 15000 12 1 10000 1 20000 8 1 15000 1 20000 5 2 5000 2 10000 15

列含义解析：

染色体1编号
染色体1上的bin起始位置
染色体2编号
染色体2上的bin起始位置
互作频率计数

注意：矩阵文件通常需要转换为密集矩阵格式才能用于可视化

3.2 基因组坐标：*.bed文件的作用

与矩阵文件配套的.bed文件定义了基因组区域的划分方式：

chr1 0 10000 1_1 chr1 10000 20000 1_2 chr2 0 10000 2_1

关键应用：

将矩阵中的bin编号映射回实际基因组位置
自定义分析时确保坐标系统一致
与其它组学数据整合时的坐标参考

4. 可视化宝藏：pics文件夹的图表解读

pics文件夹包含多种质控图表，是评估数据质量的直观工具。

4.1 交互热图：*_heatmap.png

读图要点：

对角线附近信号强度反映数据质量
棋盘格模式可能提示技术偏差
全局模式反映基因组空间组织特征

4.2 距离衰减曲线：*_distance.png

生物学解读：

正常曲线应呈现平滑的幂律衰减
短距离区域异常可能提示交联问题
长距离平台期反映测序饱和度

5. 从结果到发现：下游分析实用指南

掌握了文件结构后，让我们探讨如何将这些结果转化为生物学发现。

5.1 矩阵文件转换为TAD分析输入

使用cooler工具转换矩阵格式的典型命令：

cooler load -f coo \ --assembly hg19 \ bins.bed \ matrix.matrix \ output.cool

参数说明：

-f coo：指定输入为坐标格式
bins.bed：基因组区域定义文件
matrix.matrix：HiC-Pro生成的矩阵文件
output.cool：输出格式

5.2 差异互作分析流程

基于HiC-Pro结果的差异分析典型工作流：

使用hicConvertFormat转换矩阵格式
用cooltools计算差异矩阵
通过HiCDCPlus进行统计学检验
可视化显著差异互作区域

5.3 多组学整合策略

将HiC-Pro结果与其它组学数据整合的三种常用方法：

与ChIP-seq数据共定位：使用bedtools将互作热点与蛋白结合位点关联
与RNA-seq联合分析：比较空间邻近基因与表达相关性
与GWAS数据整合：评估疾病相关SNP在三维基因组中的空间聚集

6. 常见问题排查与优化建议

在实际分析中，我们经常会遇到各种意外情况。以下是几个典型案例：

案例1：热图显示异常棋盘格模式
可能原因：酶切效率不均或PCR重复过高
解决方案：检查统计文件中的religation比例，考虑使用hicpro2juicer转换后应用ICE标准化

案例2：距离衰减曲线在短距离区域出现平台
可能原因：交联效率不足或片段化不完全
解决方案：检查实验protocol，特别是交联时间和酶切条件

案例3：有效互作数远低于预期
可能原因：比对率低或过滤过严
解决方案：检查比对统计，调整config文件中的过滤参数

在长期使用HiC-Pro分析不同项目数据的过程中，我发现最容易被忽视但极其重要的是stat文件夹中的细节信息。曾经有一个项目，初期热图看起来完全正常，但仔细检查比对统计时发现unique pairs比例异常低，最终发现是DNA降解问题。这提醒我们，不能只依赖可视化结果，必须全面审视所有统计指标。

HiC-Pro跑完数据后，你的结果文件都看懂了吗？从out文件夹讲起