news 2026/7/4 4:43:07

Foldseek本地部署 骨灰级教程-- cpu 模式参考

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Foldseek本地部署 骨灰级教程-- cpu 模式参考

---------------------------------------------------------------------------------------------
各位有合作需求的看官,点击 博主头像,微信添加好友,按名字搜索即可;
---------------------------------------------------------------------------------------------

---------------------------------------------------------------------------------------------
######### 教程自此开始########
---------------------------------------------------------------------------------------------
必要前提:

可能用到的两个大模型文件 ---- 可以手动处理,以免深加工过程给你卡死:
afdb50.tar.gz
uniref50.fasta.gz
---------------------------------------------------------------------------------------------

时间有限,就不整那些 bash 格式有的没的了;直接贴出来全程:
测试机:20年左右中等商务台式机,内存升级到48 GB;系统盘 500GB SSD,数据盘 2TB 高速机械盘,2TB M2口 盘;

---------------------------------------------------------------------------------------------
# 这里先添加一个前置:二选一即可
1)开启wsl功能,重启,进入wsl;
2)import一个纯净版的Ubuntu镜像,这里用的是22.04版的;
---------------------------------------------------------------------------------------------
1 进入wsl pure 终端
wsl -d pure
---------------------------------------------------------------------------------------------
2 更新系统包;
sudo apt update && sudo apt upgrade -y
---------------------------------------------------------------------------------------------
3 安装必要工具 (wget 用于下载,tar 用于解压,grep 用于检查 CPU):
sudo apt install wget tar grep -y
---------------------------------------------------------------------------------------------
4 检查 CPU 是否支持 AVX2(你的机器应该支持,如果没有,输出为空,则需用 ARM64 版,但 Intel 机通常有):
cat /proc/cpuinfo | grep avx2
# 如果看到 "avx2",继续;否则,联系 grok 继续调整
---------------------------------------------------------------------------------------------

---------------------------------------------------------------------------------------------
步骤1 -- 下载并安装foldseek二进制(推荐方式,无需编译)
---------------------------------------------------------------------------------------------
1 创建安装目录 (建议放用户主目录下,便于管理;或放 2TB SSD 挂载点,如果你已 mount):
mkdir -p ~/foldseek && cd ~/foldseek
---------------------------------------------------------------------------------------------
2 下载 Linux AVX2 二进制(从官方 mmseqs.com 镜像
wget https://mmseqs.com/foldseek/foldseek-linux-avx2.tar.gz
---------------------------------------------------------------------------------------------
3 解压
tar xvzf foldseek-linux-avx2.tar.gz
---------------------------------------------------------------------------------------------
4 添加到PATH(临时生效方案)
export PATH=$(pwd)/foldseek/bin/:$PATH
推荐:下面是永久添加 PATH 到 ~/.bashrc 的手动步骤:
1) 运行编辑 .bashrc 指令
nano ~/.bashrc
2) 在文件最下面添加这一行:
export PATH=$HOME/foldseek/foldseek/bin/:$PATH
3) 保存退出(Ctrl+O → Enter → Ctrl+X)
source ~/.bashrc
# 刷新使之生效;
foldseek --help
---------------------------------------------------------------------------------------------


---------------------------------------------------------------------------------------------
# ------------------ 可选:用 Miniconda 安装 Foldseek(如果不喜欢二进制版)
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
# 下载
bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda
# 安装
export PATH=$HOME/miniconda/bin:$PATH
# 将$HOME/miniconda/bin插入到PATH的最前面,这样系统会优先在该目录下查找命令,从而确保可以找到并运行conda等工具
source ~/.bashrc
# 刷新使之立即生效
conda install -c conda-forge -c bioconda foldseek
# 此后,再通过conda,从bioconda通道安装foldseek

1. 创建数据目录
# ------------------ 数据库下载(建议放在 /mnt/h 大盘) ------------------
mkdir -p ~/foldseek/databases && cd ~/foldseek/databases
# 这条指令——不执行,它会放到 home下面——我们是要放到H:\foldseek/databases下面;
mkdir -p /mnt/h/foldseek/databases && cd /mnt/h/foldseek/databases
# 用这条指令;
---------------------------------------------------------------------------------------------
2. 下载常用数据库(用 foldseek databases 命令,它会自动下载并解压)
1)小型测试库(PDB),全是PDB,几个GB大小,适合入门
mkdir tmp && foldseek databases PDB pdb tmp
2)中型:AlphaFold Swiss-Prot (10 Million ? 结构,几十 GB)
foldseek databases Alphafold/Swiss-Prot afdb_swissprot tmp
3)大型:AlphaFold Proteome (全蛋白组,几百 GB;SSD是够用,但48 GB RAM,需要优化——才有可能使用)
foldseek databases Alphafold/Proteome afdb_proteome tmp
4)超大:AlphaFold UniProt50(聚类版,54 Million 结构,几百 GB;
-- 优化了运行参数,推荐用地参数跑,不影响结果准确性 -- sort-by-structure-bits 0)

foldseek databases Alphafold/UniProt50 afdb50 tmp
# 这条指令应该是通过foldseek来下载这两个序列库??
5)ProstT5 模型(序列搜索必备,必须要下的)
foldseek databases ProstT5 prostt5_weights tmp
3. tmp 目录是临时文件夹,可删后重用。下载时间取决于网速(可能需要vpn支持)。
---------------------------------------------------------------------------------------------
内存提示:对大库如 afdb50(默认需 ~151GB RAM),你的 48GB 不够。用 --sort-by-structure-bits 0 降到 ~35GB(结果 E-value 不变,但排序略变)。或用 --prefilter-mode 1 流式搜索。
---------------------------------------------------------------------------------------------


---------------------------------------------------------------------------------------------
步骤3 基础指令(M610台式机能运行//跑得动的示例)
# ------------------ 常用搜索 / 聚类 示例 ------------------
---------------------------------------------------------------------------------------------
1. 结构搜索(用PDB, mmcif 文件查询数据库) -- 也是最基本的应用,用一个结构文件查库,示例:搜PDB库,输出aln.tsv:
foldseek easy-search query.pdb pdb/ aln.tsv tmp/ --prefilter-mode 1 --sort-by-structure-bits 0
# --prefilter-mode 1:内存低,适合单查询。
# 输出格式加 --format-mode 3:生成交互 HTML(在浏览器看 3D 比对)。
# 对大库如 afdb50:加 --sort-by-structure-bits 0 省内存。
# 时间:几秒到分钟,你的 CPU 够。

---------------------------------------------------------------------------------------------
2. 序列搜索(直接用 FASTA 序列搜结构空间,无需预测结构)
最实用升级功能,用ProtT5。-- 示例,序列搜AFDB Swiss-Prot:
foldseek easy-search query.fasta afdb_swissprot/ aln.tsv tmp/ --prostt5-model prostt5_weights/ --prefilter-mode 1 --sort-by-structure-bits 0
# 下下载ProsT5模型(如上面)
# 超快:M610应该是 每个序列查询在几秒内完成;输出TM-score等;

---------------------------------------------------------------------------------------------
3. 结构聚类(对多个结构分组) --- 示例,聚类目录下所有PDB文件,覆盖率 0.9:
foldseek easy-cluster structures/ cluster_res/ tmp/ -c 0.9 --prefilter-mode 1
# 适合几千条(序列的)结构;大规模的分批跑

---------------------------------------------------------------------------------------------
4. 蛋白复合物搜索/聚类(Multimer)-- 示例,搜复合物数据库:
foldseek easy-multimersearch complexes/ afdb_proteome/ multimer_res/ tmp/ --prefilter-mode 1 --sort-by-structure-bits 0
或,聚类:
foldseek easy-multimercluster complexes/ multimer_clu/ tmp/ --multimer-tm-threshold 0.65
# M610 适合小中型复合物;

---------------------------------------------------------------------------------------------
5. 自定义数据库创建,如果有自己的FASTA/PDB

示例
1)用自由序列组/PDB (组合??)
foldseek createdb my_sequences.fasta my_db --prostt5-model prostt5_weights/
foldseek createindex my_db tmp/
2)从PDB
foldseek createdb my_structures/ my_db
foldseek createindex my_db tmp/---------------------------------------------------------------------------------------------
通用提示:
# tmp/ 是临时目录,跑完可删。
# 多线程:默认用所有核心,你的 CPU ~4-8 核,够用。加 --threads 8 控制。
# 输出:aln.tsv 是 TSV 结果;加 --format-mode 5 输出叠加 PDB。
# 测试:用 GitHub 示例文件(下载 example/ 目录从 repo)。
# 问题排查:如果 OOM,加更多内存优化;日志看 stderr。
# GPU:你的机器无,用纯 CPU 没问题(速度稍慢,但稳定)。
---------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------

######### 教程到此结束########

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/29 7:13:24

用恋爱脑解释AI:原来算法追人和你追crush一模一样!

当你的心跳加速时,AI的神经网络也在“怦然心动” 开篇:那个让你失眠的crush 上周,朋友小李凌晨三点给我发消息:“她给我朋友圈点赞了!但没回我微信…AI能分析出她到底喜不喜欢我吗?” 我看着他发来的密密麻…

作者头像 李华
网站建设 2026/7/1 12:18:43

Scaling Laws for Neural Language Models

第001/30页(英文原文) Scaling Laws for Neural Language Models Jared Kaplan ∗ Johns Hopkins University, OpenAI Abstract We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model…

作者头像 李华
网站建设 2026/7/2 2:29:08

基于springboot的博客管理系统设计实现

技术背景 SpringBoot作为Java生态中主流的快速开发框架,其自动化配置、内嵌服务器和约定优于配置的特性显著简化了传统Spring应用的搭建流程。博客管理系统作为内容创作与分享的典型应用场景,采用SpringBoot可快速实现模块化开发,集成数据库…

作者头像 李华
网站建设 2026/7/1 4:24:34

AI写论文新选择!4款AI论文生成利器,高效完成各类学术论文!

撰写期刊论文、毕业论文或职称论文的过程中,许多学者常常面临各种挑战。人工写作时,需要在海量文献中寻找相关资料,真可谓是大海捞针;而繁琐的格式要求则让人倍感压力,常常忙得不可开交。内容反复修改的过程更是磨光了…

作者头像 李华
网站建设 2026/7/2 2:28:38

AI写论文实用指南!这4款AI论文写作工具,让论文写作更简单!

引言 在 2025 年,学术写作正在经历一场智能化的革命,越来越多的人开始借助 AI 论文写作工具来进行论文创作。当谈到硕士和博士论文等较为复杂的长篇论文时,许多工具却面临着理论深度不足和逻辑结构松散的问题。普通的 AI 写论文工具往往无法…

作者头像 李华