news 2026/7/4 1:18:22

如何在没有经费的情况下做科研

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何在没有经费的情况下做科研

实验的家伙事

在做这个工作之前,笔者的主业是合成生物学与分子生物学,见我之前的博文《质粒拷贝数以及启动子活性的定量测量》。在研究过程中有一些发现,也积累了几个点子和想法。然而这些想法无一实现,主要问题是没有钱和资源来继续进行研究。分子生物学实验的开销还是比较大的,像美国的R01基金(很难申请)现在基本也只够养一个实验方向的博后。

在没有经费的情况下做研究,理论/计算方向是最好的选择,有一台电脑就可以了。我这篇工作最开始用的家伙事是我的老电脑,大概是在2019年左右配置的,有一张Geforce 1060的显卡,6G显存。这台电脑本来是个人娱乐用的,不过做一些小的神经网络是足够的。在课题开始的时候做神经网络的设计和调试,训练一次要一两个小时左右。后期由于计算量太大我转到了云平台(谷歌),云平台的A100显卡价格是3每小时,但如果租spotinstance的话最便宜到1每小时,这个价格还是个人可以承受的,至少比我的每小时工资低得多。Spot instance的唯一问题是随时可能被云平台关掉(这也是它为什么这么便宜),不过由于我一般开着服务器干活所以掉线了可以第一时间发现并重启。

这篇文章在revision的时候,我的装备又升级了,自费购入了一台新的组装台式机,装备Gefore 3090Ti显卡,24G显存。这条电脑的价格是2000左右,可以说在除显卡和cpu之外的配件都做到极致的节约。有十余年装机经验的我,第一时间竟然没有认出它主板的品牌。在网上搜索也才发现是来自alibaba的一个大约50-60的杂牌,真是难为它小马拉大车了。这个主板配置上写着最多支持32G内存,实际上我的电脑装了64G的杂牌内存,竟然也能正常工作。便宜的另外一个问题是电源太差了,我看也是$50左右的杂牌。在持续24h工作一个月左右的时候电源直接报销,又花钱换了一个海盗旗的电源。这台电脑也是我目前干活的主力。3090显卡在神经网络训练速度上其实没有比A100差太多,或者说比起价格的差距,性能的差距要小的多。

课题设计

由于装备的限制,肯定不能做大模型了,只能做中等尺度或者小尺度的神经网络模型。这种情况下课题需要斟酌一番。我做的题目是测序数据的标准化问题,也承接了我上一个课题,即合成生物学的标准化问题。具体的测序数据来自于核糖体印记技术(ribosome profiling),说的细节一点,该技术是对核糖体保护的mRNA片段进行深度测序,从理论上可以计算出核糖体在每个三联密码子处的停留时间,实现对所有基因翻译延伸速率的单密码子精度的测量。

之所以选择做ribosome profiling的数据,有三个理由:一是身边有人做过这个技术,合作者中的张静博士是这方面的专家,我从她处了解到很多实验上的流程和数据处理的基本知识。二是该技术理论上精度很高,是一种单密码子精度和全基因组测序的技术。这点跟传统的RNA-seq不一样,因为传统RNA-seq的测序片段太大了,ribosome profiling测的是保护片段,只有20-30nt长。三是该技术受实验流程影响很严重,实验细节微小的差别可以导致测量核糖体分布的很大不同。在真核领域有大量的文献探讨这一现象,比如翻译抑制剂的影响。原核领域我的合作者Allen有一篇很经典的文章,探讨原核领域实验流程的优化问题,并提出一种优化的实验手段。Allen的文章也是我工作的一个重要起点,因为他发现大家大量使用的来自Weissman实验室的针对原核生物的实验流程会导致特定的实验偏差。而我们提出的神经网络就是为了矫正这一偏差。

从神经网络设计上,我们设计的输入是mRNA序列和带有偏差的核糖体分布,输出的是矫正后的核糖体分布。这样的设计也可以帮助我们去做一些预测性质的工作,另外一个应用是探讨哪些序列影响了实验组和对照组之间核糖体分布的差别,这点在疾病过程中很重要。我们的出发点是生物过程是一个动态过程,DNA序列是静态的而单一的DNA序列应该对应很多种不同的核糖体分布。

总账

如果不算新老电脑的话,这篇文章的所有计算开销在$1000-2000左右,比起实验工作应该是小的多了,也是个人能负担的限度。最近我有一篇利用大语言模型进行基因组建模和设计的工作《A long-context language model for deciphering and generating bacteriophage genomes》,这篇工作的开销算上新电脑,就要达到$3000左右了。我认为仍然是比较划算的。因为最近有一篇跟我们很类似的工作,他们开发的模型叫做Evo,文章全名是《Sequence modeling and design from molecular to genome scale with Evo》,计算中调用了64台H100和128台A100,我保守估算他们的计算开销至少在20万美元以上。

最后还是要感谢我的合作者们,包括美国斯坦福大学闫嘉伟博士,波士顿大学张静博士,深圳先进技术研究院刘莉莉博士与陈业研究员,美国约翰霍普金斯大学Allen R. Buskirk 研究员。尤其要感谢陈业研究员与Allen R. Buskirk 研究员,没有他们的大力支持这篇文章不可能问世。



转载本文请联系原作者获取授权,同时请注明本文来自邵斌科学网博客。
链接地址:https://blog.sciencenet.cn/blog-927304-1425899.html

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/2 7:53:26

Docker入门

Docker是一款快速构建、运行、管理应用的工具自动搜索并下载应用镜像。镜像不仅包含应用本身,还包含应用运行所需要的环境,配置,系统函数库、Docker会在运行镜像时创建一个隔离环境,称为容器。镜像仓库:Docker Hub入门…

作者头像 李华
网站建设 2026/6/26 14:00:50

22、正则表达式:从基础到高级应用

正则表达式:从基础到高级应用 1. 正则表达式基础 正则表达式除了字面字符外,还包含元字符,用于指定更复杂的匹配规则。常见的元字符有: ^ $ . [ ] { } - ? * + ( ) | \ ,其他字符则被视为字面字符。不过,反斜杠字符在某些情况下用于创建元序列,也可让元字符被当作字…

作者头像 李华
网站建设 2026/7/1 16:09:59

取能模块:无源自取电创新解决方案

提及无源自取电,很多人会第一时间联想到智能手机的无线充电功能,原则上理解的没错,只是相较于无源自取电这种技术,二者本质上应用的领域有所区别。前者目前适用于中高压和低压输电线路上,以非接触式取能的核心优势&…

作者头像 李华
网站建设 2026/7/2 1:57:26

30、编写Shell脚本入门与项目实践

编写Shell脚本入门与项目实践 1. 编写第一个脚本 首先,我们来编写一个简单的“Hello World”脚本。在命令行中输入以下代码: [me@linuxbox ~]$ echo Hello World! # This is a comment too Hello World!这里的注释在命令行中作用不大,但在脚本里是很有用的。脚本的第一行…

作者头像 李华
网站建设 2026/7/3 15:00:31

启动进程,并返回新进程id(C++源码)

1、概述 启动进程,并返回新进程id,支持场景: 1、支持绝对路径: C:\Program Files\Google\Chrome\Application\chrome.exe 2、支持环境变量路径:%localappdata%\\Feishu\\Feishu.exe 1.1、调用示例 // 调用示例// 启动进程,并返回新进程id// 支持绝对路径: C:\Program Fil…

作者头像 李华
网站建设 2026/7/2 12:33:56

PDF压缩

winnzip项目pdf压缩部分/*** 压缩PDF文件* param inputFile 输入PDF文件路径* param outputFile 输出PDF文件路径* param compressionLevel 压缩等级: 0小尺寸, 1中等尺寸, 2大尺寸* param lossless 是否无损压缩* return 压缩是否成功*/使用Ghostscript命令行方式进行pdf压缩&…

作者头像 李华