微软旗下代码托管平台GitHub近日发布了一篇措辞诚恳的公开致歉声明,承认平台在可用性和稳定性方面存在严重问题,并明确写下了"我们深感抱歉"。
长期以来,开发者们频繁遭遇服务中断。就在此次道歉发布前几天,Hashicorp联合创始人Mitchell Hashimoto公开宣称GitHub"已不再是严肃开发工作的合适场所",并宣布将其终端模拟器项目Ghostty迁移至其他平台。
GitHub在声明中列举了近期发生的几起重大故障。4月23日,Merge Queue功能出现漏洞,导致包含多个Pull Request的合并组生成了错误的提交记录。GitHub指出:"在受影响的情况下,此前已合并的Pull Request和提交中的变更,被后续的合并操作意外回滚。"
4月27日,GitHub的Elasticsearch集群因"过载(疑似遭受僵尸网络攻击)"而崩溃,导致依赖搜索功能的多处用户界面无法正常显示结果。目前,GitHub仍在对此事件进行根本原因分析。
这些问题并非首次出现。今年2月,外媒就已报道GitHub在可用性方面面临挑战。根据重建的状态页面数据,该服务在2025年的可用率已跌破90%,且整体趋势持续下滑——4月份的可用率更是已低于85%。
对于问题根源,GitHub将矛头指向了智能体开发工作流的爆发式增长:"主要驱动因素是软件构建方式的快速变革。自2025年12月下半月以来,智能体开发工作流的使用量急剧攀升。"
在反思问题的同时,GitHub也坦承了自身在容量规划上的失误。公司原计划将容量扩充10倍,并于2025年10月启动了相关工作。然而到今年2月,实际需求已明显表明,所需容量是原计划的30倍。GitHub随后紧急启动了应对措施。
"我们的优先级非常明确:首先保障可用性,其次扩充容量,最后才是推出新功能。我们正在减少不必要的系统负载、优化缓存机制、隔离关键服务、消除单点故障,并将对性能敏感的路径迁移至专为此类工作负载设计的系统中。"
对于外界关于迁移至Azure是否是罪魁祸首的质疑,GitHub予以否认,表示此次迁移实际上起到了积极作用,使其能够"快速部署更多计算资源"。
Hashimoto在其个人网站上也发文表达了不满:"过去一个月,我坚持写日记,每当GitHub故障影响到我的工作,就在当天日期旁画一个'X'。几乎每天都有'X'。就在我写这篇文章的今天,由于GitHub Actions出现故障,我已经有将近两个小时无法进行任何Pull Request审查。"
此次道歉声明由GitHub首席技术官Vlad Fedorov撰写,他在结尾写道:"我们听到了你们正在经历的痛苦。我们阅读了每一封邮件、每一条社交媒体帖子和每一张支持工单,并将这一切都铭记于心。"
"我们深感抱歉。"
然而,要将开发者的信心恢复到危机前的水平——那时GitHub是存放代码、协作开发的首选之地——仅凭一纸道歉显然远远不够。
Q&A
Q1:GitHub近期发生了哪些具体的服务故障?
A:GitHub近期发生了两起主要故障。4月23日,Merge Queue漏洞导致包含多个Pull Request的合并组生成错误提交,此前已合并的变更被意外回滚。4月27日,Elasticsearch集群疑因僵尸网络攻击而过载,导致依赖搜索的界面无法显示结果。目前GitHub仍在对后者进行根本原因分析。
Q2:GitHub可用率下降的主要原因是什么?
A:GitHub将主要原因归结为智能体开发工作流的爆发式增长。自2025年12月下半月以来,这类工作流的使用量急剧攀升,导致实际所需容量远超预期。GitHub原计划扩充10倍容量,但到2025年2月发现实际需要扩充30倍,容量规划严重滞后于需求增长。
Q3:GitHub打算如何解决可用性问题?
A:GitHub表示已明确优先级顺序:首先保障可用性,其次扩充容量,最后推出新功能。具体措施包括减少不必要的系统负载、优化缓存、隔离关键服务、消除单点故障,以及将性能敏感路径迁移至专用系统。此外,向Azure的迁移也在帮助平台快速部署更多计算资源。