news 2026/4/21 13:35:41

阿里PAI平台使用ESA部署模型滚动更新

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
阿里PAI平台使用ESA部署模型滚动更新

阿里PAI平台使用ESA部署模型滚动更新

场景:

阿里PAI平台使用ESA部署模型,vllm部署双卡,双实例

EAS滚动更新配置:

超过期望实例数:{”rolling_strategy.max_surge“:1}

  • 超过期望的实例数(JSON参数:rolling_strategy.max_surge

    • 描述:更新时最多可额外创建的实例数,支持正整数或百分比。值越大,更新越快。
    • 例如:100个实例,配置为20,则更新开始即创建20个新实例。
    • **默认值:**实例总数的2%(不足1时取1)。

    重要

    超过期望的实例数过大时,大量新实例上线后会立即替换等量旧实例,若新实例未预热,突增流量可能冲击服务稳定性。

最大不可用实例数: {“rolling_strategy.max_unavailable”:0}

  • 最大不可用实例数(JSON参数:rolling_strategy.max_unavailable

    • **描述:**更新过程中允许的最大不可用实例数,用于释放资源,防止因资源不足导致更新过程被阻碍。
    • 例如:设为N,更新开始时立即停止N个旧实例。
    • 默认值:
      • 专属资源组:2025年9月1日前创建的服务,默认为1。2025年9月1日后创建的服务,弹性资源池开启默认为0,未开启默认为1。
      • 公共资源组:0。
      • 灵骏智算Quota:2025年9月1日前创建的服务,默认为0。2025年9月1日后创建的服务,默认为实例数的2%(不足1时取1)。

    重要

    • 单实例服务若将最大不可用实例数设为1,滚动更新时旧实例会在新实例启动前退出,期间服务无可用实例,将短暂不可用。
    • 最大不可用实例数过大可能导致过多实例同时下线,剩余实例不足以承载流量,影响服务可用性。

EAS优雅退出配置:

优雅退出时间:{“eas.termination_grace_period”:60}

优雅退出时间(JSON参数:eas.termination_grace_period

  • **描述:**实例优雅退出等待时间,单位秒。实例进入Terminating状态后,流量被摘除,系统等待30秒让其处理完已接收请求后再下线。若请求处理时间较长,建议调大该值。
  • **默认值:**30

是否发送SIGTERM:{“rpc.enable_sigterm”: false}

是否发送SIGTERM(JSON参数:rpc.enable_sigterm

  • **描述:**SIGTERM是终止进程的信号。JSON参数取值true、false。
    • false:实例退出时不会发送SIGTERM信号。
    • true:实例退出时,系统立即发送SIGTERM信号,服务主进程需在信号处理函数中实现自定义优雅退出逻辑,否则可能直接终止,导致优雅退出失败。
  • **默认值:**不发送(false)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/21 4:50:09

为什么越来越多开发者选择LobeChat作为AI聊天界面?

为什么越来越多开发者选择 LobeChat 作为 AI 聊天界面? 在今天,大语言模型已经不再是实验室里的稀有物种。从 GPT 到 Llama,再到各类本地化部署的开源模型,AI 的“大脑”正变得触手可及。但一个现实问题随之而来:如何让…

作者头像 李华
网站建设 2026/4/19 12:11:32

Fiddler抓包手机和部分app无法连接网络问题

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快最近公司在做app项目,测试环境app包没有调试模式,导致测试过程中无法查看请求接口和请求的参数,故需要通过抓包工具抓包fiddler安…

作者头像 李华
网站建设 2026/4/20 12:30:41

18、JavaScript全面解析:从基础到应用

JavaScript全面解析:从基础到应用 1. JavaScript语言概述 编程语⾔可分为编译型和解释型。Java是编译型语⾔,使⽤前需编译,若⽤户没有所需的Java编译器则⽆法使⽤。⽽JavaScript是由浏览器解释执⾏的语⾔,在很多⽅⾯与Java相似,但允许⽤户将类似Java的代码嵌⼊HTML⻚⾯。…

作者头像 李华
网站建设 2026/4/18 3:58:11

IPv6过渡技术:从双栈到自动隧道

引言随着IPv4地址资源的枯竭,IPv6的大规模部署已成必然趋势。然而,现实世界的复杂性决定了从IPv4到IPv6的过渡不可能一蹴而就。在这条演进之路上,各种过渡技术应运而生,它们像桥梁一样连接着新旧两个协议世界。本文将深入探讨IPv6…

作者头像 李华
网站建设 2026/4/18 1:11:02

伦敦银站上历史高位,投资者的应对之道是什么?

历史是被用来打破的,当伦敦银价格强势站上历史高位,冲破了尘封多年的阻力线,一个新的时代或许正在开启。对于身处其中的投资者来说,这既是机遇的蓝海,也是未知的深渊。面对从未涉足的价格区域,传统的经验或…

作者头像 李华
网站建设 2026/4/16 17:30:03

vLLM镜像深度优化:支持GPTQ与AWQ量化,降低部署成本50%

vLLM镜像深度优化:支持GPTQ与AWQ量化,降低部署成本50% 在当前大模型应用爆发的背景下,企业面临的核心挑战不再是“有没有模型”,而是“能不能高效用好模型”。一个参数量达70亿甚至更大的语言模型,若以传统方式部署&am…

作者头像 李华