sealos——高可用集群的部署实战与架构解析-平芜编程栈

1. 认识Sealos：你的Kubernetes集群部署利器

第一次接触Sealos时，我正被传统Kubernetes部署方式折磨得焦头烂额。这个用Go语言编写的工具给我的感觉就像发现了新大陆——它把复杂的集群部署过程简化到了令人发指的程度。Sealos最吸引我的是它"All in One"的设计理念，将镜像打包、集群初始化、证书管理这些繁琐工作全部自动化处理。

在实际生产环境中，我们最头疼的就是高可用集群的部署。传统方式需要手动配置keepalived、haproxy，还要处理etcd集群的初始化，一个环节出错就得推倒重来。而Sealos通过内置的lvscare组件，用不到10条命令就能搭建出生产级的高可用集群。我去年在金融行业的一个项目中，用Sealos在30分钟内完成了原本需要两天的工作量，客户当场就惊掉了下巴。

Sealos的另一个杀手锏是离线部署能力。很多企业环境出于安全考虑会限制外网访问，这时候它的离线包功能就派上大用场了。把所需镜像打包成一个tar文件，拷贝到内网环境直接就能用。记得有次在某军工企业部署，他们的网络隔离严格到连DNS都不通，全靠Sealos的离线模式才完成任务。

2. 实战：三Master一Worker集群部署全流程

2.1 环境准备与工具安装

先准备四台CentOS 7.9的虚拟机，配置建议：

Master节点：4核CPU/8GB内存/100GB磁盘
Worker节点：8核CPU/16GB内存/200GB磁盘

这里有个坑我踩过——主机名千万不要带下划线！曾经因为hostname里有下划线导致证书生成失败，排查了半天。建议用master1、master2这样的命名规范。

安装Sealos只需要一条命令：

VERSION=v5.0.1 curl -sfL https://raw.githubusercontent.com/labring/sealos/main/scripts/install.sh | sh -s ${VERSION} labring/sealos

验证安装是否成功：

sealos version

如果看到版本号输出，说明工具就绪。这里有个小技巧：在所有节点上都安装Sealos，方便后续维护。

2.2 集群配置文件生成

关键步骤来了，用这个命令生成Clusterfile：

sealos gen registry.cn-shanghai.aliyuncs.com/labring/kubernetes:v1.30.14 \ registry.cn-shanghai.aliyuncs.com/labring/helm:v3.8.2 \ registry.cn-shanghai.aliyuncs.com/labring/cilium:v1.13.4 \ --masters 192.168.5.10,192.168.5.20,192.168.5.30 \ --nodes 192.168.5.40 \ -p 'your_password' \ --output Clusterfile.yaml

参数说明：

--masters：指定所有Master节点IP，用逗号分隔
--nodes：指定Worker节点IP
-p：SSH登录密码（生产环境建议用密钥）
--output：生成的配置文件路径

生成的Clusterfile.yaml长这样：

apiVersion: apps.sealos.io/v1beta1 kind: Cluster metadata: name: default spec: image: - registry.cn-shanghai.aliyuncs.com/labring/kubernetes:v1.30.14 - registry.cn-shanghai.aliyuncs.com/labring/helm:v3.8.2 - registry.cn-shanghai.aliyuncs.com/labring/cilium:v1.13.4 hosts: - ips: [192.168.5.10,192.168.5.20,192.168.5.30] roles: [master] - ips: [192.168.5.40] roles: [node] ssh: passwd: "your_password"

2.3 集群初始化与验证

执行部署命令：

sealos apply -f Clusterfile.yaml

这个过程大概需要5-10分钟，取决于网络速度。部署完成后，检查节点状态：

kubectl get nodes

应该看到三个Master和一个Worker都是Ready状态。

验证高可用最关键的一步——查看lvscare配置：

kubectl -n kube-system get pod -l app=lvscare cat /etc/kubernetes/manifests/kube-sealos-lvscare.yaml

这个配置确保了apiserver的VIP（10.103.97.2:6443）会自动在健康的Master节点间切换。

3. 高可用架构深度解析

3.1 控制面组件的高可用实现

Sealos的高可用架构设计得非常巧妙。以apiserver为例，它采用了多实例+本地负载均衡的方案。lvscare组件会持续检查各Master节点的健康状态，自动剔除故障节点。我做过实测，当主动关闭一个Master节点时，请求切换时间在3秒以内。

etcd集群的部署也很有讲究。Sealos会自动配置Raft共识算法，确保数据一致性。通过这个命令可以查看etcd成员状态：

kubectl -n kube-system exec etcd-master1 -- etcdctl member list

controller-manager和scheduler则采用Leader选举机制。查看当前Leader的命令：

kubectl get endpoints kube-controller-manager -n kube-system -o jsonpath='{.metadata.annotations.control-plane\.alpha\.kubernetes\.io/leader}'

3.2 数据面高可用保障

Worker节点的高可用往往容易被忽视。Sealos通过kubelet的自动注册和负载均衡确保工作负载的持续运行。当某个Worker故障时，Pod会自动迁移到其他节点。

我建议配置HPA和Cluster Autoscaler来增强弹性：

apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: myapp-hpa spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: myapp minReplicas: 2 maxReplicas: 10 metrics: - type: Resource resource: name: cpu target: type: Utilization averageUtilization: 50

4. 生产环境运维实战技巧

4.1 证书管理与续期

Sealos默认将证书有效期设为99年，解决了传统K8s集群每年续期的痛点。查看证书有效期：

kubeadm certs check-expiration

如果需要替换CA证书（虽然99年内基本不用），可以用这个流程：

sealos certs renew all kubectl delete pods --all -n kube-system

4.2 节点扩缩容操作

添加Worker节点：

sealos add --nodes 192.168.5.41,192.168.5.42

删除故障Master节点（先排空）：

kubectl drain master3 --ignore-daemonsets sealos delete --masters 192.168.5.30

4.3 故障排查指南

常见问题1：节点Not Ready

检查网络连通性
查看kubelet日志：journalctl -u kubelet -f

常见问题2：apiserver无法访问

验证lvscare状态：kubectl logs -n kube-system kube-sealos-lvscare-worker
检查防火墙规则

我在某次生产故障中发现，当所有Master节点同时重启时，etcd可能出现脑裂。解决方案是：

# 在健康节点上执行 etcdctl --endpoints=https://127.0.0.1:2379 \ --cacert=/etc/kubernetes/pki/etcd/ca.crt \ --cert=/etc/kubernetes/pki/etcd/server.crt \ --key=/etc/kubernetes/pki/etcd/server.key \ member remove <故障节点ID>

5. 架构优化与性能调优

5.1 网络插件选型建议

Sealos支持多种CNI插件，我的实测对比：

插件类型	吞吐量	延迟	资源消耗	适用场景
Cilium	最高	最低	中等	高性能要求
Calico	高	低	低	通用场景
Flannel	中等	中等	最低	测试环境

建议生产环境使用Cilium：

sealos run registry.cn-shanghai.aliyuncs.com/labring/cilium:v1.13.4

5.2 内核参数优化

创建/etc/sysctl.d/k8s.conf文件：

net.ipv4.ip_forward = 1 net.bridge.bridge-nf-call-iptables = 1 fs.file-max = 655350 net.core.somaxconn = 32768 net.ipv4.tcp_tw_reuse = 1

执行sysctl -p生效。

5.3 监控方案集成

推荐使用Sealos的监控套件：

sealos run registry.cn-shanghai.aliyuncs.com/labring/prometheus:v2.37.0 sealos run registry.cn-shanghai.aliyuncs.com/labring/grafana:v9.0.2

配置自定义Dashboard时，记得监控这些关键指标：

apiserver请求延迟
etcd写入耗时
节点CPU/内存饱和度
网络丢包率

sealos——高可用集群的部署实战与架构解析