在 Kubernetes 容器集群，微服务项目最佳实践

2023年5月31日上午1:07 • 技术杂谈 • 阅读 92

本文主要介绍我个人在使用 Kubernetes 的过程中，总结出的一套「Kubernetes 配置」，是我个人的「最佳实践」。其中大部分内容都经历过线上环境的考验，但是也有少部分还只在我脑子里模拟过，请谨慎参考。

阅读前的几个注意事项：

这份文档比较长，囊括了很多内容，建议当成参考手册使用，先参照目录简单读一读，有需要再细读相关内容。

这份文档需要一定的 Kubernetes 基础才能理解，而且如果没有过实践经验的话，看上去可能会比较枯燥。而有过实践经验的大佬，可能会跟我有不同的见解，欢迎各路大佬评论

首先，这里给出一些本文遵守的前提，这些前提只是契合我遇到的场景，可灵活变通：

这里只讨论无状态服务，有状态服务不在讨论范围内
我们不使用 Deployment 的滚动更新能力，而是为每个服务的每个版本，都创建不同的 Deployment + HPA + PodDisruptionBudget，这是为了方便做金丝雀/灰度发布
我们的服务可能会使用 IngressController / Service Mesh 来进行服务的负载均衡、流量切分

下面先给出一个 Deployment + HPA + PodDisruptionBudget 的 demo，后面再拆开详细说下：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: my-app-v3
  namespace: prod  # &#x5EFA;&#x8BAE;&#x6309;&#x4E1A;&#x52A1;&#x903B;&#x8F91;&#x5212;&#x5206;&#x540D;&#x5B57;&#x7A7A;&#x95F4;&#xFF0C;prod &#x4EC5;&#x4E3A;&#x793A;&#x4F8B;
  labels:
    app: my-app
spec:
  replicas: 3
  strategy:
    type: RollingUpdate
    # &#x56E0;&#x4E3A;&#x670D;&#x52A1;&#x7684;&#x6BCF;&#x4E2A;&#x7248;&#x672C;&#x90FD;&#x4F7F;&#x7528;&#x5404;&#x81EA;&#x7684; Deployment&#xFF0C;&#x670D;&#x52A1;&#x66F4;&#x65B0;&#x65F6;&#x5176;&#x5B9E;&#x662F;&#x7528;&#x4E0D;&#x4E0A;&#x8FD9;&#x91CC;&#x7684;&#x6EDA;&#x52A8;&#x66F4;&#x65B0;&#x7B56;&#x7565;&#x7684;
    # &#x8FD9;&#x4E2A;&#x914D;&#x7F6E;&#x5E94;&#x8BE5;&#x53EA;&#x5728; SRE &#x624B;&#x52A8;&#x4FEE;&#x6539; Deployment &#x914D;&#x7F6E;&#x65F6;&#x624D;&#x4F1A;&#x751F;&#x6548;&#xFF08;&#x901A;&#x5E38;&#x4E0D;&#x5E94;&#x8BE5;&#x53D1;&#x751F;&#x8FD9;&#x79CD;&#x4E8B;&#xFF09;
    rollingUpdate:
      maxSurge: 10%  # &#x6EDA;&#x52A8;&#x66F4;&#x65B0;&#x65F6;&#xFF0C;&#x6BCF;&#x6B21;&#x6700;&#x591A;&#x66F4;&#x65B0; 10% &#x7684; Pods
      maxUnavailable: 0  # &#x6EDA;&#x52A8;&#x66F4;&#x65B0;&#x65F6;&#xFF0C;&#x4E0D;&#x5141;&#x8BB8;&#x51FA;&#x73B0;&#x4E0D;&#x53EF;&#x7528;&#x7684; Pods&#xFF0C;&#x4E5F;&#x5C31;&#x662F;&#x8BF4;&#x59CB;&#x7EC8;&#x8981;&#x7EF4;&#x6301; 3 &#x4E2A;&#x53EF;&#x7528;&#x526F;&#x672C;
  selector:
    matchLabels:
      app: my-app
      version: v3
  template:
    metadata:
      labels:
        app: my-app
        version: v3
    spec:
      affinity:
        # &#x6CE8;&#x610F;&#xFF0C;podAffinity/podAntiAffinity &#x53EF;&#x80FD;&#x4E0D;&#x662F;&#x6700;&#x4F73;&#x65B9;&#x6848;&#xFF0C;&#x8FD9;&#x90E8;&#x5206;&#x914D;&#x7F6E;&#x5F85;&#x66F4;&#x65B0;
        # topologySpreadConstraints &#x53EF;&#x80FD;&#x662F;&#x66F4;&#x597D;&#x7684;&#x9009;&#x62E9;
        podAffinity:
          preferredDuringSchedulingIgnoredDuringExecution: # &#x975E;&#x5F3A;&#x5236;&#x6027;&#x6761;&#x4EF6;
          - weight: 100  # weight &#x7528;&#x4E8E;&#x4E3A;&#x8282;&#x70B9;&#x8BC4;&#x5206;&#xFF0C;&#x4F1A;&#x4F18;&#x5148;&#x9009;&#x62E9;&#x8BC4;&#x5206;&#x6700;&#x9AD8;&#x7684;&#x8282;&#x70B9;&#xFF08;&#x53EA;&#x6709;&#x4E00;&#x6761;&#x89C4;&#x5219;&#x7684;&#x60C5;&#x51B5;&#x4E0B;&#xFF0C;&#x8FD9;&#x4E2A;&#x503C;&#x6CA1;&#x5565;&#x610F;&#x4E49;&#xFF09;
            podAffinityTerm:
              labelSelector:
                matchExpressions:
                - key: app
                  operator: In
                  values:
                  - my-app
                - key: version
                  operator: In
                  values:
                  - v3
              # pod &#x5C3D;&#x91CF;&#x4F7F;&#x7528;&#x540C;&#x4E00;&#x79CD;&#x8282;&#x70B9;&#x7C7B;&#x578B;&#xFF0C;&#x4E5F;&#x5C31;&#x662F;&#x5C3D;&#x91CF;&#x4FDD;&#x8BC1;&#x8282;&#x70B9;&#x7684;&#x6027;&#x80FD;&#x4E00;&#x81F4;
              topologyKey: node.kubernetes.io/instance-type
        podAntiAffinity:
          preferredDuringSchedulingIgnoredDuringExecution: # &#x975E;&#x5F3A;&#x5236;&#x6027;&#x6761;&#x4EF6;
          - weight: 100  # weight &#x7528;&#x4E8E;&#x4E3A;&#x8282;&#x70B9;&#x8BC4;&#x5206;&#xFF0C;&#x4F1A;&#x4F18;&#x5148;&#x9009;&#x62E9;&#x8BC4;&#x5206;&#x6700;&#x9AD8;&#x7684;&#x8282;&#x70B9;&#xFF08;&#x53EA;&#x6709;&#x4E00;&#x6761;&#x89C4;&#x5219;&#x7684;&#x60C5;&#x51B5;&#x4E0B;&#xFF0C;&#x8FD9;&#x4E2A;&#x503C;&#x6CA1;&#x5565;&#x610F;&#x4E49;&#xFF09;
            podAffinityTerm:
              labelSelector:
                matchExpressions:
                - key: app
                  operator: In
                  values:
                  - my-app
                - key: version
                  operator: In
                  values:
                  - v3
              # &#x5C06; pod &#x5C3D;&#x91CF;&#x6253;&#x6563;&#x5728;&#x591A;&#x4E2A;&#x53EF;&#x7528;&#x533A;
              topologyKey: topology.kubernetes.io/zone
          requiredDuringSchedulingIgnoredDuringExecution:  # &#x5F3A;&#x5236;&#x6027;&#x8981;&#x6C42;&#xFF08;&#x8FD9;&#x4E2A;&#x5EFA;&#x8BAE;&#x6309;&#x9700;&#x6DFB;&#x52A0;&#xFF09;
          # &#x6CE8;&#x610F;&#x8FD9;&#x4E2A;&#x6CA1;&#x6709; weights&#xFF0C;&#x5FC5;&#x987B;&#x6EE1;&#x8DB3;&#x5217;&#x8868;&#x4E2D;&#x7684;&#x6240;&#x6709;&#x6761;&#x4EF6;
          - labelSelector:
              matchExpressions:
              - key: app
                operator: In
                values:
                - my-app
              - key: version
                operator: In
                values:
                - v3
            # Pod &#x5FC5;&#x987B;&#x8FD0;&#x884C;&#x5728;&#x4E0D;&#x540C;&#x7684;&#x8282;&#x70B9;&#x4E0A;
            topologyKey: kubernetes.io/hostname
      securityContext:
        # runAsUser: 1000  # &#x8BBE;&#x5B9A;&#x7528;&#x6237;
        # runAsGroup: 1000  # &#x8BBE;&#x5B9A;&#x7528;&#x6237;&#x7EC4;
        runAsNonRoot: true  # Pod &#x5FC5;&#x987B;&#x4EE5;&#x975E; root &#x7528;&#x6237;&#x8FD0;&#x884C;
        seccompProfile:  # security compute mode
          type: RuntimeDefault
      nodeSelector:
        nodegroup: common  # &#x4F7F;&#x7528;&#x4E13;&#x7528;&#x8282;&#x70B9;&#x7EC4;&#xFF0C;&#x5982;&#x679C;&#x5E0C;&#x671B;&#x4F7F;&#x7528;&#x591A;&#x4E2A;&#x8282;&#x70B9;&#x7EC4;&#xFF0C;&#x53EF;&#x6539;&#x7528;&#x8282;&#x70B9;&#x4EB2;&#x548C;&#x6027;
      volumes:
      - name: tmp-dir
        emptyDir: {}
      containers:
      - name: my-app-v3
        image: my-app:v3  # &#x5EFA;&#x8BAE;&#x4F7F;&#x7528;&#x79C1;&#x6709;&#x955C;&#x50CF;&#x4ED3;&#x5E93;&#xFF0C;&#x89C4;&#x907F; docker.io &#x7684;&#x955C;&#x50CF;&#x62C9;&#x53D6;&#x9650;&#x5236;
        imagePullPolicy: IfNotPresent
        volumeMounts:
        - mountPath: /tmp
          name: tmp-dir
        lifecycle:
          preStop:  # &#x5728;&#x5BB9;&#x5668;&#x88AB; kill &#x4E4B;&#x524D;&#x6267;&#x884C;
            exec:
              command:
              - /bin/sh
              - -c
              - "while [ $(netstat -plunt | grep tcp | wc -l | xargs) -ne 0 ]; do sleep 1; done"
        resources:  # &#x8D44;&#x6E90;&#x8BF7;&#x6C42;&#x4E0E;&#x9650;&#x5236;
          # &#x5BF9;&#x4E8E;&#x6838;&#x5FC3;&#x670D;&#x52A1;&#xFF0C;&#x5EFA;&#x8BAE;&#x8BBE;&#x7F6E; requests = limits&#xFF0C;&#x907F;&#x514D;&#x8D44;&#x6E90;&#x7ADE;&#x4E89;
          requests:
            # HPA &#x4F1A;&#x4F7F;&#x7528; requests &#x8BA1;&#x7B97;&#x8D44;&#x6E90;&#x5229;&#x7528;&#x7387;
            # &#x5EFA;&#x8BAE;&#x5C06; requests &#x8BBE;&#x4E3A;&#x670D;&#x52A1;&#x6B63;&#x5E38;&#x72B6;&#x6001;&#x4E0B;&#x7684; CPU &#x4F7F;&#x7528;&#x7387;&#xFF0C;HPA &#x7684;&#x76EE;&#x524D;&#x6307;&#x6807;&#x8BBE;&#x4E3A; 80%
            # &#x6240;&#x6709;&#x5BB9;&#x5668;&#x7684; requests &#x603B;&#x91CF;&#x4E0D;&#x5EFA;&#x8BAE;&#x4E3A; 2c/4G 4c/8G &#x7B49;&#x5E38;&#x89C1;&#x503C;&#xFF0C;&#x56E0;&#x4E3A;&#x8282;&#x70B9;&#x901A;&#x5E38;&#x4E5F;&#x662F;&#x8FD9;&#x4E2A;&#x914D;&#x7F6E;&#xFF0C;&#x8FD9;&#x4F1A;&#x5BFC;&#x81F4; Pod &#x53EA;&#x80FD;&#x8C03;&#x5EA6;&#x5230;&#x66F4;&#x5927;&#x7684;&#x8282;&#x70B9;&#x4E0A;&#xFF0C;&#x9002;&#x5F53;&#x8C03;&#x5C0F; requests &#x7B49;&#x6269;&#x5145;&#x53EF;&#x7528;&#x7684;&#x8282;&#x70B9;&#x7C7B;&#x578B;&#xFF0C;&#x4ECE;&#x800C;&#x6269;&#x5145;&#x8282;&#x70B9;&#x6C60;&#x3002;
            cpu: 1000m
            memory: 1Gi
          limits:
            # limits - requests &#x4E3A;&#x5141;&#x8BB8;&#x8D85;&#x5356;&#x7684;&#x8D44;&#x6E90;&#x91CF;&#xFF0C;&#x5EFA;&#x8BAE;&#x4E3A; requests &#x7684; 1 &#x5230; 2 &#x500D;&#xFF0C;&#x914C;&#x60C5;&#x914D;&#x7F6E;&#x3002;
            cpu: 1000m
            memory: 1Gi
        securityContext:
          # &#x5C06;&#x5BB9;&#x5668;&#x5C42;&#x8BBE;&#x4E3A;&#x53EA;&#x8BFB;&#xFF0C;&#x9632;&#x6B62;&#x5BB9;&#x5668;&#x6587;&#x4EF6;&#x88AB;&#x7BE1;&#x6539;
          ## &#x5982;&#x679C;&#x9700;&#x8981;&#x5199;&#x5165;&#x4E34;&#x65F6;&#x6587;&#x4EF6;&#xFF0C;&#x5EFA;&#x8BAE;&#x989D;&#x5916;&#x6302;&#x8F7D; emptyDir &#x6765;&#x63D0;&#x4F9B;&#x53EF;&#x8BFB;&#x5199;&#x7684;&#x6570;&#x636E;&#x5377;
          readOnlyRootFilesystem: true
          # &#x7981;&#x6B62; Pod &#x505A;&#x4EFB;&#x4F55;&#x6743;&#x9650;&#x63D0;&#x5347;
          allowPrivilegeEscalation: false
          capabilities:
            # drop ALL &#x7684;&#x6743;&#x9650;&#x6BD4;&#x8F83;&#x4E25;&#x683C;&#xFF0C;&#x53EF;&#x6309;&#x9700;&#x4FEE;&#x6539;
            drop:
            - ALL
        startupProbe:  # &#x8981;&#x6C42; kubernetes 1.18+
          httpGet:
            path: /actuator/health  # &#x76F4;&#x63A5;&#x4F7F;&#x7528;&#x5065;&#x5EB7;&#x68C0;&#x67E5;&#x63A5;&#x53E3;&#x5373;&#x53EF;
            port: 8080
          periodSeconds: 5
          timeoutSeconds: 1
          failureThreshold: 20  # &#x6700;&#x591A;&#x63D0;&#x4F9B;&#x7ED9;&#x670D;&#x52A1; 5s * 20 &#x7684;&#x542F;&#x52A8;&#x65F6;&#x95F4;
          successThreshold: 1
        livenessProbe:
          httpGet:
            path: /actuator/health  # spring &#x7684;&#x901A;&#x7528;&#x5065;&#x5EB7;&#x68C0;&#x67E5;&#x8DEF;&#x5F84;
            port: 8080
          periodSeconds: 5
          timeoutSeconds: 1
          failureThreshold: 5
          successThreshold: 1
        # Readiness probes are very important for a RollingUpdate to work properly,
        readinessProbe:
          httpGet:
            path: /actuator/health  # &#x7B80;&#x5355;&#x8D77;&#x89C1;&#x53EF;&#x76F4;&#x63A5;&#x4F7F;&#x7528; livenessProbe &#x76F8;&#x540C;&#x7684;&#x63A5;&#x53E3;&#xFF0C;&#x5F53;&#x7136;&#x4E5F;&#x53EF;&#x989D;&#x5916;&#x5B9A;&#x4E49;
            port: 8080
          periodSeconds: 5
          timeoutSeconds: 1
          failureThreshold: 5
          successThreshold: 1
apiVersion: policy/v1
kind: PodDisruptionBudget
metadata:
  name: my-app-v3
  namespace: prod
  labels:
    app: my-app
spec:
  minAvailable: 75%
  selector:
    matchLabels:
      app: my-app
      version: v3

如果 Pod 正在处理大量请求（比如 1000 QPS+）时，因为节点故障或「竞价节点」被回收等原因被重新调度，你可能会观察到在容器被 terminate 的一段时间内出现少量 502/504。

为了搞清楚这个问题，需要先理解清楚 terminate 一个 Pod 的流程：

1.Pod 的状态被设为 Terminating，（几乎）同时该 Pod 被从所有关联的 Service Endpoints 中移除
2.preStop 钩子被执行
a.它的执行阶段很好理解：在容器被 stop 之前执行
b.它可以是一个命令，或者一个对 Pod 中容器的 http 调用
c.如果在收到 SIGTERM 信号时，无法优雅退出，要支持优雅退出比较麻烦的话，用 preStop 实现优雅退出是一个非常好的方式
d.preStop 的定义位置：https://github.com/kubernetes/api/blob/master/core/v1/types.go#L2515
3.preStop 执行完毕后，SIGTERM 信号被发送给 Pod 中的所有容器
4.继续等待，直到容器停止，或者超时 spec.terminationGracePeriodSeconds，这个值默认为 30s
a.需要注意的是，这个优雅退出的等待计时是与 preStop 同步开始的！而且它也不会等待 preStop 结束！
5.如果超过了 spec.terminationGracePeriodSeconds 容器仍然没有停止，k8s 将会发送 SIGKILL 信号给容器
6.进程全部终止后，整个 Pod 完全被清理掉

注意：1 跟 2 两个工作是异步发生的，所以在未设置 preStop 时，可能会出现「Pod 还在 Service Endpoints 中，但是 SIGTERM 已经被发送给 Pod 导致容器都挂掉」的情况，我们需要考虑到这种状况的发生。

了解了上面的流程后，我们就能分析出两种错误码出现的原因：

502：应用程序在收到 SIGTERM 信号后直接终止了运行，导致部分还没有被处理完的请求直接中断，代理层返回 502 表示这种情况
504：Service Endpoints 移除不够及时，在 Pod 已经被终止后，仍然有个别请求被路由到了该 Pod，得不到响应导致 504

通常的解决方案是，在 Pod 的 preStop 步骤加一个 15s 的等待时间。其原理是：在 Pod 处理 terminating 状态的时候，就会被从 Service Endpoints 中移除，也就不会再有新的请求过来了。在 preStop 等待 15s，基本就能保证所有的请求都在容器死掉之前被处理完成（一般来说，绝大部分请求的处理时间都在 300ms 以内吧）。

一个简单的示例如下，它使 Pod 被 Terminate 时，总是在 stop 前先等待 15s，再发送 SIGTERM 信号给容器：

    containers:
    - name: my-app
      # &#x6DFB;&#x52A0;&#x4E0B;&#x9762;&#x8FD9;&#x90E8;&#x5206;
      lifecycle:
        preStop:
          exec:
            command:
            - /bin/sleep
            - "15"

更好的解决办法，是直接等待所有 tcp 连接都关闭（需要镜像中有 netstat）：

    containers:
    - name: my-app
      # &#x6DFB;&#x52A0;&#x4E0B;&#x9762;&#x8FD9;&#x90E8;&#x5206;
      lifecycle:
      preStop:
          exec:
            command:
            - /bin/sh
            - -c
            - "while [ $(netstat -plunt | grep tcp | wc -l | xargs) -ne 0 ]; do sleep 1; done"

如果我的服务还使用了 Sidecar 代理网络请求，该怎么处理？

以服务网格 Istio 为例，在 Envoy 代理了 Pod 流量的情况下，502/504 的问题会变得更复杂一点——还需要考虑 Sidecar 与主容器的关闭顺序：

如果在 Envoy 已关闭后，有新的请求再进来，将会导致 504（没人响应这个请求了）
所以 Envoy 最好在 Terminating 至少 3s 后才能关，确保 Istio 网格配置已完全更新
如果在 Envoy 还没停止时，主容器先关闭，然后又有新的请求再进来，Envoy 将因为无法连接到 upstream 导致 503
所以主容器也最好在 Terminating 至少 3s 后，才能关闭。
如果主容器处理还未处理完遗留请求时，Envoy 或者主容器的其中一个停止了，会因为 tcp 连接直接断开连接导致 502
因此 Envoy 必须在主容器处理完遗留请求后（即没有 tcp 连接时），才能关闭

所以总结下：Envoy 及主容器的 preStop 都至少得设成 3s，并且在「没有 tcp 连接」时，才能关闭，避免出现 502/503/504.

主容器的修改方法在前文中已经写过了，下面介绍下 Envoy 的修改方法。

和主容器一样，Envoy 也能直接加 preStop，修改 istio-sidecar-injector 这个 configmap，在 sidecar 里添加 preStop sleep 命令:

    containers:
    - name: istio-proxy
      # &#x6DFB;&#x52A0;&#x4E0B;&#x9762;&#x8FD9;&#x90E8;&#x5206;
      lifecycle:
      preStop:
          exec:
            command:
            - /bin/sh
            - -c
            - "while [ $(netstat -plunt | grep tcp | grep -v envoy | wc -l | xargs) -ne 0 ]; do sleep 1; done"

Kubernetes 官方主要支持基于 Pod CPU 的伸缩，这是应用最为广泛的伸缩指标，需要部署 metrics-server 才可使用。

先回顾下前面给出的，基于 Pod CPU 使用率进行伸缩的示例：

apiVersion: autoscaling/v2beta2  # k8s 1.23+ &#x6B64; API &#x5DF2;&#x7ECF; GA
kind: HorizontalPodAutoscaler
metadata:
  labels:
    app: my-app
  name: my-app-v3
  namespace: prod
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: my-app-v3
  maxReplicas: 50
  minReplicas: 3
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 70

1.当前指标值的计算方式

提前总结：每个 Pod 的指标是其中所有容器指标之和，如果计算百分比，就再除以 Pod 的 requests.

HPA 默认使用 Pod 的当前指标进行计算，以 CPU 使用率为例，其计算公式为：

&#x300C;Pod &#x7684; CPU &#x4F7F;&#x7528;&#x7387;&#x300D;= 100% * &#x300C;&#x6240;&#x6709; Container &#x7684; CPU &#x7528;&#x91CF;&#x4E4B;&#x548C;&#x300D;/&#x300C;&#x6240;&#x6709; Container &#x7684; CPU requests &#x4E4B;&#x548C;&#x300D;

注意分母是总的 requests 量，而不是 limits.

1.1存在的问题与解决方法

在 Pod 只有一个容器时这没啥问题，但是当 Pod 注入了 envoy 等 sidecar 时，这就会有问题了。

因为 Istio 的 Sidecar requests 默认为 100m 也就是 0.1 核。在未 tuning 的情况下，服务负载一高，sidecar 的实际用量很容易就能涨到 0.2-0.4 核。把这两个值代入前面的公式，会发现对于 QPS 较高的服务，添加 Sidecar 后，「Pod 的 CPU 利用率」可能会高于「应用容器的 CPU 利用率」，造成不必要的扩容。

即使改用「Pod 的 CPU 用量」而非百分比来进行扩缩容，也解决不了这个问题。

解决方法：

最佳解决方案：使用绝对度量指标，而非百分比。
方法一：针对每个服务的 CPU 使用情况，为每个服务的 sidecar 设置不同的 requests/limits.(感觉这个方案太麻烦了)
方法二：使用 KEDA 等第三方组件，获取到应用程序的 CPU 利用率（排除掉 Sidecar），使用它进行扩缩容
方法三：使用 k8s 1.20 提供的 alpha 特性：Container Resourse Metrics.

2.HPA 的扩缩容算法

HPA 什么时候会扩容，这一点是很好理解的。但是 HPA 的缩容策略，会有些迷惑，下面简单分析下。

HPA 的「目标指标」可以使用两种形式：绝对度量指标和资源利用率。

绝对度量指标：比如 CPU，就是指 CPU 的使用量
资源利用率（资源使用量/资源请求 * 100%）：在 Pod 设置了资源请求时，可以使用资源利用率进行 Pod 伸缩
HPA 的「当前指标」是一段时间内所有 Pods 的平均值，不是峰值。

HPA 的扩缩容算法为：

&#x671F;&#x671B;&#x526F;&#x672C;&#x6570; = ceil[&#x5F53;&#x524D;&#x526F;&#x672C;&#x6570; * ( &#x5F53;&#x524D;&#x6307;&#x6807; / &#x76EE;&#x6807;&#x6307;&#x6807; )]

从上面的参数可以看到：

1.只要「当前指标」超过了目标指标，就一定会发生扩容。
2.当前指标 / 目标指标要小到一定的程度，才会触发缩容。
a.比如双副本的情况下，上述比值要小于等于 1/2，才会缩容到单副本。
b.三副本的情况下，上述比值的临界点是 2/3。
c.五副本时临界值是 4/5，100 副本时临界值是 99/100，依此类推。
d.如果当前指标 / 目标指标从 1 降到 0.5，副本的数量将会减半。（虽然说副本数越多，发生这么大变化的可能性就越小。）
3.当前副本数 / 目标指标的值越大，「当前指标」的波动对「期望副本数」的影响就越大。

为了防止扩缩容过于敏感，HPA 有几个相关参数：

1.Hardcoded 参数
a.HPA Loop 延时：默认 15 秒，每 15 秒钟进行一次 HPA 扫描。
b.缩容冷却时间：默认 5 分钟。
2.对于 K8s 1.18+，HPA 通过 spec.behavior 提供了多种控制扩缩容行为的参数，后面会具体介绍。

3.HPA 的期望值设成多少合适

这个需要针对每个服务的具体情况，具体分析。

以最常用的按 CPU 值伸缩为例，

核心服务
需要注意 CPU 跟 Memory 的 limits 限制策略是不同的，CPU 是真正地限制了上限，而 Memory 是用超了就干掉容器（OOMKilled）
k8s 一直使用 cgroups v1 (cpu_shares/memory.limit_in_bytes)来限制 cpu/memory，但是对于 Guaranteed 的 Pods 而言，内存并不能完全预留，资源竞争总是有可能发生的。1.22 有 alpha 特性改用 cgroups v2，可以关注下。
requests/limits 值: 建议设成相等的，保证服务质量等级为 Guaranteed
HPA: 一般来说，期望值设为 60% 到 70% 可能是比较合适的，最小副本数建议设为 2 – 5. （仅供参考）
PodDisruptionBudget: 建议按服务的健壮性与 HPA 期望值，来设置 PDB，后面会详细介绍，这里就先略过了
非核心服务
也就是超卖了资源，这样做主要的考量点是，很多非核心服务负载都很低，根本跑不到 limits 这么高，降低 requests 可以提高集群资源利用率，也不会损害服务稳定性。
requests/limits 值: 建议 requests 设为 limits 的 0.6 – 0.9 倍（仅供参考），对应的服务质量等级为 Burstable
HPA: 因为 requests 降低了，而 HPA 是以 requests 为 100% 计算使用率的，我们可以提高 HPA 的期望值（如果使用百分比为期望值的话），比如 80% ~ 90%，最小副本数建议设为 1 – 3. （仅供参考）
PodDisruptionBudget: 非核心服务嘛，保证最少副本数为 1 就行了。

4.HPA 的常见问题

4.1. Pod 扩容 – 预热陷阱

预热：Java/C# 这类运行在虚拟机上的语言，第一次使用到某些功能时，往往需要初始化一些资源，例如「JIT 即时编译」。如果代码里还应用了动态类加载之类的功能，就很可能导致微服务某些 API 第一次被调用时，响应特别慢（要动态编译 class）。因此 Pod 在提供服务前，需要提前「预热（slow_start）」一次这些接口，将需要用到的资源提前初始化好。

在负载很高的情况下，HPA 会自动扩容。但是如果扩容的 Pod 需要预热，就可能会遇到「预热陷阱」。

在有大量用户访问的时候，不论使用何种负载均衡策略，只要请求被转发到新建的 Pod 上，这个请求就会「卡住」。如果请求速度太快，Pod 启动的瞬间「卡住」的请求就越多，这将会导致新建 Pod 因为压力过大而垮掉。然后 Pod 一重启就被压垮，进入 CrashLoopBackoff 循环。

如果是在使用多线程做负载测试时，效果更明显：50 个线程在不间断地请求，别的 Pod 响应时间是「毫秒级」，而新建的 Pod 的首次响应是「秒级」。几乎是一瞬间，50 个线程就会全部陷在新建的 Pod 这里。而新建的 Pod 在启动的瞬间可能特别脆弱，瞬间的 50 个并发请求就可以将它压垮。然后 Pod 一重启就被压垮，进入 CrashLoopBackoff 循环。

解决方法：

可以在「应用层面」解决：
1.在启动探针 API 的后端控制器里面，依次调用所有需要预热的接口或者其他方式，提前初始化好所有资源。
a.启动探针的控制器中，可以通过 localhost 回环地址调用它自身的接口。
2.使用「AOT 预编译」技术：预热，通常都是因为「JIT 即时编译」导致的问题，在需要用到时它才编译。而 AOT 是预先编译，在使用前完成编译，因此 AOT 能解决预热的问题。

也可以在「基础设施层面」解决：
1.像 AWS ALB TargetGroup 以及其他云服务商的 ALB 服务，通常都可以设置 slow_start 时长，即对新加入的实例，使用一定时间慢慢地把流量切过去，最终达到预期的负载均衡状态。这个可以解决服务预热问题。
2.Envoy 也已经支持 slow_start 模式，支持在一个设置好的时间窗口内，把流量慢慢负载到新加入的实例上，达成预热效果。

4.2.HPA 扩缩容过于敏感，导致 Pod 数量震荡

通常来讲，K8s 上绝大部分负载都应该选择使用 CPU 进行扩缩容。因为 CPU 通常能很好的反映服务的负载情况

但是有些服务会存在其他影响 CPU 使用率的因素，导致使用 CPU 扩缩容变得不那么可靠，比如：

有些 Java 服务堆内存设得很大，GC pause 也设得比较长，因此内存 GC 会造成 CPU 间歇性飙升，CPU 监控会有大量的尖峰。
有些服务有定时任务，定时任务一运行 CPU 就涨，但是这跟服务的 QPS 是无关的
有些服务可能一运行 CPU 就会立即处于一个高位状态，它可能希望使用别的业务侧指标来进行扩容，而不是 CPU.

因为上述问题存在，使用 CPU 扩缩容，就可能会造成服务频繁的扩容然后缩容，或者无限扩容。而有些服务（如我们的「推荐服务」），对「扩容」和「缩容」都是比较敏感的，每次扩缩都会造成服务可用率抖动。

对这类服务而言，HPA 有这几种调整策略：

选择使用 QPS 等相对比较平滑，没有 GC 这类干扰的指标来进行扩缩容，这需要借助 KEDA 等社区组件。
对 kubernetes 1.18+，可以直接使用 HPA 的 behavior.scaleDown 和 behavior.scaleUp 两个参数，控制每次扩缩容的最多 pod 数量或者比例。示例如下：

Original: https://www.cnblogs.com/hahaha111122222/p/16446196.html
Author: 哈喽哈喽111111
Title: 在 Kubernetes 容器集群，微服务项目最佳实践

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/547163/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【JavaWeb-jQuery】笔记（3）- jQuery中给dom对象绑定事件；通过jQuery实现Ajax请求的处理

1、jquery 中给 dom对象绑定事件：语法一： $(选择器).事件名称( 事件的处理函数); $(选择器)：定位 dom 对象，dom 对象可以有多个，一同绑定事件事件名…

技术杂谈 2023年7月10日
0058
某连锁酒店泄露数据的分析

声明不提供任何下载，不提供任何指引，无需问我怎么得到，我不会回答。前言这个分析纯粹是我喜欢数据挖掘，周末闲来无事练一下手。源文件源文件是一个SQL Server数据库备份…

技术杂谈 2023年5月31日
0085
Git简介

Git是一个开源的分布式版本控制系统，是目前主流的版本控制系统，很多软件项目都会用它做源代码管理。Git的常用操作想必很多人都会，但是可能了解Git内部原理的人并不多。了解一些底层…

技术杂谈 2023年7月11日
0078
Python数据分析–Numpy常用函数介绍(7)–Numpy中矩阵和通用函数

在NumPy中，矩阵是 ndarray 的子类，与数学概念中的矩阵一样，NumPy中的矩阵也是二维的，可以使用 mat 、 matrix 以及 bmat 函数来创建矩阵。一、创建…

技术杂谈 2023年7月25日
0064
致和我一样迷茫的Java程序员们

目前已发布的文章：不止面试—jvm类加载面试题详解不止面试—JVM内存模型面试题详解缘起从事近7年Java开发之后，在2019年这个寒冷的冬天里，我终于迎来了人生中的第一次…

技术杂谈 2023年7月11日
0070
linux开机自动挂载(/etc/fstab)

fatab 介绍通常情况，Linux 的 /etc/fstab 文件可能有如下内容： # /etc/fstab Created by anaconda on Fri Aug 18…

技术杂谈 2023年7月24日
0085
python 函数装饰器

函数传入的参数可以是函数 def func1(): print(‘1’) def func2(func): # func为函数 func() print(‘2’) func2(fu…

技术杂谈 2023年7月25日
0082
学习

1.1、参考博客参考的教程如下： Original: https://www.cnblogs.com/agui125/p/16032402.htmlAuthor: 风御之举Tit…

技术杂谈 2023年6月21日
0082
C/C++static

static 是什么？ static 是C++中的一个修饰符，它用来控制变量的存储方式和可见性。为什么要用static 因为函数内部定义的变量，当程序执行到它的定义处时，编译器为…

技术杂谈 2023年7月24日
0079
基于STC51单片机的计数器

基于STC51单片机的计数器设计要求：写出矩阵键盘的驱动分别按下对应的键。数码管会将键盘对应的值累加并显示设计概述：按照设计要求，所需要的单片机芯片为STC89C52，所…

技术杂谈 2023年7月25日
0067
【证券从业】金融基础知识-第三章证券市场主体01

注1：后续学习并整理到第八章，全书完结后再合并成一个笔记进行源文件分享注2：本章内容巨多，大约分为三篇文章记录消化 posted @2022-06-01 22:20 陈景中阅读…

技术杂谈 2023年7月10日
0077
微服务组件—-SpringCloudAlibaba链路追踪skywalking详解

skywalking是什么【1】skywalking是分布式系统的应用程序性能监视工具，专为微服务、云原生架构和基于容器（Docker、K8s、Mesos）架构而设计。SkyWa…

技术杂谈 2023年7月23日
0065
ds 校验某一个必填项字段

场景：通过 Step 组件，两个步骤中 Form，共用同一个 ds，希望步骤一中的指定字段没有填写时，禁止跳转下一步思路：通过 ds.checkValidity(record…

技术杂谈 2023年5月30日
0080
[AI]-模型测试和评价指标

模型测试 import cv2 from torchvision import transforms, datasets, models from torch.utils.data…

技术杂谈 2023年7月10日
0069
FCBU喜马拉雅音频批量下载器

如上无法下载，请点这里试试>>> 下载② 对于360杀毒软件、360卫士对本软件报病毒的严正声明！点击查看文件校验信息，下载文件后请对比文件校验信息，以防文件被…

技术杂谈 2023年5月31日
0097
支持JDK19虚拟线程的web框架之四：看源码，了解quarkus如何支持虚拟线程

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码)：https://github.com/zq2599/blog_demos 前文链接支持JDK19虚拟线程的…

技术杂谈 2023年7月11日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

在 Kubernetes 容器集群，微服务项目最佳实践

1.当前指标值的计算方式

2.HPA 的扩缩容算法

3.HPA 的期望值设成多少合适

4.HPA 的常见问题

大家都在看