总结:弹性伸缩的五个条件与六个教训

前言
弹性伸缩是云计算时代给我们带来的一项核心技术红利,但是 IT 的世界中,没有一个系统功能可以不假思索的应用到所有的场景中。这篇文章,我们将应用企业级分布式应用服务-EDAS 的客户在进行系统架构设计时,在弹性场景下遇到的点滴做了一个系统的梳理,总结为五个条件和六个教训分享给大家。

五个条件

1.启动无需手动干预

是否需要手动干预是弹性伸缩和手动伸缩的本质区别。在传统应用的运维中,一个进程的启动往往需要在机器上手动准备一系列的事情,如:环境搭建,依赖服务的配置梳理,本地环境配置调整等。如果是在云上的应用可能还需要手动调整安全组规则,依赖服务的访问控制等;但这些需要手动执行的动作在自动弹性时都会变得不可行。

2.进程本身无状态

确切的说,无状态主要是指业务系统运行时对于数据的依赖程度,数据是在进程执行的过程中产生的,产生的数据会对后来的程序行为产生持续的影响,程序员需要在编码逻辑的时候,就考虑如果系统在一个新环境中重新拉起时,这份数据是否对于行为会造成不一致的情况?推荐做法是数据应该最终以存储系统中为准,让存储计算做到真正的分离。

3.启动的要快,走的要有”尊严”

弹性,尤其是云上的弹性,其中一个特点是会进行得很频繁。尤其是流量突发型的业务,带着一定的不确定性。而启动后的系统往往处在一个”冷”的状态,启动之后如何快速的”加热”是弹性有效性的关键。而在弹性结束之后,往往伴随着一次自动的缩容,由于这个过程也是自动的,所以我们需要能从技术上能做到自动流量摘除的能力,这里的流量不仅仅包括 HTTP/RPC,也包括消息、任务(后台线程池)调度等。

4.磁盘数据可丢失

在应用启动过程,我们的应用程序可能会使用磁盘配置一些启动依赖项之外;在进程运行的过程中,我们也会习惯性使用磁盘打印一些日志,或者记录一些数据。而弹性场景是进程快起快没,没了之后放在磁盘上的数据也都没了,所以我们要做好磁盘数据丢失的准备,可能有人会问日志怎么处理?日志应该通过日志收集组件收走,进行统一的聚合、清洗和查阅。这一点在 12 factor apps 中也做了强调。

5.依赖的服务充分可用

成规模的业务系统,往往不是一个人在战斗。最典型的架构中,也会使用到一些缓存、数据库等中心服务。一个业务弹性扩容上来之后,很容易忽略中心依赖服务的可用性。如果依赖服务出现不可用,对于整个系统可能就是一个雪崩的效应。

六个教训

1.指标值设置不合理

弹性整体分为三个阶段:指标获取、规则计算、执行伸缩;指标获取一般通过监控系统或者 PaaS 平台自带的组件获取。基础监控指标常见的如:CPU/Mem/Load 等。短期内有一些基础指标数值会存在不稳定的特点,但是时间拉长,正常来看会处在一个”平稳”的状态,我们设置指标的时候,不能以短时间的特征为依据,参考较长时间的某种水位数据才能设置一个合理值。且指标不宜过多,同时缩容指标要和扩容指标存在明显的数值差。

2.把”延时”当指标

很多时候我们识别系统可用性的一个很大的判断,就是看系统屏幕是不是在”转圈圈”,即系统很慢。常理推断,很慢就要扩容了。所以我们有一些客户直接把系统的平均 RT 当成了扩容指标,但系统的 RT 是多维度的,比如 health check 一般都是很快的,这类 API 出现的频率稍高一点,一下就拉低了平均值。也有的客户会精确到 API 级别,可是 API 也是根据参数不同逻辑不一样的从而造成 RT 不一样。总之,根据延时去做弹性策略是很危险的一种做法。

3.指定单一的扩容规格

扩容规格指的是资源的规格,比如在云上的场景中,对于同一种 4c8g 的规格,我们可以指定内存型、计算型、网络增强型等。但是云上是一个大资源池,对于某一种规格,会存在售罄现象;如果我们只指定了单一的规格,就会出现资源无法提供而出现扩容失败的情况。这里最危险的还不是扩容失败本身,是出现业务故障之后的排查过程会特别漫长。

4.只考虑RPC链路中的应用策略

针对单个应用往往都很简单的,难的是整个业务场景的梳理。梳理思路一个简单的办法就是按照应用调用的场景进行,从应用间调用的场景来看,一般来说分为三种:同步(RPC,中间件如 Spring Cloud)、异步(消息,中间件如 RocketMQ)、任务(分布式调度,中间件如 SchedulerX)。我们一般会很快整理出第一种情况,但是很容易忽略掉后面两种。而后面两种出现问题的时候,问题排查诊断又是最为耗时。

5.没有配套相应的可视化策略

弹性伸缩是一个典型的后台任务,在治理一个大集群的后台任务的时候,最好是有一块大屏进行直观的可视化治理。对于扩容失败的情形,不能静默处理。如果是核心业务出现扩容失败,可能带来的就是直接的业务故障,但是故障真正发生时,很多时候不会去关心扩容策略是否生效,如果真是因为扩容造成的故障,也很难排查到这个点。

6.事前没做正确评估

虽然云计算给弹性提供了近乎无尽的资源池,但这也只是解放了用户预备资源的工作,而微服务系统本身复杂,单一组件的容量变化会产生全链路的影响,既解除一处风险之后系统瓶颈点可能会迁移,有些隐形约束也会随着容量变化逐步显现,所以做弹性策略大多数时候不能靠力大砖飞的思想,需要做好全链路的压测、验证,演练到适应于全局的弹性配置;我们还是建议事前从高可用的多个维度了解各种技术手段,形成多套预案以备使用。

尾声
云原生场景下弹性能力更为丰富,可供弹性的指标也更具备业务定制能力。应用 PaaS 平台(如企业级分布式应用服务 EDAS/ Serverless 应用引擎 SAE 等)能结合云厂商在计算、存储、网络上的技术基础能力,能让使用云的成本更低。但是这里对于业务应用会提出一点点挑战(如:无状态/配置代码解耦等等)。从更广的侧面来看,这是云原生时代应用架构面临的挑战。不过应用越来越原生的话,云的技术红利也会离我们越来越近。

作 者 | 孤弋

Original: https://www.cnblogs.com/88223100/p/Summary_Five-Conditions-and-Six-Lessons-for-Elastic-Scaling.html
Author: 古道轻风
Title: 总结:弹性伸缩的五个条件与六个教训

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/585410/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • ruoyi接口权限校验

    此文章属于ruoyi项目实战系列 ruoyi系统在前端主要通过权限字符包含与否来动态显示目录和按钮。为了防止通过http请求绕过权限限制,后端接口也需要进行相关权限设计。 @Pre…

    Linux 2023年6月7日
    0163
  • Redis未授权+CVE-2019-0708组合拳利用

    0x01 简介 本次测试为实战测试,测试环境是授权项目中的一部分,敏感信息内容已做打码处理,仅供讨论学习。请大家测试的时候,务必取得授权。 拿到授权项目的时候,客户只给我了一个公司…

    Linux 2023年5月28日
    0104
  • UE4游戏上架Steam全流程

    本人使用的是UE4.27.2, Windows 11操作系统。 首先,在ue4项目的插件设置中,勾选Online Subsystem 和 Online Subsystem Stea…

    Linux 2023年6月6日
    0103
  • 建表参数PCTFREE、PCTUSED、INITRANS和MAXTRANS释疑

    PCTFREE与PCTUSED建表时可以指定以上两个参数的值(整数),PCTFREE表示一个块中保留的剩余空间大小百分比,该保留空间主要用于已有记录的更 新操作;PCTUSED表示…

    Linux 2023年6月14日
    093
  • .Net MVC实现全局异常捕捉返回通用异常页面的一种方式

    阅文时长 | 0.54分钟字数统计 | 876字符主要内容 | 1、引言&背景 2、部分通用设计代码 3、声明与参考资料『.Net MVC实现全局异常捕捉返回通用异常页面的…

    Linux 2023年6月13日
    0107
  • Centos7最小化安装报错There are no enabled repos. Run “yum repolist all” to see the repos you have.解决办法

    原因是缺少CentOS-Base.repo文件,因为我这台机器wget也不能用,所以我是下载到本地sftp上去的,传输的时候一定要在root用户下,否则会无法启动传输 这是报错的完…

    Linux 2023年6月7日
    0110
  • nodejs调用shell

    shelljs https://github.com/shelljs/shelljs 实例 var shell = require(‘shelljs’); if (!shell.w…

    Linux 2023年5月28日
    0111
  • 最小二乘法

    背景:我们有一系列的点(x,y),如下图所示,实际上这就是一个y=10*x的一元一次曲线,再加上一个随机误差得到的数据。 我们想用一个线性方程来拟合它y=a*x+b为了达到最好的拟…

    Linux 2023年6月15日
    0123
  • 【转】我是一个CPU:这个世界慢!死!了!

    简介 经常听到有人说磁盘很慢、网络很卡,这都是站在人类的感知维度去表述的,比如拷贝一个文件到硬盘需要几分钟到几十分钟,够我去吃个饭啦;而从网络下载一部电影,有时候需要几个小时,我都…

    Linux 2023年6月16日
    0151
  • 如何使用IDEA进行DOCKER调试

    引言在日常的开发过程中我们使用的开发环境通常与正式环境并不一致,这样就比较容易出现一些意外。于是我们通常会借助docker来让我们的开发和正式环境一致。那如何在docker中进行运…

    Linux 2023年6月14日
    0120
  • 方法的深度理解

    权限修饰符 返回值类型 类名(行参列表 )throws 异常的类型{ //方法体 约定俗称:子类中叫重写的方法,父类中叫被重写的方法。 ①子类重写的方法名和行参列表和父类被重写的方…

    Linux 2023年6月14日
    0106
  • Xshell小技巧

    鼠标右键粘贴 工具->选项->鼠标->向右按钮->(paste the clipboard contents.) 选定文本自动复制到剪贴板 工具->选…

    Linux 2023年5月28日
    0116
  • EmuELEC 4.3 安装和乐视手柄 LeWGP-201 evremap问题解决

    一年多前安装了EmuELEC3.9之后, 就一直没有再更新过, 平时玩玩小游戏也很正常. 昨天心血来潮想把吃灰的乐视手柄用起来, 结果发现3.9里面没有evremap 命令. 猜测…

    Linux 2023年5月27日
    0276
  • 【证券从业】金融基础知识-第五章 债券02

    注1:后续学习并整理到第八章,全书完结后再合并成一个笔记进行源文件分享 注2:本章内容巨多,大约分为两篇文章记录消化 posted @2022-06-09 23:55 陈景中 阅读…

    Linux 2023年6月13日
    096
  • 个人学习-STL深入学习01-vectory源码研习 // 需要补充

    STL,即标准模板库(Standard Template Library,STL),内部封装了常见的容器和算法。由六部分组成:1.容器(Containers)2.分配器(Alloc…

    Linux 2023年6月6日
    094
  • 小文件、nginx、Redis、Moosefs

    现在有3KW的数据,单条数据都很小的,如果按key-value来看的话,key就是32位的MD5字符串,value按平均算大概是100字节左右。 现在需要将这些数据做缓存以在高并非…

    Linux 2023年5月28日
    0116
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球