SRE网站可靠性工程师

SRE网站可靠性工程师

SRE需要做什么?

  • 故障模式,尤其是SPOF(单点故障)。消除SPOFs是你作为SRE最大的挑战和乐趣。
  • 基础设施组件,从应用程序到硬件(服务器、交换机、路由器、互联网连接、防火墙、isp、互联网路由(BGP)、IPS系统等)。

  • 应用程序负载测试、内存泄漏和断点。

  • 高可用性和系统故障转移。如何使系统优雅地失败,而不会丢失事务并从最终用户的角度保持有状态。

  • 备份系统。
  • 硬盘的可靠性和故障转移(包括RAID功能)。在数据中心级别,应该考虑灾难恢复(确保故障转移到不同的位置)。

  • 了解不同类型的网络安全攻击。

  • sla——把最好的留到最后,sla(service level agreements服务水平协议)是SRE工作中最重要的方面之一。设置、监视和执行sla将占用大量工作。

SRE核心组件

SRE的以下5个理念可以通过事实数据和洞察力带来更好的客户体验。可观察性和实用的度量标准是现SRE促进服务弹性和基础设施正常运行的最佳方法——满足客户的期望。

SRE工程师将负责制定和满足服务水平的目标、协议和指标(SLOs、sla和SLIs)。基于底层应用程序和基础设施的成熟度,以及整个团队的结构和可靠性实践的支持,SREs可以评估合理的指标,以量化客户的正常运行时间和可用性。什么样的可用性水平是合理的,可以假定您可以持续地维护,以及什么会让客户和潜在客户满意,从而带来更多的业务?

当然,如果站点可靠性工程师要对服务可用性负责,那么他们也要对性能负责。在某种意义上,性能是看待可用性的另一种方式。在工程团队看来,经历了某种程度的延迟或另一种类型的性能下降的客户,很可能正在经历停机。如果服务不是高性能和可用的,那么它几乎是不可用的。SREs负责为这些生产系统带来见解和行动,以确保开发人员和IT团队快速修复问题,改善客户体验,并使应用程序和基础设施随着时间的推移更具弹性。

为了确保性能和可用性,SREs需要知道在其应用程序和基础设施中监视和警告什么。可观察的服务大大提高了开发和发布团队的效率,这自然会提高面向客户的服务的正常运行时间和性能。SREs同时使用白盒和黑箱监控,以及仪表板和其他可视化工具来确保开发,组织中任何地方的IT和安全团队都能更好地了解他们的应用程序和基础设施的健康状况。

SREs的随叫随到管理和事件响应,通常在不同的组织之间是不同的。虽然站点可靠性工程师并不总是需要随叫随到,但他们至少应该对事件后的评审做出贡献,并在高水平上了解事件响应过程。系统可靠性在很大程度上取决于DevOps和IT团队在处理生产中的事故和中断时的效率。站点可靠性工程师需要对他们的事件响应团队的成功负责——这通常意味着他们需要成为随叫随到过程的一部分。

SREs需要确保开发人员和IT运营团队拥有他们需要的资源,以了解他们的系统,知道什么地方出了问题,并快速响应问题。通过事件后的协作评审过程、有用的度量标准和指示板,以及对组织的CI/CD过程的全面改进,站点可靠性工程师在DevOps和IT效率方面有很大的优势。

google招聘SRE的要求

最低学历:

  • 计算机科学学士学位,软件/系统工程相关技术领域,或同等的实践经验。
  • 至少使用以下语言之一进行编程:C、c++、Java、Python或Go。
  • 熟悉算法和数据结构。

优先条件:

  • 具有设计、分析和故障排除大型分布式系统的专业知识。
  • 具有调试、优化代码和自动化日常任务的能力。
  • 系统解决问题的方法,加上有效的沟通技巧和驱动力。
  • 了解Unix/Linux操作系统。

Google’s SRE Book
Google’s Site Reliability Workbook PDF
Google Cloud Platform Podcast
Splunk’s Beginner’s Guide to Observability
SRE, Golden Signals and Happier Customers (webinar)
Continuous Delivery: Reliable Software Releases through Build, Test, and Deployment Automation (book)
The Complete Guide to Post-Incident Reviews
Reducing MTTD for High-Severity Incidents (guide)
The Unicorn Project (book)

Original: https://www.cnblogs.com/itech/p/12944585.html
Author: iTech
Title: SRE网站可靠性工程师

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/552001/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 非自交任意多边形与矩形框的交集面积计算方法

    非自交任意多边形与矩形框的交集面积计算方法 1、应用背景 在对象识别的AI计算时,有时需要限定检测区域,即目标对象落在限定区域内有效,在区域外忽略。转换为数学模型为:目标检测框与限…

    技术杂谈 2023年6月21日
    077
  • 选择企业架构实践公开课的指导?TOGAF+ArchiMate+BangEA,EA工作者必学一门公开课

    我发现身边越来越多人谈数字化、谈企业架构,但是感觉谈的总是IT?知道好像不对,但是又好像也无法告诉别人这和传统的IT架构有什么不一样?网上找资料,看了很多也摸不到门路,也不知道别人…

    技术杂谈 2023年5月31日
    0100
  • 类成员变量的初始化

    1-1 类成员变量初始化的分类 类成员变量的初始化可简单分为两类:非静态成员变量的初始化(以下简称”普通初始化”)和静态成员变量的初始化(”静态…

    技术杂谈 2023年7月23日
    075
  • 工业软件技术的总结和开发方向

    以前总结了一回工业应用的技术栈方向,生成了一个技术导图已经做了罗列规划,内容也基本上包含了普通应用所需要的大部分方面,当然可能对于个人的技术见识来说会有遗漏空缺,这个还需要到具体项…

    技术杂谈 2023年7月23日
    088
  • Zabbix-企业级监控系统

    Zabbix-企业级监控系统 Zabbix 手册-官网 1.Zabbix简介 Zabbix 是一款监控网络的众多参数以及服务器、虚拟机、应用程序、服务、数据库、网站、云等的健康和完…

    技术杂谈 2023年7月11日
    093
  • 如何在Oracle中复制表结构和表数据

    复制表结构及其数据: 只复制表结构: 或者: 只复制表数据: 如果两个表结构一样: 如果两个表结构不一样: Original: https://www.cnblogs.com/lc…

    技术杂谈 2023年5月31日
    077
  • IOC-golang 的 AOP 原理与应用

    AOP 与 IOC 的关系 AOP (面向切面编程)是一种编程设计思想,旨在通过拦截业务过程的切面,实现特定模块化的能力,降低业务逻辑之间的耦合度。这一思路在众多知名项目中都有实践…

    技术杂谈 2023年5月30日
    083
  • 每天一个 HTTP 状态码 200

    200 OK 表示请求成功,一切安好… 200 OK 话不多说,这个状态码应该是最最最常用的了,无人不知,无人不晓;就是表示请求成功的意思, 你若安好,便是晴天。 摘自…

    技术杂谈 2023年7月11日
    081
  • Centos7 安装Git 版本控制

    Centos7 安装Git 版本控制 最近开始认真学习一遍git ,虽然已经使用git 蛮久了,但是其实对这个的了解 可能也就是 使用层面了。。提供一个 git 官网 zh (中文…

    技术杂谈 2023年7月10日
    081
  • 深入理解完美哈希

    深入理解完美哈希 https://mp.weixin.qq.com/s/M8Wcj8sZ7UF1CMr887Puog 搜索 复制 Original: https://www.cnb…

    技术杂谈 2023年5月31日
    087
  • oracle 添加白名单- 重启监听

    由于oracle中存在白名单,有新增主机需要访问,添加白名单需要重启监听 1.添加白名单 登陆oracle主机,su – grid 切到grid用户, vi $ORAC…

    技术杂谈 2023年5月30日
    091
  • 前端开发调试线上代码的两款工具

    用过 Charles 和 Fiddler 这两款,记录如下。 一、Charles Charles 界面简单直观,易于上手,数据请求控制容易,修改也简单,抓取数据的开始暂停也方便。全…

    技术杂谈 2023年6月1日
    0104
  • 日常白痴_Long类型的除法,保留两位小数

    背景提要 一直除法用的都是/,忘记了这个只能取到整数部分,需要小数的时候就不知道怎么办很基础的东西了,唉! 解决 首先需要获得小数部分,需要除数是Double类型,然后用 Deci…

    技术杂谈 2023年7月25日
    073
  • 在工作中学习看问题的角度

    向架构师学习 修改 A 导致 B 出了问题。 我们: 这里是个坑,下次要小心点 也许我应该写文档记录下这件事 也许我应该告诉下其他同事 …… 架构师:从框架…

    技术杂谈 2023年7月11日
    072
  • flutter RN taro选型思考

    当前RN已经成熟,但是依赖于大平台(JD、携程),小公司想开箱即用还是有困难的 纯Flutter还远未成熟,更多的是和原生进行混合 但是作为个体又想要在某一个点切入市场,就是需要作…

    技术杂谈 2023年5月30日
    097
  • linux中软件的安装方式

    linux中软件的安装方式 四种方式 ​ 源码编译安装 ​ rpm安装 ​ yum安装 解压、配置(hadoop、hive等) 1.源码编译安装 1.为了编译nginx源码 yum…

    技术杂谈 2023年7月11日
    092
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球