Grafana+Prometheus 搭建 JuiceFS 可视化监控系统

2023年6月14日上午11:03 • Linux • 阅读 89

作为承载海量数据存储的分布式文件系统，用户通常需要直观地了解整个系统的容量、文件数量、CPU 负载、磁盘 IO、缓存等指标的变化。

JuiceFS 没有重复造轮子，而是通过 Prometheus 兼容的 API 对外提供实时的状态数据，只需将其添加到用户自建的 Prometheus Server 建立时序数据，然后通过 Grafana 等工具即可轻松实现 JucieFS 文件系统的可视化监控。

快速上手

这里假设你搭建的 Prometheus Server、Grafana 与 JuiceFS 客户端都运行在相同的主机上。其中：

Prometheus Server：用于收集并保存各种指标的时序数据，安装方法请参考官方文档。
Grafana：用于从 Prometheus 读取并可视化展现时序数据，安装方法请参考官方文档。

Ⅰ. 获得实时数据

JuiceFS 通过 Prometheus 类型的 API 对外提供数据。文件系统挂载后，默认可以通过 http://localhost:9567/metrics 地址获得客户端输出的实时监控数据。

Ⅱ. 添加 API 到 Prometheus Server

编辑 Prometheus 的配置文件，添加一个新 job 并指向 JuiceFS 的 API 地址，例如：

global:
  scrape_interval: 15s
  evaluation_interval: 15s

alerting:
  alertmanagers:
    - static_configs:
        - targets:
          # - alertmanager:9093

rule_files:
  # - "first_rules.yml"
  # - "second_rules.yml"

scrape_configs:
  - job_name: "prometheus"
    static_configs:
      - targets: ["localhost:9090"]

  - job_name: "juicefs"
    static_configs:
      - targets: ["localhost:9567"]

假设配置文件名为 prometheus.yml，加载该配置启动服务：

./prometheus --config.file=prometheus.yml

访问 http://localhost:9090 即可看到 Prometheus 的界面。

Ⅲ. 通过 Grafana 展现 Prometheus 的数据

如下图所示，新建 Data Source：

Name: 为了便于识别，可以填写文件系统的名称。
URL: Prometheus 的数据接口，默认为 http://localhost:9090

然后，使用 grafana_template.json 创建一个仪表盘。进入新建的仪表盘即可看到文件系统的可视化图表了：

收集监控指标

根据部署 JuiceFS 的方式不同可以有不同的收集监控指标的方法，下面分别介绍。

挂载点

当通过 juicefs mount 命令挂载 JuiceFS 文件系统后，可以通过 http://localhost:9567/metrics 这个地址收集监控指标，你也可以通过 --metrics 选项自定义。如：

$ juicefs mount --metrics localhost:9567 ...

你可以使用命令行工具查看这些监控指标：

$ curl http://localhost:9567/metrics

除此之外，每个 JuiceFS 文件系统的根目录还有一个叫做 .stats 的隐藏文件，通过这个文件也可以查看监控指标。例如（这里假设挂载点的路径是 /jfs）：

$ cat /jfs/.stats

Kubernetes

JuiceFS CSI 驱动默认会在 mount pod 的 9567 端口提供监控指标，也可以通过在 mountOptions 中添加 metrics 选项自定义（关于如何修改 mountOptions 请参考 CSI 驱动文档），如：

apiVersion: v1
kind: PersistentVolume
metadata:
  name: juicefs-pv
  labels:
    juicefs-name: ten-pb-fs
spec:
  ...

  mountOptions:
    - metrics=0.0.0.0:9567

新增一个抓取任务到 prometheus.yml 来收集监控指标：

scrape_configs:
  - job_name: 'juicefs'
    kubernetes_sd_configs:
    - role: pod
    relabel_configs:
    - source_labels: [__meta_kubernetes_pod_label_app_kubernetes_io_name]
      action: keep
      regex: juicefs-mount
    - source_labels: [__address__]
      action: replace
      regex: ([^:]+)(:\d+)?

      replacement: $1:9567
      target_label: __address__
    - source_labels: [__meta_kubernetes_pod_node_name]
      target_label: node
      action: replace

这里假设 Prometheus 服务运行在 Kubernetes 集群中，如果你的 Prometheus 服务运行在 Kubernetes 集群之外，请确保 Prometheus 服务可以访问 Kubernetes 节点，请参考这个 issue 添加 api_server 和 tls_config 配置到以上文件：

scrape_configs:
  - job_name: 'juicefs'
    kubernetes_sd_configs:
    - api_server:
      role: pod
      tls_config:
        ca_file:
        cert_file:
        key_file:
        insecure_skip_verify: false
    relabel_configs:
    ...

S3 网关

JuiceFS S3 网关默认会在 http://localhost:9567/metrics 这个地址提供监控指标，你也可以通过 --metrics 选项自定义。如：

$ juicefs gateway --metrics localhost:9567 ...

如果你是在 Kubernetes 中部署 JuiceFS S3 网关，可以参考 Kubernetes 小节的 Prometheus 配置来收集监控指标（区别主要在于 __meta_kubernetes_pod_label_app_kubernetes_io_name 这个标签的正则表达式），例如：

scrape_configs:
  - job_name: 'juicefs-s3-gateway'
    kubernetes_sd_configs:
      - role: pod
    relabel_configs:
      - source_labels: [__meta_kubernetes_pod_label_app_kubernetes_io_name]
        action: keep
        regex: juicefs-s3-gateway
      - source_labels: [__address__]
        action: replace
        regex: ([^:]+)(:\d+)?

        replacement: $1:9567
        target_label: __address__
      - source_labels: [__meta_kubernetes_pod_node_name]
        target_label: node
        action: replace

通过 Prometheus Operator 收集

Prometheus Operator 让用户在 Kubernetes 环境中能够快速部署和管理 Prometheus，借助 Prometheus Operator 提供的 ServiceMonitor CRD 可以自动生成抓取配置。例如（假设 JuiceFS S3 网关的 Service 部署在 kube-system 名字空间）：

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: juicefs-s3-gateway
spec:
  namespaceSelector:
    matchNames:
      - kube-system
  selector:
    matchLabels:
      app.kubernetes.io/name: juicefs-s3-gateway
  endpoints:
    - port: metrics

Hadoop

JuiceFS Hadoop Java SDK 支持把监控指标上报到 Pushgateway 或者 Graphite。

Pushgateway

启用指标上报到 Pushgateway：


  juicefs.push-gateway
  host:port

同时可以通过 juicefs.push-interval 配置修改上报指标的频率，默认为 10 秒上报一次。

根据 Pushgateway 官方文档的建议，Prometheus 的抓取配置中需要设置 honor_labels: true。

需要特别注意，Prometheus 从 Pushgateway 抓取的指标的时间戳不是 JuiceFS Hadoop Java SDK 上报时的时间，而是抓取时的时间，具体请参考 Pushgateway 官方文档。

默认情况下 Pushgateway 只会在内存中保存指标，如果需要持久化到磁盘上，可以通过 --persistence.file 选项指定保存的文件路径以及 --persistence.interval 选项指定保存到文件的频率（默认 5 分钟保存一次）。

每一个使用 JuiceFS Hadoop Java SDK 的进程会有唯一的指标，而 Pushgateway 会一直记住所有收集到的指标，导致指标数持续积累占用过多内存，也会使得 Prometheus 抓取指标时变慢，建议定期清理 Pushgateway 上的指标。

定期使用下面的命令清理 Pushgateway 的指标数据，清空指标不影响运行中的 JuiceFS Hadoop Java SDK 持续上报数据。 注意 Pushgateway 启动时必须指定 --web.enable-admin-api 选项，同时以下命令会清空 Pushgateway 中的所有监控指标。

$ curl -X PUT http://host:9091/api/v1/admin/wipe

Graphite

启用指标上报到 Graphite：


  juicefs.push-graphite
  host:port

同时可以通过 juicefs.push-interval 配置修改上报指标的频率，默认为 10 秒上报一次。

JuiceFS Hadoop Java SDK 支持的所有配置参数请参考文档。

使用 Consul 作为注册中心

JuiceFS 支持使用 Consul 作为监控指标 API 的注册中心，默认的 Consul 地址是 127.0.0.1:8500，你也可以通过 --consul 选项自定义。如：

$ juicefs mount --consul 1.2.3.4:8500 ...

当配置了 Consul 地址以后， --metrics 选项不再需要配置，JuiceFS 将会根据自身网络与端口情况自动配置监控指标 URL。如果同时设置了 --metrics，则会优先尝试监听配置的 URL。

注册到 Consul 上的每个实例，其 serviceName 都为 juicefs， serviceId 的格式为 <ip>:<mount-point></mount-point></ip>，例如： 127.0.0.1:/tmp/jfs。

每个 instance 的 meta 都包含了 hostname 与 mountpoint 两个维度，其中 mountpoint 为 s3gateway 代表该实例为 S3 网关。

可视化监控指标

Grafana 仪表盘模板

JuiceFS 提供一些 Grafana 的仪表盘模板，将模板导入以后就可以展示收集上来的监控指标。目前提供的仪表盘模板有：

模板名称说明
grafana_template.json

用于展示自挂载点、S3 网关（非 Kubernetes 部署）及 Hadoop Java SDK 收集的指标
grafana_template_k8s.json

用于展示自 Kubernetes CSI 驱动、S3 网关（Kubernetes 部署）收集的指标

Grafana 仪表盘示例效果如下图：

总结

使用 Grafana 做为宏观观测工具，当出现异常情况时可以首先观察其中是否存在异常指标，再进行进一步的分析。同时重要指标建议设置报警提示，以便实时获取系统状态异常的通知。

如有帮助的话欢迎关注我们项目 Juicedata/JuiceFS 哟！ (0ᴗ0✿)

Original: https://www.cnblogs.com/JuiceData/p/16310159.html
Author: JuiceFS
Title: Grafana+Prometheus 搭建 JuiceFS 可视化监控系统

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/611448/

转载文章受原作者版权保护。转载请注明原作者出处！

Linux

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[ VM ] 启用 WSL2 后，与 VirtualBox 冲突的解决方法

https://www.cnblogs.com/yeungchie/ 1. Error 报错 ERROR：current execution environment is VCO=…

Linux 2023年6月7日
00158
让SpringBoot也用上Fluent Validator

前言在使用SpringBoot的时候经常需要对客户端传入的参数进行合法性的校验，校验的方法基本上都是使用SpringBoot提供的注解，有时候遇上注解不能满足需求的时候还需要在业…

Linux 2023年6月14日
0091
Linux IP 命令略解

help 为该命令的帮助信息。实例ip link show # 显示网络接口信息 ip link set eth0 up # 开启网卡 ip link set eth0 down…

Linux 2023年5月27日
00148
【Example】C++ std::thread 及 std::mutex

与 Unix 下的 thread 不同的是，C++ 标准库当中的 std::thread 功能更加简单，可以支持跨平台特性。因此在项目需要跨平台及对多线程简单应用情况下，应优先考…

Linux 2023年6月13日
0062
18-网络七层架构

七层架构主要包括 ①、物理层主要定义物理设备标准，如网线的接口类型、光纤的接口类型、各种传输介质的传输速率等。它的主要作用是传输比特流（就是由 1、0 转化为电流强弱来进行传输…

Linux 2023年6月7日
00125
IDEA出现Could not autowire. No beans of ‘xxx’ type found.解决

Plan A File → Project Structure… Facets → Spring → 右键删除即可 Plan B File → Settings → E…

Linux 2023年6月13日
0092
在RestController中获取各种信息的方法

内容获取方法 URL中路径的一部分首先需要在RequestMapping做映射, 之后在方法中可以通过注解使用映射的变量@GetMapping(“/{id}&#82…

Linux 2023年6月14日
00122
一面数据： Hadoop 迁移云上架构设计与实践

背景一面数据创立于 2014 年，是一家领先的数据智能解决方案提供商，通过解读来自电商平台和社交媒体渠道的海量数据，提供实时、全面的数据洞察。长期服务全球快消巨头（宝洁、联合利华…

Linux 2023年6月14日
00121
进程

理论知识操作系统背景知识顾名思义，进程即正在执行的一个过程。进程是对正在运行程序的一个抽象。进程的概念起源于操作系统，是操作系统最核心的概念，也是操作系统提供的最古老也是最重…

Linux 2023年6月14日
0086
Ubuntu2004使用dnsmasq+Clash+Iptables+Ipset

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

Linux 2023年6月13日
0083
Oracle中row_number()、rank()、dense_rank() 的区别

row_number的用途非常广泛，排序最好用它，它会为查询出来的每一行记录生成一个序号，依次排序且不会重复，注意使用row_number函数时必须要用over子句选择对某一列进行…

Linux 2023年6月14日
0093
PYTORCH: 60分钟 | TORCH.AUTOGRAD

torch.autograd 是PyTorch的自动微分引擎，用以推动神经网络训练。在本节，你将会对autograd如何帮助神经网络训练的概念有所理解。背景神经网络（NNs）是…

Linux 2023年6月16日
00163
Java — 枚举

枚举是 JDK5 中引入的特性，由 enum 关键字来定义一个枚举类。格式： enum 枚举类名 { 枚举项1, 枚举项2, …; 成员变量; 构造方法成员方法 } 说明：…

Linux 2023年6月8日
0086
RPA 快手自动上传机器人

bash;gutter:true;1、打开账号Cookie预存表格2、机器人自动登录账号3、机器人开始按照预设视频位置开始自动上传视频4、机器人开始自动填写视频相关信息内容5、完成…

Linux 2023年6月7日
00114
[编译] 9、在Linux下搭建 nordic 最新基于 zephyr 的开发烧写环境

前言 1、概述 2、安装工具 3、获取 nRF Connect SDK 源码 4、安装 Python modules 5、安装 toolchain 6、下载 nRF Command…

Linux 2023年6月8日
0079
ESXI系列问题整理以及记录——使用Windows PowerShell中的SSH功能连接ESXI控制台

首先进入ESXI管理页面，开启ESXI的SSH功能接下来到位于同一局域网的Win主机上开启Powershell，如果ESXI主机的IP地址为192.168.1.77，则在Powe…

Linux 2023年6月13日
00123

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31