GFS-Google 文件系统

GFS分布式文件系统

  1. 简介

GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,并提供容错功能。它可以给大量的用户提供总体性能较高的服务。

GFS由三个组件组成
①存储服务器(Brick Server)
② 客户端(不在本地)(且,有客户端,也会有服务端,这点类似于 NFS,但是更为复杂)
③ 存储网关(NFS/Samaba)

无元数据服务器:
元数据是核心,描述对象的信息,影响其属性;
例如NFS,存放数据本身,是一个典型的元数据服务器可能存在单点故障,故要求服务器性能较高,服务器一旦出现故障就会导致数据丢失;
反过来看,所以无元数据服务不会有单点故障。
那么数据存放在哪里呢?会借用分布式的原则,分散存储,不会有一个统一的数据服务器

1.1 特点

  • 扩展性和高性能:可扩展性,扩展节点,通过多节点提高性能 Scale-Out架构允许通过简单地增加存储节点的方式来提高存储容量和性能(磁盘、计算和I/0资源都可以独立增加),支持10GbE和InfiniBand 等高速网络互联。
    Gluster弹性哈希(ElasticHash) 解决了GlusterFS对元数据服务器的依赖,改善了单点故障和性能瓶颈,真正实现了并行化数据访问。GlusterFS采用弹性哈希算法在存储池中可以智能地定位任意数据分片(将数据分片存储在不同节点上),不需要查看索引或者向元数据服务器查询。
  • 高可用性:不存在单点故障,有备份机制,类似Raid的容灾机制 GlusterFS可以对文件进行自动复制,如镜像或多次复制,从而确保数据总是可以访问,甚至是在硬件故障的情况下也能正常访问当数据出现不一致时,自我修复功能能够把数据恢复到正确的状态,数据的修复是以增量的方式在后台执行,几乎不会产生性能负载。 GlusterFS可以支持所有的存储,因为它没有设计自己的私有数据文件格式,而是采用操作系统中主流标准的磁盘文件系统( 如EXT3、XFS等)来存储文件,因此数据可以使用传统访问磁盘的方式被访问。
  • 全局统一命名空间:类比 API 的性质/概念,系统里根据他命名所定义的隔离区域,是一个独立空间;统一的名称空间,与客户端交互,把请求存放至后端的块数据服务器
  • 弹性卷管理:方便扩容及对后端存储集群的管理与维护,较为复杂。 GlusterFS通过将数据储存在逻辑卷中,逻辑卷从逻辑存储池进行独立逻辑划分而得到。
    逻辑存储池可以在线进行增加和移除,不会导致业务中断。逻辑卷可以根据需求在线增长和缩减,并可以在多个节点中实现负载均衡。
    文件系统配置也可以实时在线进行更改并应用,从而可以适应工作负载条件变化或在线性能调优。
  • 基于标准协议:基于标准化的文件使用协议,让 CentOS 兼容 GFS。 GlusterFS通过将数据储存在逻辑卷中,逻辑卷从逻辑存储池进行独立逻辑划分而得到。
    逻辑存储池可以在线进行增加和移除,不会导致业务中断。逻辑卷可以根据需求在线增长和缩减,并可以在多个节点中实现负载均衡。
    文件系统配置也可以实时在线进行更改并应用,从而可以适应工作负载条件变化或在线性能调优。

1.2 术语

  • Brick 存储服务器:实际存储用户数据的服务器
  • Volume:本地文件系统的”分区”
  • FUSE:用户 空间的文件系统(类比EXT4),”这是一个伪文件系统”;以本地文件系统为例,用户想要读写一个文件,会借助于EXT4文件系统,然后把数据写在磁盘上;而如果是远端的GFS,客户端的请求则应该交给FUSE(为文件系统),就可以实现跨界点存储在GFS上
  • VFS(虚拟端口) :内核态的虚拟文件系统,用户是先提交请求交给VFS然后VFS交给FUSE,再交给GFS客户端,最后由客户端交给远端的存储
  • Glusterd(服务):是允许在存储节点的进程

1.3 工作流程

  • 客户端或应用程序通过GlusterFS的挂载点访问数据。
  • linux系统内核通过VFS API收到请求并处理。
  • VES将数据递交给FUSE 内核文件系统,并向系统注册一个实际的文件系统FUSE, 而FUSE 文件系统则是将数据通过/dev/fuse 设备文件递交给了GlusterFS client端。可以将FUSE 文件系统理解为一个代理。
  • GlusterFS client 收到数据后,client 根据配置文件的配置对数据进行处理。
  • 经过GlusterFS client处理后,通过网络将数据传递至远端的GlusterFS Server,并且将数据写入到服务器存储设备上。

1.4 七种类型的 GlusterFS 卷

GlusterFs支持七种卷,即分布式卷、条带卷、复制卷、分布式条带卷、分布式复制卷、条带复制卷和分布式条带复制卷。

1.4.1 分布式卷

1)分布式卷的介绍

  • 文件通过HASH算法分布到所有Brick Server. 上,这种卷是GlusterFS 的默认卷;以文件为单位根据HASH算法散列到不同的Brick,其实只是扩大了磁盘空间,如果有一块磁盘损坏,数据也将丢失,属于文件级的RAIDO,不具有容错能力。
  • 在该模式下,并没有对文件进行分块处理,文件直接存储在某个Server节点上。
  • 由于直接使用本地文件系统进行文件存储,所以存取效率并没有提高,反而会因为网络通信的原因而有所降低。

示例:
File1 和File2存放在Server1, 而File3存放在Server2,文件都是随机存储,一个文件(如File1)要么在Server1上,要么在Server2. 上,不能分块同时存放在Server1和Server2上。

2)分布式卷特点

  • 文件分布在不同的服务器,不具备冗余性。
  • 更容易和廉价地扩”展卷的大小。
  • 单点故障会造成数据丢失。
  • 依赖底层的数据保护。
#创建一个名为dis-volume的分布式卷,文件将根据HASH分布在server1 : /dir1、server2:/dir2 和server3:/dir3中.

gluster volume create dis-volume server1:/dir1 server2:/dir2 server3:/dir3

1.4.2 条带卷

1)条带卷的介绍

  • 类似RAID0,文件被分成数据块并以轮询的方式分布到多个BrickServer上,文件存储以数据块为单位,支持大文件存储,文件越大,读取效率越高,但是不具备冗余性。

File 被分割为6段,1、3、5放在Server1, 2、4、6放在Server2。

2)条带卷特点

  • 数据被分割成更小块分布到块服务器群中的不同条带区。
  • 分布减少了负载且更小的文件加速了存取的速度。
  • 没有数据冗余。
#创建了一个名为stripe-volume的条带卷,文件将被分块轮询的存储在Server1 :/dir1和Server2:/dir2两个Brick中
gluster volume create stripe-volume stripe 2 transport tcp server1:/dir1 server2:/dir2

1.4.3 复制卷

1)复制卷的介绍

  • 将文件同步到多个Brick 上,使其具备多个文件副本,属于文件级RAID 1,具有容错能力。因为数据分散在多个Brick 中,所以读性能得到很大提升,但写性能下降。
  • 复制卷具备冗余性,即使一个节点损坏,也不影响数据的正常使用。但因为要保存副本,所以磁盘利用率较低。
#创建名为rep-volume的复制卷,文件将同时存储两个副本,分别在Server1:/dir1和Server2:/dir2两个Brick中
gluster volume create rep-volume replica 2 transport tcp server1:/dir1 server2:/dir2

1.4.4 分布式条带卷

1)分布式条带卷的介绍

  • BrickServer数量是条带数(数据块分布的Brick数量)的倍数,兼具分布式卷和条带卷的特点。
  • 主要用于大文件访问处理,创建一个分布式条带卷最少需要4台服务器。
#创建一个名为dis-stripe的分布式条带卷,配置分布式的条带卷时,卷中Brick所包含的存储服务器数必须是条带数的倍数(>=2倍)。
Brick的数量是4 ( Server1:/dir1、 Server2: /dir2、 Server3:/dir3 和Server4:/dir4),条带数为2 (stripe 2 )

gluster volume create dis-stripe stripe 2 transport tcp server1:/dir1 server2:/dir2 server3:/dir3 server4:/dir4

创建卷时,存储服务器的数量如果等于条带或复制数,那么创建的是条带卷或者复制卷;如果存储服务器的数量是条带或复制数的2倍甚至更多,那么将创建的是分布式条带卷或分布式复制卷。

1.4.5 分布式复制卷

1)分布式复制卷的介绍

  • Brick Server数量是镜像数(数据副本数量)的倍数,兼具分布式卷和复制卷的特点。主要用于需要冗余的情况下。

示例原理:

File1和File2 通过分布式卷的功能分别定位到Server1 和Server2。
在存放File1 时,File1 根据复制卷的特性,将存在两个相同的副本,分别是Server1 中的exp1 目录和Server2 中的exp2目录。
在存放File2时,File2 根据复制卷的特性,也将存在两个相同的副本,分别是Server3 中的exp3 目录和Server4 中的exp4 目录。

1.4.6 条带复制卷

1)条带复制卷的介绍

  • 类似RAID10,同时具有条带卷和复制卷的特点。

1.4.7 分布式条带复制卷

1)分布式条带复制卷的介绍

  • 三种基本卷的复合卷,通常用于类Map Reduce 应用。

  • 部署实践

环境准备

服务器类型 系统和IP地址 需要安装的组件 node1服务器 CentOS7.6(64 位) 192.168.80.20 添加4块20G硬盘 node2服务器 CentOS7.6(64 位) 192.168.80.25 添加4块20G硬盘 node3服务器 CentOS7.6(64 位) 192.168.80.30 添加4块20G硬盘 node4服务器 CentOS7.4(64 位) 192.168.80.35 添加4块20G硬盘

GFS-Google 文件系统

1.关闭所有节点的防火墙与selinux / 修改主机名

systemctl disable --now firewalld
setenforce 0

hostnamectl set-hostname node1/2/3/4
su

2.挂载硬盘/安装GFS(以node1节点为例)

(1)脚本准备:

[root@node1 ~] # vim /opt/fdisk.sh

#!/bin/bash
NEWDEV=ls /dev/sd* | grep -o 'sd[b-z]' | uniq
for VAR in $NEWDEV
do
   echo -e "n\np\n\n\n\nw\n" | fdisk /dev/$VAR &> /dev/null
   mkfs.xfs /dev/${VAR}"1" &> /dev/null
   mkdir -p /data/${VAR}"1" &> /dev/null
   echo "/dev/${VAR}"1" /data/${VAR}"1" xfs defaults 0 0" >> /etc/fstab
done
mount -a &> /dev/null

GFS-Google 文件系统

(2)执行脚本,挂载硬盘

`bahs
chmod +x /opt/fdisk.sh
cd /opt/
./fdisk.sh
mount -a
df -h

Original: https://www.cnblogs.com/Canyun-blogs/p/16444042.html
Author: 残-云
Title: GFS-Google 文件系统

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/606584/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 虚拟机网络地址配置你不知道的事儿-服务器的种类

    想必大家在初学Linux过程中,应该都是跟我一样白嫖一台虚拟机进行使用把,但是在大家白嫖的同时知不知道我们公司内是使用的什么样的服务器呢?公司肯定不会跟我们一样在自己电脑进行安装虚…

    Linux 2023年5月27日
    097
  • Spring Boot连接数据库,从MySql5.13飞跃到MySql8.0.18的坑

    Spring Boot连接数据库,从MySql5.13飞跃到MySql8.0.18的坑 1.驱动名 驱动包用的是:mysql-connector-java-8.0.18.jar 驱…

    Linux 2023年6月7日
    089
  • Cookie

    题目如下 打开靶机 根据提示,需要admin登录才能得到flag,题目介绍为Cookie欺骗,认证,伪造 打开burpsuite进行抓包,HTTP数据包是可以修改cookie值的 …

    Linux 2023年6月7日
    083
  • 如何画出别人一看就懂的架构图?

    技术传播的价值,不仅仅体现在通过商业化产品和开源项目来缩短我们构建应用的路径,加速业务的上线速率,也体现在优秀工程师在工作效率提升、产品性能优化和用户体验改善等经验方面的分享,以提…

    Linux 2023年6月8日
    093
  • Linux基础入门笔记

    Linux内核最初只是由芬兰人林纳斯·托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。 Linux是一套免费使用和自由传播的类Unix操作系统,是一…

    Linux 2023年6月14日
    070
  • linux编译安装nginx

    本文升级过程,适用于大部分nginx编译版本 常用编译选项说明nginx大部分常用模块,编译时./configure –help以–without开头的都默认安装。 –prefix…

    Linux 2023年5月27日
    086
  • JuiceFS V1.0 RC1 发布,大幅优化 dump/load 命令性能, 深度用户不容错过

    各位社区的伙伴, JuiceFS v1.0 RC1 今天正式发布了! 这个版本中,最值得关注的是对元数据迁移备份工具 dump/load 的优化。 这个优化需求来自于某个社区重度用…

    Linux 2023年6月14日
    083
  • 大数据Hadoop集群的扩容及缩容(动态添加删除节点)

    添加白名单和黑名单 白名单,表示在白名单的主机IP地址可以用来存储数据 企业中;配置白名单,可以尽量防止黑客恶意访问攻击。 配置白名单步骤如下:原文:sw-code 1)在Name…

    Linux 2023年6月8日
    0132
  • 树莓派4B串口测试与开发

    树莓派4B的串口,由两个增加4个,一共6个! 情况一: 缺省镜像中的配置,测试发现只启用了2个:pi@raspi4b:~ $ ls -l /dev/serial*lrwxrwxrw…

    Linux 2023年6月7日
    088
  • Spring事务管理

    事务的特性:一致性、原子性、隔离性、持久性 Spring事务管理相关接口:PlatformTransactionManager(事务管理器)、TransactionDefiniti…

    Linux 2023年6月7日
    0112
  • linux开机自动挂载(/etc/fstab)

    fatab 介绍 通常情况,Linux 的 /etc/fstab 文件可能有如下内容: # /etc/fstab Created by anaconda on Fri Aug 18…

    Linux 2023年6月7日
    0122
  • [云计算]腾讯云从业者认证-思维导图

    第一章 云计算基础介绍 第二章 腾讯云服务器产品介绍 第三章 腾讯云网络产品介绍 第四章 腾讯云CDN加速产品介绍 第五章 腾讯云存储产品介绍 第六章 腾讯云数据库产品介绍 第七章…

    Linux 2023年6月13日
    0125
  • 预处理

    在前面的学习中经常遇到用 #define命令定义符号常量的情况,其实使用 #define命令就是要定义一个可替换的宏。 宏定义是预处理命令的一种,它提供了一种可以替换源代码中字符串…

    Linux 2023年6月13日
    094
  • Docker下部署LNMP黄金架构

    404. 抱歉,您访问的资源不存在。 可能是网址有误,或者对应的内容被删除,或者处于私有状态。 代码改变世界,联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

    Linux 2023年6月7日
    0106
  • Question09-查询学过编号为”01″并且也学过编号为”02″的课程的同学的信息

    * — 学过01,且学过02 — 学过01 SELECT sc.SID FROM SC sc WHERE sc.CID = ’01’; — 学过02 SELECT sc.SI…

    Linux 2023年6月7日
    093
  • 复古冰雪传奇H5游戏详细图文架设教程

    前言 想体验复古传奇的热血PK吗?想体验满级VIP的尊贵吗?想体验一刀99999的爽快吗?各种极品炫酷时装、坐骑、翅膀、宠物通通给你,就在复古冰雪传奇H5! 本文讲解冰雪传奇架设教…

    Linux 2023年6月7日
    0112
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球