分库分表ShardingSphere-JDBC笔记整理

一、分库分表解决的现状问题

  • 解决数据库本身瓶颈
  • 连接数: 连接数过多时,就会出现’too many connections’的错误,访问量太大或者数据库设置的最大连接数太小的原因
  • Mysql默认的最大连接数为100.可以修改,而mysql服务允许的最大连接数为16384
  • 数据库分表可以解决单表海量数据的查询性能问题
  • 数据库分库可以解决单台数据库的并发访问压力问题
  • 解决系统本身IO、CPU瓶颈
  • 磁盘读写IO瓶颈,热点数据太多,尽管使用了数据库本身缓存,但是依旧有大量IO,导致sql执行速度慢
  • 网络IO瓶颈,请求的数据太多,数据传输大,网络带宽不够,链路响应时间变长
  • CPU瓶颈,尤其在基础数据量大单机复杂SQL计算,SQL语句执行占用CPU使用率高,也有扫描行数大、锁冲突、锁等待等原因
    • 可以通过 show processlist; 、show full processlist,发现 CPU 使用率比较高的SQL
    • 常见的对于查询时间长,State 列值是 Sending data,Copying to tmp table,Copying to tmp table on disk,Sorting result,Using filesort 等都是可能有性能问题SQL,清楚相关影响问题的情况可以kill掉
    • 也存在执行时间短,但是CPU占用率高的SQL,通过上面命令查询不到,这个时候最好通过执行计划分析explain进行分析

二、垂直和水平分库分表区别

  • 垂直角度(表结构不一样)
  • 垂直分表: 将一个表字段拆分多个表,每个表存储部分字段
    • 好处: 避免IO时锁表的次数,分离热点字段和非热点字段,避免大字段IO导致性能下降
    • 原则:业务经常组合查询的字段一个表;不常用字段一个表;text、blob类型字段作为附属表
  • 垂直分库:根据业务将表分类,放到不同的数据库服务器上
    • 好处:避免表之间竞争同个物理机的资源,比如CPU/内存/硬盘/网络IO
    • 原则:根据业务相关性进行划分,领域模型,微服务划分一般就是垂直分库
  • 水平角度(表结构一样)
  • 水平分库:把同个表的数据按照一定规则分到不同的数据库中,数据库在不同的服务器上
    • 好处: 多个数据库,降低了系统的IO和CPU压力
    • 原则
    • 选择合适的分片键和分片策略,和业务场景配合
    • 避免数据热点和访问不均衡、避免二次扩容难度大
  • 水平分表:同个数据库内,把一个表的数据按照一定规则拆分到多个表中,对数据进行拆分,不影响表结构
    • 单个表的数据量少了,业务SQL执行效率高,降低了系统的IO和CPU压力
    • 原则
    • 选择合适的分片键和分片策略,和业务场景配合
    • 避免数据热点和访问不均衡、避免二次扩容难度大

2.1垂直分表

  • 也就是”大表拆小表”,基于列字段进行的
  • 拆分原则一般是表中的字段较多,将不常用的或者数据较大,长度较长的拆分到”扩展表 如text类型字段
  • 访问频次低、字段大的商品描述信息单独存放在一张表中,访问频次较高的商品基本信息单独放在一张表中
  • 垂直拆分原则
  • 把不常用的字段单独放在一张表;
  • 把text,blob等大字段拆分出来放在附表中;
  • 业务经常组合查询的列放在一张表中

2.2垂直分库

  • 垂直分库针对的是一个系统中的不同业务进行拆分, 数据库的连接资源比较宝贵且单机处理能力也有限
  • 没拆分之前全部都是落到单一的库上的,单库处理能力成为瓶颈,还有磁盘空间,内存,tps等限制
  • 拆分之后,避免不同库竞争同一个物理机的CPU、内存、网络IO、磁盘,所以在高并发场景下,垂直分库一定程度上能够突破IO、连接数及单机硬件资源的瓶颈
  • 垂直分库可以更好解决业务层面的耦合,业务清晰,且方便管理和维护
  • 一般从单体项目升级改造为微服务项目,就是垂直分库

2.3水平分表

  • 把一个表的数据分到一个数据库的多张表中,每个表只有这个表的部分数据
  • 核心是把一个大表,分割N个小表,每个表的结构是一样的,数据不一样,全部表的数据合起来就是全部数据
  • 针对数据量巨大的单张表(比如订单表),按照某种规则(RANGE,HASH取模等),切分到多张表里面去
  • 但是这些表还是在同一个库中,所以单数据库操作还是有IO瓶颈,主要是解决单表数据量过大的问题
  • 减少锁表时间,没分表前,如果是DDL(create/alter/add等)语句,当需要添加一列的时候mysql会锁表,期间所有的读写操作只能等待

2.4水平分库

  • 把同个表的数据按照一定规则分到不同的数据库中,数据库在不同的服务器上
  • 水平分库是把不同表拆到不同数据库中,它是对数据行的拆分,不影响表结构
  • 每个库的结构都一样,但每个库的数据都不一样,没有交集,所有库的并集就是全量数据
  • 水平分库的粒度,比水平分表更大

三、水平分库分表常见策略

3.1 Range

  • 范围角度思考问题 (范围的话更多是水平分表)
  • 数字
    • 自增id范围
  • 时间
    • 年、月、日范围
    • 比如按照月份生成 库或表 pay_log_2022_01、pay_log_2022_02
  • 空间
    • 地理位置:省份、区域(华东、华北、华南)
    • 比如按照 省份 生成 库或表

例如:自增id,根据ID范围进行分表(左闭右开)

  • 规则案例
  • 1~1,000,000 是 table_1
  • 1,000,000 ~2,000,000 是 table_2
  • 2,000,000~3,000,000 是 table_3
  • …更多
  • 优点
  • id是自增长,可以无限增长
  • 扩容不用迁移数据,容易理解和维护
  • 缺点
  • 大部分读和写都访会问新的数据,有IO瓶颈,整体资源利用率低
  • 数据倾斜严重,热点数据过于集中,部分节点有瓶颈

基于Range范围分库分表业务场景

  • 微博发送记录、微信消息记录、日志记录,id增长/时间分区都行
  • 水平分表为主,水平分库则容易造成资源的浪费
  • 网站签到等活动流水数据时间分区最好
  • 水平分表为主,水平分库则容易造成资源的浪费
  • 大区划分(一二线城市和五六线城市活跃度不一样,如果能避免热点问题,即可选择)
  • saas业务水平分库(华东、华南、华北等)

3.2Hash取模

hash取模(Hash分库分表是最普遍的方案)

  • 如果取模的字段不是整数型要先hash,统一规则就行
  • 案例规则
  • 用户ID是整数型的,要分2库,每个库表数量4表,一共8张表
  • 用户ID取模后,值是0到7的要平均分配到每张表
A库ID = userId % 库数量 2
表ID = userId / 库数量 2 % 表数量4
  • 优点
  • 保证数据较均匀的分散落在不同的库、表中,可以有效的避免热点数据集中问题,
  • 缺点
  • 扩容不是很方便,需要数据迁移

四、实现方案ShardingSphere-JDBC

  • 地址:https://shardingsphere.apache.org/
  • Sharding-JDBC
  • 基于jdbc驱动,不用额外的proxy,支持任意实现 JDBC 规范的数据库
  • 它使用客户端直连数据库,以 jar 包形式提供服务,无需额外部署和依赖
  • 可理解为加强版的 JDBC 驱动,兼容 JDBC 和各类 ORM 框架
  • 它使用客户端直连数据库,以 jar 包形式提供服务
  • 无需额外部署和依赖,可理解为增强版的 JDBC 驱动,完全兼容 JDBC 和各种 ORM 框架
  • 适用于任何基于 JDBC 的 ORM 框架,如:JPA, Hibernate, Mybatis,或直接使用 JDBC
  • 支持任何第三方的数据库连接池,如:DBCP, C3P0, BoneCP, HikariCP 等;
  • 支持任意实现 JDBC 规范的数据库,目前支持 MySQL,PostgreSQL,Oracle,SQLServer 以及任何可使用 JDBC 访问的数据库
  • 采用无中心化架构,与应用程序共享资源,适用于 Java 开发的高性能的轻量级 OLTP 应用

分库分表ShardingSphere-JDBC笔记整理

4.1常见概念术语讲解

  • 数据节点Node
  • 数据分片的最小单元,由数据源名称和数据表组成
  • 比如:ds_0.product_order_0
  • 真实表
  • 在分片的数据库中真实存在的物理表
  • 比如订单表 product_order_0、product_order_1、product_order_2
  • 逻辑表
  • 水平拆分的数据库(表)的相同逻辑和数据结构表的总称
  • 比如订单表 product_order_0、product_order_1、product_order_2,逻辑表就是product_order
  • 绑定表
  • 指分片规则一致的主表和子表
  • 比如product_order表和product_order_item表,均按照order_id分片,则此两张表互为绑定表关系
  • 绑定表之间的多表关联查询不会出现笛卡尔积关联,关联查询效率将大大提升
  • 广播表
  • 指所有的分片数据源中都存在的表,表结构和表中的数据在每个数据库中均完全一致
  • 适用于数据量不大且需要与海量数据的表进行关联查询的场景
  • 例如:字典表、配置表

4.2常见分片算法讲解

分片算法包括两部分:包含分片键和分片策略

  • 分片键 (PartitionKey)
  • 用于分片的数据库字段,是将数据库(表)水平拆分的关键字段
  • 比如prouduct_order订单表,根据订单号 out_trade_no做哈希取模,则out_trade_no是分片键
  • 除了对单分片字段的支持,ShardingSphere也支持根据多个字段进行分片
  • 分片策略
  • 行表达式分片策略 InlineShardingStrategy( 必备
    • 只支持【 单分片键】使用Groovy的表达式,提供对SQL语句中的 =和IN 的分片操作支持
    • 可以通过简单的配置使用,无需自定义分片算法,从而避免繁琐的Java代码开发
      +
prouduct_order_$->{user_id % 8} 表示订单表根据user_id模8,而分成8张表,表名称为prouduct_order_0prouduct_order_7
  • 标准分片策略StandardShardingStrategy(需了解)
    • 只支持【 单分片键】,提供PreciseShardingAlgorithm和RangeShardingAlgorithm两个分片算法
    • PreciseShardingAlgorithm 精准分片 是必选的,用于处理=和IN的分片
    • RangeShardingAlgorithm 范围分配 是可选的,用于处理BETWEEN AND分片
    • 如果不配置RangeShardingAlgorithm,如果SQL中用了BETWEEN AND语法,则将按照全库路由处理,性能下降
  • 复合分片策略ComplexShardingStrategy(需了解)
    • 支持【 多分片键】,多分片键之间的关系复杂,由开发者自己实现,提供最大的灵活度
    • 提供对SQL语句中的=, IN和BETWEEN AND的分片操作支持
  • Hint分片策略HintShardingStrategy(需了解)
    • 这种分片策略无需配置分片健,分片健值也不再从 SQL中解析,外部手动指定分片健或分片库,让 SQL在指定的分库、分表中执行
    • 用于处理使用Hint行分片的场景,通过Hint而非SQL解析的方式分片的策略
    • Hint策略会绕过SQL解析的,对于这些比较复杂的需要分片的查询,Hint分片策略性能可能会更好
  • 不分片策略 NoneShardingStrategy(需了解)
    • 不分片的策略。

4.3执行流程原理

执行过程为:SQL解析 -> SQL优化 -> SQL路由 -> SQL改写 -> SQL执行 -> 结果归并 ->返回结果

分库分表ShardingSphere-JDBC笔记整理

Original: https://www.cnblogs.com/yuanbeier/p/16574366.html
Author: bei_er
Title: 分库分表ShardingSphere-JDBC笔记整理

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/608579/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 微服务SpringCloud之注册中心Consul

    Consul 介绍 Consul 是 HashiCorp 公司推出的开源工具,用于实现分布式系统的服务发现与配置。与其它分布式服务注册与发现的方案,Consul 的方案更&#822…

    Java 2023年5月30日
    0116
  • HDFS api操作

    2.获取FileSystem对象方式2 1 public void getFileSystem2() throws URISyntaxException, IOException …

    Java 2023年6月5日
    063
  • 【leetcode】42. 接雨水

    给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入:height = [0,1,0,2,1,0,1,3,2,1,2…

    Java 2023年6月6日
    083
  • SpringWebflux中WebClient怎么打印日志

    一、背景 去年高峰压测的时候,有个服务是专门调用其它系统的,在测试接口http请求的时候,那TPS唰唰的往下掉,还专门用Arthas看了一下方法执行时间,那家伙,我sleep 2s…

    Java 2023年6月15日
    098
  • Linux命令

    Original: https://www.cnblogs.com/zmn0104/p/13858650.htmlAuthor: Sunshine0104Title: Linux命…

    Java 2023年6月7日
    076
  • 什么。你还没有搞懂Spring事务增强器 ,一篇文章让你彻底搞懂Spring事务,虽然很长但是干货满满

    上一篇文章主要讲解了事务的Advisor是如何注册进Spring容器的,也讲解了Spring是如何将有配置事务的类配置上事务的,也讲解了Advisor,pointcut验证流程; …

    Java 2023年6月7日
    054
  • 《Java编程思想》读书笔记(三)

    前言:三年之前就买了《Java编程思想》这本书,但是到现在为止都还没有好好看过这本书,这次希望能够坚持通读完整本书并整理好自己的读书笔记,上一篇文章是记录的第十一章到第十六章的内容…

    Java 2023年6月5日
    072
  • 8.java NIO

    1.简介 2.NIO和BIO的比较 1.BIO以流的方式处理数据,而NIO以块的放还是处理数据,块的I/O都效率比流的I/O高很多 2.BIO是阻塞的,NIO是非阻塞的 3.BIO…

    Java 2023年6月5日
    069
  • IDEA生成带参数和返回值注释

    步骤说明 打开IDEA进入点击左上角 – 文件 – 设置 – 编辑器 – 活动模板 新建活动模板 填写模板文本 编辑变量 添加变量表…

    Java 2023年6月15日
    0113
  • iOS运行时编程(Runtime Programming)和Java的反射机制对比

    运行时进行编程,类似Java的反射。运行时编程和Java反射的对比如下: 1.相同点 都可以实现的功能:获取类信息、属性设置获取、类的动态加载(NSClassFromString(…

    Java 2023年5月29日
    0109
  • dubbo源码分析1(搭建环境)

    好久没有写博客了, 一方面是最近工作太忙了,还有就是因为在研究dubbo源码相关的,感觉没有怎么研究懂,我擦(╯—﹏—)╯(┷━━━┷ 由于以前是使用springboot开发的,很…

    Java 2023年6月6日
    0111
  • 跟着 Guava、Spring 学习如何设计观察者模式

    文章首发在公众号(龙台的技术笔记),之后同步到掘金和个人网站:xiaomage.info 今天讲解一篇行为型设计模式,什么是行为型?行为型主要负责设计 类或对象之间的交互。工作中常…

    Java 2023年6月14日
    078
  • 新建项目运行会报Gradle plugin requires Java 11 to run 问题

    在高版本的AS的gradle需要java11 ,但是环境使用的却是1.8 csharp;gutter:true; An exception occurred applying pl…

    Java 2023年5月29日
    078
  • HTML常用标签

    HTML常用标签 DOCTYPE html> <html lang="en"> &lt…

    Java 2023年6月5日
    094
  • java笔记

    1、类和方法(函数)的命名规则 总结: 类(首字母大写!!!),函数、变量 首字母小写其余首字母大写 2、注释的方法 //&#x8FD9;&#x662F;&…

    Java 2023年5月29日
    093
  • idea使用教程-常用快捷键

    【1】创建内容:alt+insert【2】main方法:psvm【3】输出语句:sout【4】复制行:ctrl+d【5】删除行:ctrl+y 【6】代码向上/下移动:Ctrl + …

    Java 2023年6月5日
    082
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球