按时间归档:2023年5月26日
-
[离线计算-Spark|Hive] 数据近实时同步数仓方案设计
最近阅读了大量关于hudi相关文章, 下面结合对Hudi的调研, 设计一套技术方案用于支持 MySQL数据CDC同步至数仓中,避免繁琐的ETL流程,借助Hudi的upsert, d…
-
kafka学习笔记
1.1 初识kafka kafka 是一款基于发布与订阅的消息系统。 名词 解释 broker 消息系统处理的一个节点,一个kafka服务器被称为一个broker,多个broker…
-
猪齿鱼 Choerodon 的数据初始化设计解析
数智化效能平台猪齿鱼Choerodon 作为一个微服务框架,需要解决微服务数据初始化本身具有的问题和复杂性,同时也需要满足框架本身特有的数据初始化需求,下面为大家介绍一下这方面的设…
-
[离线计算-Spark|Hive] HDFS小文件处理
HDFS 小文件过多会对hadoop 扩展性以及稳定性造成影响, 因为要在namenode 上存储维护大量元信息. 大量的小文件也可能导致查询分析性能不佳,因为查询引擎在执行查询时…
-
嫌 OSS 查询太慢?看我们如何将速度提升 10 倍!
背景 HDFS 是 Hadoop 生态的默认存储系统,很多数据分析和管理工具都是基于它的 API 设计和实现的。但 HDFS 是为传统机房设计的,在云上维护 HDFS 一点也不轻松…
-
iGear 用了这个小魔法,模型训练速度提升 300%
一个高精度AI模型离不开大量的优质数据集,这些数据集往往由标注结果文件和海量的图片组成。在数据量比较大的情况下,模型训练周期也会相应加长。那么有什么加快训练速度的好方法呢? 壕沟老…
-
【赵渝强】《大数据原理与实战》新书上市!!!
经过近一年的等待,《大数据原理与实战》新书上市!!先睹为快!!!本书涵盖了大数据生态圈体系中的组件,力求用一本书完整地介绍大数据生态体系。本书涵盖了大数据平台体系中的Hadoop生…
-
macbook安装scala、hadoop、saprk环境
一、scala安装 1.安装jdk 有mac专用的jdk安装包,这里下载安装jdk1.8 2.安装scala 2.1下载scala 2.2解压到指定目录 tar -zxvf /Us…
-
HBase学习记录
HBase学习记录 Day01 2022/2/22 为什么选择HBase HBase逻辑结构 HBase物理结构 HBase架构 HBase详细架构 HBase三层结构 HBase…
-
用 JuiceFS 备份 Nginx 日志可以这么简单
在我们线上的生产环境中要备份的东西很多,各种服务日志、数据库数据、用户上传数据、代码等等。用 JuiceFS 来备份可以节省你大量时间,我们会围绕这个主题写一系列的教程,整理出一套…