按时间归档:2023年5月26日

  • [离线计算-Spark|Hive] 数据近实时同步数仓方案设计

    最近阅读了大量关于hudi相关文章, 下面结合对Hudi的调研, 设计一套技术方案用于支持 MySQL数据CDC同步至数仓中,避免繁琐的ETL流程,借助Hudi的upsert, d…

    大数据 2023年5月26日
    0106
  • kafka学习笔记

    1.1 初识kafka kafka 是一款基于发布与订阅的消息系统。 名词 解释 broker 消息系统处理的一个节点,一个kafka服务器被称为一个broker,多个broker…

    大数据 2023年5月26日
    0104
  • 猪齿鱼 Choerodon 的数据初始化设计解析

    数智化效能平台猪齿鱼Choerodon 作为一个微服务框架,需要解决微服务数据初始化本身具有的问题和复杂性,同时也需要满足框架本身特有的数据初始化需求,下面为大家介绍一下这方面的设…

    大数据 2023年5月26日
    0121
  • [离线计算-Spark|Hive] HDFS小文件处理

    HDFS 小文件过多会对hadoop 扩展性以及稳定性造成影响, 因为要在namenode 上存储维护大量元信息. 大量的小文件也可能导致查询分析性能不佳,因为查询引擎在执行查询时…

    大数据 2023年5月26日
    0113
  • 嫌 OSS 查询太慢?看我们如何将速度提升 10 倍!

    背景 HDFS 是 Hadoop 生态的默认存储系统,很多数据分析和管理工具都是基于它的 API 设计和实现的。但 HDFS 是为传统机房设计的,在云上维护 HDFS 一点也不轻松…

    大数据 2023年5月26日
    093
  • iGear 用了这个小魔法,模型训练速度提升 300%

    一个高精度AI模型离不开大量的优质数据集,这些数据集往往由标注结果文件和海量的图片组成。在数据量比较大的情况下,模型训练周期也会相应加长。那么有什么加快训练速度的好方法呢? 壕沟老…

    大数据 2023年5月26日
    0107
  • 【赵渝强】《大数据原理与实战》新书上市!!!

    经过近一年的等待,《大数据原理与实战》新书上市!!先睹为快!!!本书涵盖了大数据生态圈体系中的组件,力求用一本书完整地介绍大数据生态体系。本书涵盖了大数据平台体系中的Hadoop生…

    大数据 2023年5月26日
    0111
  • macbook安装scala、hadoop、saprk环境

    一、scala安装 1.安装jdk 有mac专用的jdk安装包,这里下载安装jdk1.8 2.安装scala 2.1下载scala 2.2解压到指定目录 tar -zxvf /Us…

    大数据 2023年5月26日
    085
  • HBase学习记录

    HBase学习记录 Day01 2022/2/22 为什么选择HBase HBase逻辑结构 HBase物理结构 HBase架构 HBase详细架构 HBase三层结构 HBase…

    大数据 2023年5月26日
    0119
  • 用 JuiceFS 备份 Nginx 日志可以这么简单

    在我们线上的生产环境中要备份的东西很多,各种服务日志、数据库数据、用户上传数据、代码等等。用 JuiceFS 来备份可以节省你大量时间,我们会围绕这个主题写一系列的教程,整理出一套…

    大数据 2023年5月26日
    0100
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球