按时间归档:2023年5月26日

  • JuiceFS 缓存策略详解

    对于对象存储和数据库相结合的文件系统,缓存是本地客户端和远程服务之间高效交互的重要纽带。读写数据可以提前或异步加载到缓存中,然后客户端可以在后台与远程服务异步上传或预取数据。与直接…

    大数据 2023年5月26日
    072
  • 03_MapReduce框架原理_3.4 InputSplit 切片类(源码)

    InputSplit 切片类 1.0 类的作用 InputSplit 他在逻辑上包含了提供给处理这个Inputsplit的Mapper的所有的key-value 1.1 抽象方法 …

    大数据 2023年5月26日
    075
  • 巧用符号链接迁移 HDFS 数据,业务完全无感知!

    问题 JuiceFS 是一个基于对象存储的分布式文件系统,在之前跟对象存储比较的文章中已经介绍了 JuiceFS 能够保证数据的强一致性和极高的读写性能,因此完全可以用来替代 HD…

    大数据 2023年5月26日
    088
  • JuiceFS 数据加密原理

    JuiceFS 作为分布文件系统,每天与海量的数据打着交道,因此数据的安全性尤为关键,今天就来介绍一下 JuiceFS 在数据加密方面所做的努力。 传输中数据加密 JuiceFS …

    大数据 2023年5月26日
    068
  • [Elasticsearch] ES 的Mapping 设计在实际场景中应用

    项目中的一个要求是需要几个字段作为标记,以统计每个标记中的文档数,并支持分词后的全文检索。 [En] A requirement in the project is to need…

    大数据 2023年5月26日
    083
  • Kafka Eagle分布式模式

    1.概述 最近有同学留言,Kafka Eagle的分布式模式功能怎么使用,如何部署安装?今天笔者就为大家来详细介绍一下Kafka Eagle的分布式模式功能的安装和使用。 2.内容…

    大数据 2023年5月26日
    0103
  • [平台建设] HBase平台建设实践

    由于公司业务场景的需要,我们需要开发HBase平台,主要需要以下功能: 建表管理 授权管理 SDK实现 与公司内部系统打通 我们使用的HBase 版本: HBase 1.2.0-c…

    大数据 2023年5月26日
    0112
  • [Elasticsearch] ES聚合场景下部分结果数据未返回问题分析

    在对ES某个筛选字段聚合查询,类似groupBy操作后,发现该字段新增的数据,聚合结果没有展示出来,但是用户在全文检索新增的筛选数据后,又可以查询出来, 针对该问题进行了相关排查。…

    大数据 2023年5月26日
    0102
  • [平台建设] 大数据平台如何实现任务日志采集

    平台任务主要分3种: flink实时任务, spark任务,还有java任务,spark、flink 我们是运行在yarn 上, 日常排错我们通过查看yarn logs来定位, 但…

    大数据 2023年5月26日
    072
  • maven-mvnd安装使用

    安装使用 官方介绍 使用注意 安装使用 下载https://github.com/apache/maven-mvnd/releases/tag/0.7.1 ,mvnd-0.7.1-…

    大数据 2023年5月26日
    081
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球