按时间归档:2023年5月26日
-
Spark的安装及其配置
1.Spark下载 https://archive.apache.org/dist/spark/ 2.上传解压,配置环境变量 配置bin目录 解压:tar -zxvf spark-…
-
环球易购数据平台如何做到既提速又省钱?
背景简介 环球易购创建于 2007 年,致力于打造惠通全球的 B2C 跨境电商新零售生态,2014 年通过与百圆裤业并购完成上市,上市公司「跨境通(SZ002640)」是 A 股上…
-
RDD的详解、创建及其操作
RDD的详解 RDD:弹性分布式数据集,是Spark中最基本的数据抽象,用来表示分布式集合,支持分布式操作! RDD的创建 RDD中的数据可以来源于2个地方:本地集合或外部数据源 …
-
hudi clustering 数据聚集(一)
概要 数据湖的业务场景主要包括对数据库、日志和文件的分析。管理数据湖有两个要点:写入吞吐量和查询性能。这里主要说明以下几个问题: [En] The business scenari…
-
java读取大文件内容到Elasticsearch分析(手把手教你java处理超大csv文件)
现在需要快速分析一个2g的csv文件; 基于掌握的知识,使用java按行读取文件,批量导入数据到Elasticsearch, 然后利用es强大的聚合能力分析数据,1个小时搞定! p…
-
hudi clustering 数据聚集(二)
小文件合并解析 执行代码: import org.apache.hudi.QuickstartUtils._ import scala.collection.JavaConvers…
-
一、CentOS7 hadoop3.3.1安装(单机分布式、伪分布式、分布式)
@ 前言 预先设置 修改主机名 关闭防火墙 创建hadoop用户 SSH安装免密登陆 单机免密登陆——linux配置ssh免密登录 linux环境配置Java变量 配置Java环境…
-
JuiceFS 在大搜车数据平台的实践
大搜车已经搭建起比较完整的汽车产业互联网协同生态。在这一生态中,不仅涵盖了大搜车已经数字化的全国 90% 中大型二手车商、9000+ 家 4S 店和 70000+ 家新车二网,还包…
-
[Apache Doris] Apache Doris 元数据设计及DDL操作源码阅读
元数据设计 如上图,Doris 的元数据主要存储4类数据: 用户数据信息。包括数据库、表的 Schema、分片信息等。 各类作业信息。如导入作业,Clone 作业、SchemaCh…
-
04.Mapreduce实例——单表join
04 . Mapreduce 实例 —— 单表 join 实验原理 以本实验的buyer1(buyer_id,friends_id)表为例来阐述单表连接的实验原理。单表连接,连接的…