按时间归档:2023年5月26日
-
知乎利用 JuiceFS 给 Flink 容器启动加速实践
本文作者胡梦宇,知乎大数据架构开发工程师,主要负责知乎内部大数据组件的二次开发和数据平台建设。 背景 Flink 因为其可靠性和易用性,已经成为当前最流行的流处理框架之一,在流计算…
-
七、Hadoop3.3.1 HA 高可用集群QJM (基于Zookeeper,NameNode高可用+Yarn高可用)
前文 Hadoop3.3.1 HA 高可用集群的搭建 QJM 的 NameNode HA Hadoop HA模式搭建(高可用) 1、集群规划 2、Zookeeper集群搭建: 3、…
-
15个免费数据集-数据科学项目
15个免费数据集-数据科学项目 如果你曾经参与过个人数据科学项目,你可能花了很多时间在互联网上搜索有趣的数据集进行分析。 [En] If you have ever been in…
-
Kafka连接器建立数据管道
1.概述 最近,有同学留言咨询Kafka连接器的相关内容,今天笔者给大家分享一下Kafka连接器建立数据管道的相关内容。 2.内容 Kafka连接器是一种用于Kafka系统和其他系…
-
spark conf、config配置项总结
1、structured-streaming的state 配置项总结Config Name Description Default Value spark.sql.streamin…
-
数据采集实战(五)– 当当网童书排名
概述 如今,学校越来越重视孩子对课外知识的掌握,给孩子选课外读物一般都是学校或家长推荐的。 [En] Nowadays, schools pay more and more att…
-
hive日期函数
1、hive取得当前日期时间: — 1.1) 取得当前日期: select current_date(); ; — 1.2) 取得当前日期时间: selec…
-
大型数据库的应用项目之基于中文新闻分词绘制词云图
项目:基于中文新闻分词绘制词云图 一、项目关键实现:jieba中文分词、分词结果统计、词云图展示、前端树形结构展示 二、项目关键技术:jsp,servlet,mvc模式,ajax,…
-
Elaticsearch(一)–基础原理及用法
一、基础概念 1、Elasticsearch简介 Lucene是Java语言编写的全文(全部的文本内容进行分析,建立索引,使之可以被搜索)检索引擎工具包(全文检索引擎的架构),用于…
-
Spark3 学习【基于Java】4. Spark-Sql数据源
通过DF,Spark可以跟大量各型的数据源(文件/数据库/大数据)进行交互。前面我们已经看到DF可以生成视图,这就是一个非常使用的功能。 简单的读写流程如下: 通过read方法拿到…