26_5 月_2023_第9页

知乎利用 JuiceFS 给 Flink 容器启动加速实践

本文作者胡梦宇，知乎大数据架构开发工程师，主要负责知乎内部大数据组件的二次开发和数据平台建设。背景 Flink 因为其可靠性和易用性，已经成为当前最流行的流处理框架之一，在流计算…

大数据 2023年5月26日

0074

前文 Hadoop3.3.1 HA 高可用集群的搭建 QJM 的 NameNode HA Hadoop HA模式搭建（高可用） 1、集群规划 2、Zookeeper集群搭建： 3、…

大数据 2023年5月26日

00103

15个免费数据集-数据科学项目如果你曾经参与过个人数据科学项目，你可能花了很多时间在互联网上搜索有趣的数据集进行分析。 [En] If you have ever been in…

大数据 2023年5月26日

0078

1.概述最近，有同学留言咨询Kafka连接器的相关内容，今天笔者给大家分享一下Kafka连接器建立数据管道的相关内容。 2.内容 Kafka连接器是一种用于Kafka系统和其他系…

大数据 2023年5月26日

0080

1、structured-streaming的state 配置项总结Config Name Description Default Value spark.sql.streamin…

大数据 2023年5月26日

0085

概述如今，学校越来越重视孩子对课外知识的掌握，给孩子选课外读物一般都是学校或家长推荐的。 [En] Nowadays, schools pay more and more att…

大数据 2023年5月26日

0069

1、hive取得当前日期时间： — 1.1) 取得当前日期： select current_date(); ; — 1.2) 取得当前日期时间： selec…

大数据 2023年5月26日

0071

项目：基于中文新闻分词绘制词云图一、项目关键实现：jieba中文分词、分词结果统计、词云图展示、前端树形结构展示二、项目关键技术：jsp，servlet，mvc模式，ajax，…

大数据 2023年5月26日

0055

一、基础概念 1、Elasticsearch简介 Lucene是Java语言编写的全文（全部的文本内容进行分析，建立索引，使之可以被搜索）检索引擎工具包（全文检索引擎的架构），用于…

大数据 2023年5月26日

0070

通过DF，Spark可以跟大量各型的数据源（文件/数据库/大数据）进行交互。前面我们已经看到DF可以生成视图，这就是一个非常使用的功能。简单的读写流程如下：通过read方法拿到…

大数据 2023年5月26日

0069