记录大数据量写入Hive慢的解决过程

2023年11月13日上午12:54 • 大数据 • 阅读 44

最近在做一个大数据类项目，用到了Hadoop Hive SparkStreaming kafka等技术，整体面很广，本片仅介绍在开发过程中遇到的大数据量写入遇到的写入特别慢的解决过程。

说明： 我之前没接触过Hive相关，所以可能有些地方不是很准确，或者是还有其它解决方案，欢迎大家指出以备完善。
场景： 现在有个场景：50W数据写入hive库，会使用哪种方案。我之前没接触过Hive相关知识，最开始的方法是将数据转换为SQL，使用jdbc直接insert到Hive里面。我做了个测试一晚上跑了不到30W，速度太慢。

具体的jdbc方式代码就不贴出来了，就是将数据转为插入SQL。

Hive内部表外部表

创建表：Hive创建内部表时，会将数据移动到数据仓库指向的路径，hive管理数据的生命周期；Hive创建外部表时，仅记录数据所在的路径，不对数据的位置做任何改变。
删除表：Hive删除内部表时，内部表的元数据和数据会一起被删除，同时对于一些hive操作不适应于外部表，比如单个查询语句创建表并向表中插入数据；Hive删除外部表时，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。创建外部表时，甚至不需要知道外部数据是否存在，可以把创建数据推迟到创建表之后才进行。
选择：内部表与外部表没有太大区别。如果所有的数据都由hive处理，则创建内部表；如果数据的处理由hive和其他工具一起处理，则创建外部表。但是，管理表不方便和其他工作共享数据࿰

Original: https://blog.csdn.net/weixin_43241706/article/details/124815775
Author: 冰红茶不会渴
Title: 记录大数据量写入Hive慢的解决过程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/817921/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Nginx 反向代理 HTTP、HTTPS、WS、WSS、SSH 配置(2022.03.31)

简单记录 Nginx 反向代理相关的一些配置文件，描述不足之处请自行查阅相关资料。 1. HTTP 配置 upstream web { server domain.com:80; …

大数据 2023年6月3日
0075
ElasticSearch 7.8.x技术整理4 – 高级篇（续）

0、前言变更原由：昨晚更新博客之后，第一次出现有人看得到，有人又看不到，我也不知道我设置了什么地方，所以我把原博客删了，重新发布另外：其中一些理论与前面的知识点相关，所以我没有…

大数据 2023年5月26日
0064
STC8H开发(十四): I2C驱动RX8025T高精度实时时钟芯片

目录 STC8H开发(一): 在Keil5中配置和使用FwLib_STC8封装库(图文详解) STC8H开发(二): 在Linux VSCode中配置和使用FwLib_STC8封装…

大数据 2023年6月3日
0094
(error) DENIED Redis is running in protected mode because protected mode is enabled and no password

大数据 2023年11月16日
0059
SwiftUI SQLite数据大全之如何创建加密数据库并在项目中读取加密数据（SQLite.swift SQLCipher教程含源码）

; 实战需求 SwiftUI SQLite数据大全之如何创建加密数据库并在项目中读取加密数据（SQLite.swift SQLCipher教程含源码）本文价值与收获看完本文…

大数据 2023年11月11日
0035
面渣逆袭：Redis连环五十二问，图文详解，这下面试稳了

大数据 2023年11月15日
0034
9.linux虚拟机下Hive的安装配置

hadoop-3.1.3jdk-8u162-linux-x64apache-hive-3.1.2-bin 本案例软件包：链接：https://pan.baidu.com/s/1ig…

大数据 2023年11月12日
0049
Andriod Studio创建数据库并查看自己创建的数据库

Andriod Studio创建数据库并查看自己创建的数据库@TOC Andriod Studio创建数据库并查看自己创建的数据库在进行Andriod Studio项目开发时，数…

大数据 2023年11月11日
0057
Dragonfly单机部署比redis快25倍的缓存中间件

大数据 2023年11月15日
0037
redis删除hash方法及方式

大数据 2023年11月15日
0029
Django报错：ImportError: DLL load failed while importing _sqlite3: 找不到指定的模块

前言：在PyCharm下使用Anaconda中的Python虚拟环境，创建Django项目时报错，其中Django是使用命令行 pip install Django安装的，报错截…

大数据 2023年11月11日
0035
经典文献翻译：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

原文获取： https://arxiv.org/pdf/1810.04805.pdf&usg=ALkJrhhzxlCL6yTht2BRmH9atgvKFxHsxQ 目录 A…

大数据 2023年5月28日
0075
Ding！您有一份ChunJun实用指南，请查收

ChunJun 是易用、稳定、高效的批流一体的数据集成框架，主要应用于大数据开发平台的数据同步 / 数据集成模块，使大数据开发人员可简洁、快速的完成数据同步任务开发，供企业数据业务…

大数据 2023年5月24日
0073
简简单单利用Qt实现sqlite的交互实现方法（利用Qt内部封装的类库，将SQLite语句发送给SQLite软件，QSqlDatabase实现数据库连接，QSqlQuery执行指定的SQLite语句）

Sqlite是一个小型的本地数据库管理软件，对于保存一些软件配置参数或量不是很大的数据是相当的方便，Qt本身已经自带了Sqlite的驱动，直接使用相关的类库即可。个人总结：利用…

大数据 2023年11月11日
0047
SpringBoot启动微服务报错Consider defining a bean of type ‘org.springframework.data.redis.core.RedisTemplate

大数据 2023年11月15日
0044
SparkConf-配置对象

1.介绍 Spark应用程序配置配置对象,负责为 SparkContext 对象加载各种提交参数维护了一个 ConcurrentHashMap结构, 用来 key-value…

大数据 2023年6月3日
0083

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

记录大数据量写入Hive慢的解决过程

大家都在看