记录一次不靠谱的hadoop文件格式及压缩研发的测试

2023年6月2日下午9:33 • 大数据 • 阅读 72

测试环境

CDH：Cloudera Express 6.1.0
Hadoop：3.0.0-cdh6.1.0
Hive：2.1.1-cdh6.1.0

namenode：1个
datanode：3个

原始文件大小：243.1MB

测试方法

利用hadoop进行测试，利用load data将文件导入到hive表中。

LOAD DATA [LOCAL] INPATH 'file_path' [OVERWRITE] INTO TABLE table_name

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:0a0c0ac8-ddc5-45fe-a231-302d1a6dc05a

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:068a85c1-8a7a-4848-b80b-576f851a8b1e

--创建表CREATE TABLE test.text_default(
  id int COMMENT '主键id',
  words1 string COMMENT '歌词1',
  words2 string COMMENT '歌词2',
  words3 string COMMENT '歌词3',
  words4 string COMMENT '歌词4',
  words5 string COMMENT '歌词5',
  words6 string COMMENT '歌词6',
  words7 string COMMENT '歌词7',
  words8 string COMMENT '歌词8',
  words9 string COMMENT '歌词9',
  words10 string COMMENT '歌词10',
  words11 string COMMENT '歌词11')
COMMENT 'textfile的default算法表'STORED AS textfile;--导入数据

set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.DefaultCodec;

set hive.exec.compress.output=true;

set mapreduce.output.fileoutputformat.compress=true;

set mapreduce.output.fileoutputformat.compress.type=BLOCK;

insert into test.text_default

select * from ods_table;

–校验数据量

select count(1) from text_default;

测试结果

总结

测试文件格式及压缩算法在hive中的表现，小数据量并不能体现出问题及它们的特征。

Original: https://www.cnblogs.com/tangshanqun/p/16715589.html
Author: 踩坑臭皮匠
Title: 记录一次不靠谱的hadoop文件格式及压缩研发的测试

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/562044/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

可控文本生成技术

介绍 Prabhumoye 等人[1]对可控的文本生成技术进行了综述，神经控制文本生成是一个重要的研究领域，因其应用的广泛性而备受关注。这篇论文中提供了一个新的模式的流水线生成过…

大数据 2023年5月28日
0069
知识干货：基础存储服务新手体验营

白嫖的新知识！云服务器ECS 云服务器（Elastic Compute Service，简称ECS）是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS（Infrastructu…

大数据 2023年6月3日
0097
StarRocks BE节点崩溃原因查找及解决思路：std::bad_alloc

问题分析 StarRocks BE 5个节点突然在几分钟内全部掉线。查找BE的be.out日志，输出如下： tcmalloc: large alloc 1811947520 byt…

大数据 2023年5月26日
00153
centos 7下使用docker安装nextcloud

yum install docker -y systemctl start docker #启动docker systemctl enable docker #开机启动docker…

大数据 2023年5月29日
0059
银河麒麟服务器v10 sp2安装redis主从+哨兵模式

大数据 2023年11月16日
0030
DataOps 不是工具，而是帮助企业实现数据价值的最佳实践

2008 年，”大数据” 一词在《大数据时代》中被首次提出，距今已有整整 14 个年头。在这 14 年中，许多人亲眼见证了数据的力量，以及目睹它如何改变世界…

大数据 2023年5月24日
0071
FlinkSQL to MySQL连接器报错：Could not find any factory for identifier ‘jdbc‘

在FlinkSql client下尝试将 kafka中映射的虚拟表ods_base_province 导入到mysql表base_province时，抛了如下错误： Flink S…

大数据 2023年11月12日
0037
『NLP学习笔记』BERT命名实体识别(NER)实战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

大数据 2023年5月28日
0070
Transformer模型详解

Transformer模型详解参考自台大李宏毅老师课件 Transformer模型是谷歌大脑在2017年底发表的论文 Attention Is All You Need[1]中所…

大数据 2023年5月28日
0089
Android studio引入外部SQLite数据库，获取数据库列表数据

准备工作：准备好Android studio和一个创建管理数据库的软件，推荐SQLite Expert Professional或者Navicat Premium。这里以SQLi…

大数据 2023年11月10日
0039
sqlite 日期时间类型学习1

根据教程， SQLite 没有一个单独的用于存储日期和/或时间的存储类，但 SQLite 能够把日期和时间存储为 TEXT、REAL 或 INTEGER 值。存储类日期格式TEX…

大数据 2023年11月11日
0039
Linux—文本内容管理和文件查找

Linux文本内容管理和文件查找 1、文本内容管理命令 1.1文本内容排序 sort //默认升&#x5E…

大数据 2023年5月27日
0060
非科班生如何浑水摸鱼在省级大数据竞赛中获奖

以各种竞赛为线索的回忆录/经验贴，没写算法啥的，就是记比赛过程，本科除了看的那几本书，打的那十几场竞赛，寝室那几个人，几位恩师的脸，很多都记不清了。这次记录的比赛是：2017年安…

大数据 2023年5月26日
0068
【踩坑实录】datax从pg同步数据到hive数据全为null问题

大数据 2023年11月14日
0036
ubuntu使用postfix和AWS-SES发送邮件

在日常开发中，邮件发送是个比较常见的场景。因此出现了很多相关的软件和服务，各大云厂商也推出自己的邮件服务。今天笔者就像大家介绍一种常见的组合，AWS的邮件服务 SES 与邮件服务器…

大数据 2023年5月27日
0076
人工智能专业就业前景怎样?需要怎样的专业技能？

在国家积极推动人工智能一级学科建设的背景下，2020年3月，全国有大约180所高校新增”人工智能”本科专业；同时，数据科学与大数据技术专业的学校也占到了 1…

大数据 2023年5月28日
00113

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

记录一次不靠谱的hadoop文件格式及压缩研发的测试

测试环境

测试方法

测试结果

总结

大家都在看