hive 中删除字段/去掉字段

Hive中没有直接删除字段的操作,只有 Add/Replace

做个测试:

[En]

Take a test:

1)建表操作

create table if not exists temp.test1(
    applseq    string    comment '申请号'
   ,data_dt    string    comment '日期'
   ,flag       string    comment '标识'
   ,age        decimal(20,6)    comment '年龄'
   ,money_all  decimal(20,6)    comment 'money'
    )  comment '测试表temp1'
partitioned by (
 table_name varchar(50)  comment '表名称'
 ,dt varchar(8)  comment '数据日期'
)
stored as textfile;

2)用Hive查看表结构

hive> desc temp.test1;
applseq              string
data_dt              string
flag                 string
age                  decimal(20,6)
money_all            decimal(20,6)
table_name           varchar(50)
dt                   varchar(8)

3)往表里插入数据

insert into temp.test1 values('B20220125CDE','20220125','',25,999999999,'sh001_sh001_jiebei_test1','20220125');

4)查看具体文件内容

[zw@hadoop ~]$ hdfs dfs -cat  /user/hive/warehouse/temp.db/test1/table_name=sh001_sh001_jiebei_test1/dt=20220125/000000_0 B20220125CDE2022012525.000000999999999.000000

5)修改字段(删除后两个字段)

alter table temp.test1 replace columns (
     applseq    string    comment '申请号'
    ,data_dt    string    comment '日期'
    ,flag       string    comment '标识')
   ;

6)查看字段

hive> desc temp.test1;
OK
applseq                 string
data_dt                 string
flag                    string
table_name              varchar(50)
dt                      varchar(8)

7)查询数据 (字段已经去掉)

hive> select * from temp.test1;
OK
B20220125CDE 20220125 sh001_sh001_jiebei_test1 20220125

8)查看具体文件内容(文件内容是没有变的)

[zw@hadoop ~]$ hdfs dfs -cat  /user/hive/warehouse/shdata.db/sh001_sh001_jiebei_test1/table_name=sh001_sh001_jiebei_test1/dt=20220125/000000_0
B20220125CDE2022012525.000000999999999.000000

总而言之:

[En]

To sum up:

1)可以用Hive删除字段,会有很大的局限性:

只有最后几个字段可以删除,这样它们才不会被放错位置

[En]

Only the last few fields can be deleted so that they will not be misplaced

如果将中间的字段替换,则会将其放错位置。

[En]

If the field in the middle of the replace, it will be misplaced.

由于数据后台的数据文件不会发生变化,如果中间的字段被替换,查询只会拉取后台数据文件中相应数量的字段的值。

[En]

Because the data file of the data background will not change, if the fields in the middle of the replace, the query will only pull the field values in the background data file of the corresponding number of fields.

官方的话相对明确:

[En]

The official words are relatively clear:

hive 中删除字段/去掉字段

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Add/ReplaceColumns

Original: https://www.cnblogs.com/zhangweimee/p/15843574.html
Author: 醉城、
Title: hive 中删除字段/去掉字段

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/6845/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 2021.10.21 – 学习记录

    2021.10.21 – 学习记录 原创 懒家伙z2022-09-01 15:27:55©著作权 文章标签 学习 前端 加载 最大公约数 后台管理 文章分类 Hadoo…

    大数据 2022年9月4日
    0250
  • 《SpringCloud专题14》-OpenFeign超时控制

    《SpringCloud专题14》-OpenFeign超时控制 原创 熊猫IT2022-06-30 10:41:29博主文章分类:分布式微服务专题 ©著作权 文章标签 spring…

    大数据 2022年9月7日
    0210
  • HBase、Redis、MongoDB、Couchbase、LevelDB主流 NoSQL 数据库的对比

    最近,团队准备启动节点开源项目,从前端亲和力、大数据下的IO性能、可伸缩性三个方面选择NoSQL数据库,但使用哪个产品需要选择一次。 [En] Recently, the team…

    2022年8月8日
    0850
  • 句向量训练总结

    https://zhuanlan.zhihu.com/p/151854074 句向量应用语义搜索,通过句向量相似性,检索语料库中与query最匹配的文本文本聚类,文本转为定长向量,…

    大数据 2022年9月16日
    0250
  • Kylin 与 Spark SQL相比,有哪些差异和优势?

    SparkSQL本质上是基于DAG模型的MPP。而Kylin核心是Cube(多维立方体)。关于MPP和Cube预处理的差异,重复如下: MPP [1] 的基本思路是增加机器来并行计…

    大数据 2022年8月17日
    0280
  • BSS应用程序云原生部署的8大挑战

    云原生部署改变了软件开发。根据云原生计算基金会(CNCF)2021年年度调查,96%的组织正在使用或评估Kubernetes。更确切地说,560万开发者在使用Kubernetes,…

    大数据 8小时前
    010
  • GIT 旧库迁移到新库

    GIT 旧库迁移到新库 原创 dm33442022-06-30 15:24:36博主文章分类:GIT ©著作权 文章标签 推送 git 菜单栏 文章分类 Hadoop 大数据 ©著…

    大数据 2022年9月7日
    0230
  • 大数据:数据仓库 3NF 范式理论

    我都不知道自己在说什么 一、1NF-无重复的列 数据库表的每一列都是不可分割的基础数据项,同一列不能有多个值,即实体中的一个属性不能有多个值或重复的属性。 [En] each co…

    大数据 2022年8月18日
    0540
  • 【C++】如何打印字符数组

    【C++】如何打印字符数组 原创 Bug挖掘机2022-06-23 10:06:09博主文章分类:C++ ©著作权 文章标签 字符数组 16进制 单引号 文章分类 Hadoop 大…

    大数据 2022年9月7日
    0230
  • hbase.client.keyvalue.maxsize的默认值

    指示当列的值大于此值时,将引发异常。查看MaxKeyValueSize后,发现它调用了HBase配置中的hbase.client.keyvalue.max。默认大小为10M,即10…

    大数据 2022年8月8日
    0440
  • 使用jxray分析jvm heap 信息

    很多时候我们的系统jvm 内存涨的比较快我们需要通过一些工具解决,方法还是比较做的比如通过jcmd 或者jprofiler 或者arthas 生成heap 文件,然后就可以使用其他…

    大数据 2022年9月19日
    0140
  • T5模型总结

    T5(Transfer Text-to-Text Transformer )模型:一个统一框架,靠着大力出奇迹, 将所有 NLP 任务都转化成 Text-to-Text (文本到文…

    大数据 2022年9月16日
    0200
  • 92. Reverse Linked List II

    Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Gi…

    大数据 2022年9月4日
    0340
  • 大数据学习笔记——————-(3)

    第3章 Spark安装 Spark是Hadoop的子项目。因此,Spark最好安装在Linux系统。安装步骤如下: Step 1:验证Java安装 安装Spark之前必选安装Jav…

    大数据 2022年9月7日
    0240
  • flexslider+Ajax绑定加载

    You,一直在找答案! You,一直在找答案! You,一直在找答案! You,一直在找答案! 哈哈哈。。。。,你是也遇到了,用Ajax加载时,只能加载一张图片的问题?百度不到答案…

    大数据 2022年9月4日
    0260
  • hive hbase区别

    1、hive是sql语言,通过数据库的方式来操作hdfs文件系统,为了简化编程,底层计算方式为mapreduce。 2、hive是面向行存储的数据库。 3、Hive本身不存储和计算…

    大数据 2022年8月8日
    0540
  • 从零开始实现一个MyBatis加解密插件

    作者:vivo 互联网服务器团队- Li Gang 本篇文章介绍使用MyBatis插件来实现数据库字段加解密的过程。 一、需求背景 公司出于安全合规的考虑,需要对明文存储在数据库中…

    大数据 8小时前
    010
  • .与..的区别

    . 表示当前目录… 表示当前目录的上一级目录。./表示当前目录下的某个文件或文件夹,视后面跟着的名字而定…/表示当前目录上一级目录的文件或文件夹,视后面跟着…

    大数据 2022年9月4日
    0240
  • 日均 6000+ 实例,TB 级数据流量,Apache DolphinScheduler 如何做联通医疗大数据平台的“顶梁柱”?

    作者 | 胡泽康 鄞乐炜 作者简介 胡泽康 联通(广东)产业互联网公司 大数据工程师,专注于开源大数据领域,从事大数据平台研发工作 鄞乐炜 联通(广东)产业互联网公司 大数据工程师…

    大数据 9小时前
    010
  • 计算机会议名称和简写(CV/NLP)

    最近遇到好多会议论文,会议名称不知道是什么,搜集一下供大家查阅。 [En] Recently I have encountered a lot of conference pape…

    大数据 2022年9月16日
    0190
  • 节约性能的一个sql_SAP刘梦

    节约性能的一个sql_SAP刘梦 原创 sapLiuMeng2022-06-10 20:10:53©著作权 文章标签 mysql sql java 订阅号 文章分类 Hadoop …

    大数据 2022年9月7日
    0220
  • HBase与Phoenix表映射

    环境介绍 各组件已经安装完成状态下进行此操作。 先在HBase中建表,后在Phoenix建立同名表,分别使用HBase和Phoenix向表中插入数据,并查看是否正常。 HBase建…

    大数据 2022年8月17日
    0420
  • 一条sql了解MYSQL的架构设计

    1 前言 对于一个服务端开发来说 MYSQL 可能是他使用最熟悉的数据库工具,然而,大部分的Java工程师对MySQL的了解和掌握程度,大致就停留在这么一个阶段:它可以建库、建表、…

    大数据 9小时前
    010
  • CentOS 7 DNS服务器的配置

    一、 安装 yum -y install bind bind-utils 二、 修改配置文件 主配置文件 /etc/named.conf /etc/named.rfc1912.zo…

    大数据 2022年9月4日
    0220
  • alpakka-kafka(7)-kafka应用案例,消费模式

    上篇描述的kafka案例是个库存管理平台。是一个公共服务平台,为其它软件模块或第三方软件提供库存状态管理服务。当然,平台管理的目标必须是共享的,即库存是作为公共资源开放的。这个库存…

    大数据 2022年9月19日
    0280
  • jvm理论-运行时数据区

    三大流行jvm sun HotSpot ibm j9 BEA JRockit Oracle 会基于HotSpot整合 JRockit。 jvm运行时数据区 java虚拟机所管理的内…

    大数据 2022年9月19日
    0260

发表回复

登录后才能评论
免费咨询
免费咨询
扫码关注
扫码关注
联系站长

站长Johngo!

大数据和算法重度研究者!

持续产出大数据、算法、LeetCode干货,以及业界好资源!

2022012703491714

微信来撩,免费咨询:xiaozhu_tec

分享本页
返回顶部