saless.csv数据的导入，清洗，分析，导出，可视化（利用hive，sqoop，mysql工具）

2023年11月13日上午12:07 • 大数据 • 阅读 46

题目描述

样表（sales_sample_20170310）字段说明：

day_id 日期编号；
sale_nbr 卖出方代码；
buy_nbr 买入方代码；
cnt 数量
round 金额

卖出方和买入方又分为 3 种类型：

以’C’开头的表示类型为 C，代表”航空公司”，只可以卖出，不可以买入；
以’O’开头的表示类型为 O，代表”代理人”，既可以卖出，也可以买入，并且允许自己卖给自己（简单来讲：每个”代理人”代码可能对应多个售票点，售票点之前有交换票的情况，所以体现为自己卖给了自己）；
‘PAX’表示类型为 PAX，代表”旅客”，只可以买入，不可以卖出。

举例：

day_id,sale_nbr,buy_nbr,cnt,round1,C1,O1001,1,360
卖出方为 C1，类型为 C；买入方为 O1001，类型为 O
day_id,sale_nbr,buy_nbr,cnt,round1,O100,O100,4,2000
卖出方为 O100，类型为 O；买入方为 O100，类型为 O（即自己卖给自己是允许的）
day_id,sale_nbr,buy_nbr,cnt,round1,O100,PAX,4,2000
卖出方为 O100，类型为 O；买入方为 PAX，类型为 PAX

问题：

1、数据导入：
要求将样表文件中的（sales_sample_20170310）数据导入 HIVE 数据仓库中。

2、数据清洗：
要求将 day_id 一列中的数值清洗为真实的日期格式，可用字符串表示。
数据 1 对应日期 2021-09-01，依次类推，15 对应日期 2021-09-15

3、数据分析处理：

（1）统计每天各个机场的销售数量和销售金额。
要求的输出字段
day_id,sale_nbr,cnt,round
日期编号，卖出方代码，数量，金额
（2）统计每天各个代理商的销售数量和销售金额。
要求的输出字段
day_id,sale_nbr,cnt,round
日期编号，卖出方代码，数量，金额
（3）统计每天各个代理商的销售活跃度。
要求的输出字段
day_id,sale_nbr, sale_number
日期编号，卖出方代码，交易次数（买入或者卖出均算交易次数）
（4）汇总统计 9 月 1 日到 9 月 15 日之间各个代理商的销售利润。
编号，卖出方代码，买入数量，买入金额，卖出数量，卖出金额，销售利润（卖出金额-买入金额）
（5）设计分析代理商的市场地位根据市场交易次数、交易对象个数、销售机票数量、销售利润等（选做题）

4、处理结果入库：
将上述统计分析的结果数据保存到 mySQL 数据库中。

5、数据可视化展示：
利用 Echarts 将上述统计结果以图形化展示的方式展现出来：饼图、柱状图、地图、折线图等。

hadoop配置

首先安装好hadoop，我参考的b站视频：

Hadoop保姆级超详细安装教程

登录3台虚拟机（均可联网）：

主机（有桌面，Firefox）：

saless.csv数据的导入，清洗，分析，导出，可视化（利用hive，sqoop，mysql工具）

从机1（无桌面）：

从机2（无桌面）：

注：打开主机终端方式如下

vi /etc/hosts查看master的host文件：

之后 ping s1，没问题

可是xshell连接失败：

记得开启了 sshd 服务，再检查一遍，发现果然已经启动了：

之后发现子网ip竟然和上面的不对应，改过来就好了（记得不仅要重启虚拟机，还要重启电脑）

这样就可以了：

输入命令 start-all.sh启动hadoop：

输入 jps有：

通过 hadoop jar ~/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar命令看一下里面example里面自带的一些程序：

用 hadoop jar ~/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar pi 10 10尝试计算圆周率：

输入 http://master:8088/cluster，访问集群，可以看到执行的这个任务：

输入 http://master:50070/explorer.html#/wordcount/output，可以看到我之前操作的一些文件信息：

; hive配置

我参考的b站视频：

【Hive教程】

hive版本要和自己的hadoop版本符合才可以：

https://hive.apache.org/downloads.html

https://dlcdn.apache.org/hive/hive-2.3.9/

启动hive

create table test(id int);建立一个test表

insert into test values(1);向test表中插入数据1

下载可以看到

; mysql配置

我参考的b站视频：

尚硅谷大数据Hive教程

输入 schematool -initSchema -dbType mysql -verbose初始化hive元数据库：

再次启动hive：

create table test(id int);建立一个test表；
insert into test values(1);向test表中插入数据2

select * from test;查询，神奇的发现1这个数据还在

所以我们可以认为，只要往原路径下放数据，它均可以查到，而且建表和放数据的顺序随意

我们看下mysql数据库：

; 完成问题1，2

在hive里面建表：

具体语法可看：Hive建表语句详解–CREATE TABLE

create table test0 (
    day_id string,
    sale_nbr  string,
    buy_nbr  string,
    cnt  int,
    round double
)
ROW format delimited fields terminated by ',' STORED AS TEXTFILE;

结果：

hadoop fs -put /opt/software/sales.csv /user/hive/warehouse/test0导入sales.csv文件；
select * from test0 limit 10;查看前10条记录：

然后把日期清洗成标准格式：

cast()函数用法可看：mysql cast( as int) error_Mysql SQL CAST()函数

insert overwrite table test0
    select date_add('2021-09-00',cast(day_id as int)) as day_id,
    sale_nbr as sale_nbr,
    buy_nbr as buy_nbr,
    cnt as cnt,
    round as round
from test0;

结果：

select * from test0 limit 10;
查看前10条记录：

zookeeper、hbase配置

借鉴：

【ZooKeeper】安装教程
 hbase安装教程（操作简单可复制，含zookeeper安装）
zookeeper快速入门一：zookeeper安装与启动

zkServer.sh start

start-hbase.sh

; sqoop配置

sqoop要和hadoop版本对应，这里下的1.4.7版本

http://archive.apache.org/dist/sqoop/1.4.7/

将文件放进Linux：

之后借鉴博客：

Sqoop安装与配置

vi ~/.bash_profile配置环境变量， source ~/.bash_profile使其立即生效：

vi sqoop-env.sh修改已经安装了的Hadoop组件

发现有一些警告，想要去除（但是我hbase和zookeeper都配了，hbase都识别了，zookeeper却识别不了，吐了）：

借鉴：解决安装sqoop后出现一些警告提示

之后就可以了：

; 利用sqoop将hive数据导出到mysql

借鉴博客：

利用sqoop将数据从hive导入mysql时报错

利用sqoop将hive数据导入导出数据到mysql

列出mysql数据库中的全部数据：
sqoop list-databases --connect jdbc:mysql://master:3306/ --username root --password xxx

将hive中的表数据导入到mysql中（表结构就跟你hive一样就行）：

之后执行sql：

bin/sqoop export

sql语句解释：

bin/sqoop export
–username root
–password xxx
–table test0
–export-dir /user/hive/warehouse/test0
–input-fields-terminated-by ","

运行结果：

排查原因，发现由于hive表里面没有主键，因此mysql里面不应该有主键，应该把主键去了：

之后执行代码：

结果如下：

注

对于之后的问题，做完会同步到博客上

Original: https://blog.csdn.net/qq_45550375/article/details/125748097
Author: 阅读，动手
Title: saless.csv数据的导入，清洗，分析，导出，可视化（利用hive，sqoop，mysql工具）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/817891/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Hadoop HA(高可用)、脑裂、联邦机制详解

Hadoop HA(高可用) 一、hadoop1.x的问题 1.单点故障每个集群只有一个NameNode，NameNode存在单点故障（SPOF）如果该计算机或者NameNod…

大数据 2023年6月2日
0097
Android Room之数据库加密

一、需求背景 Android平台自带的SQLite有一个致命的缺陷：不支持加密。这就导致存储在SQLite中的数据可以被任何人用任何文本编辑器查看到。如果是普通的数据还好，但是当涉…

大数据 2023年11月11日
0037
微生物组和组学成分数据分析之ALR对数转换

谷禾健康编辑微生物组和组学数据集，由于其生物学性质，通常是高维的，特征常以各种成分，如基因、OTU、RNA转录本等的计数为特征。这些数据统称为成分数据。这类数据分析的…

大数据 2023年5月28日
0086
redis死链 org.springframework.dao.QueryTimeoutException: Redis command timed out； nested exception

大数据 2023年11月15日
0037
Kafka学习笔记——存储结构

1，由cdh安装的kafka的默认存储路径如图所示在/var/local/kafka/data，一般会进行修改 kafka配置参考：apache kafka系列之server.pr…

大数据 2023年5月28日
00140
Redis架构之哨兵机制与集群

Redis架构之哨兵机制与集群哨兵机制 1、介绍： Sentinel（哨兵）是redis高可用性解决方案：由一个或多个由一个或多个Sentinel 实例组成的Sentinel …

大数据 2023年6月2日
0078
实体联系模型

文章目录一、前言概述二、属性三、联系四、弱实体五、案例一六、案例二七、练习题一、前言概述数据模型分两种： …

大数据 2023年5月26日
0089
Failed to create Spark client for Spark session/30041Code

记录排错历程问题简介：根据尚硅谷数仓4.0学习集群运行了一段时间，可以正常使用spark运行，出现阶段运行情况的红色框，但是不知道为什么突然有一次，返回30041code，无法运…

大数据 2023年11月12日
0028
Docker容器中安装vim

注：如果没有vim，请预先安装vim，执行如下命令： apt-get install vim 在使用docker容器时。有时候里边没有安装vim。敲vim命令时提示说：vim: c…

大数据 2023年5月29日
0070
通过Thread Pool Executor类解析线程池执行任务的核心流程

今天，我们通过Thread Pool Executor类的源码深度解析线程池执行任务的核心流程，小伙伴们最好是打开IDEA，按照步骤，调试下Thread Pool Executor…

大数据 2023年6月2日
0064
Docker与iptables 只允许特定ip访问Docker的服务通过iptables限制docker容器端口

怎样只允许特定ip访问Docker的服务？通过iptables限制docker容器端口方法一： Docker与iptables （&a…

大数据 2023年5月29日
00151
gzip 介绍和使用

压缩一个tar备份文件，此时压缩文件的扩展名为.tar.gz gzip -r log.tar 递归的压缩目录 gzip -rv test 这样，所有test下面的文件都变成了 .g…

大数据 2023年5月26日
0064
专项测试之「性能测试」总结

性能测试总结目录性能测试总结 1、性能测试概念 2、性能测试的种类 3、性能测试关注角度 4、性能测试工具 5、性能测试指标 …

大数据 2023年5月26日
0091
Spark学习笔记(三)：使用Java调用Spark集群

大数据 2023年11月16日
0058
小白自我提高学习设计模式笔记（三）—装饰者模式在Android开发的小试

结合着Android源码把所有的设计模式总结一下。小白自我提高学习设计模式笔记（三）—装饰者模式在Android开发的小试在小白自我提高学习设计模式笔记（二）—装饰者模式中主…

大数据 2023年11月11日
0025
macOS Monterey 12.5 (21G72) Boot ISO 原版可引导镜像

今日（2022-07-21）凌晨，Apple 终于发布了 macOS Monterey 12.5，包括功能增强、错误修复和安全性更新。macOS Monterey 12.5 自 2…

大数据 2023年6月3日
00114

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30