大数据技术笔试题库

一、单选:

1、下列选项中，执行哪一个命令查看Linux系统的IP配置。

A、ipconfig

B、find

C、ifconfig

D、arp -a

2、在MapReduce程序中，map()函数接收的数据格式是（）。

A、字符串

B、整型

C、Long

D、键值对

3、下列选项中，关于HDFS的架构说法正确的是（）。

A、HDFS采用的是主备架构

B、HDFS采用的是主从架构

C、HDFS采用的是从备架构

D、以上说法均错误

4、下列选项中，主要用于决定整个MapReduce程序性能高低的阶段是（）。

A、MapTask

B、ReduceTask

C、分片、格式化数据源

D、Shuffle

5、下列选项中，用于上传文件的Shell命令是（）。

A、-ls

B、-mv

C、-cp

D、-put

6、HDFS中的Block默认保存（）份。

A、3份

B、2份

C、1份

D、不确定

7、下列选项中，若是哪个节点关闭了，就无法访问Hadoop集群（）。

A、namenode

B、datanode

C、secondary namenode

D、yarn

8、下列选项中，Hadoop2.x版本独有的进程是（）。

A、JobTracker

B、TaskTracker

C、NodeManager

D、NameNode

9、Hadoop2.0集群服务启动进程中，下列选项不包含的是（）。

A、NameNode

B、JobTracker

C、DataNode

D、ResourceManager

10、下列选项中，存放Hadoop配置文件的目录是（）。

A、include

B、bin

C、libexec

D、etc

11、Hadoop1.0中，Hadoop内核的主要组成是（）。

A、HDFS和MapReduce

B、HDFS和Yarn

C、Yarn

D、MapReduce和Yarn

12、在MapTask的Combine阶段，当处理完所有数据时，MapTask会对所有的临时文件进行一次（）。

A、分片操作

B、合并操作

C、格式化操作

D、溢写操作

13、一个gzip文件大小75MB，客户端设置Block大小为64MB，占用Block的个数是（）。

A、1

B、2

C、3

D、4

14、下列选项中，哪一项是研究大数据最重要的意义（）。

A、分析

B、统计

C、测试

D、预测

15、Hive定义一个自定义函数类时，需要继承以下哪个类？

A、FunctionRegistry

B、UDF

C、MapReduce

16、Hive最重视的性能是可测量性、延展性、（）和对于输入格式的宽松匹配性。

A、较低恢复性

B、容错性

C、快速查询

D、可处理大量数据

17、在Hadoop的解压目录下，通过执行哪一项指令可以查看Hadoop的目录结构。（）

A、jps

B、ll

C、tar

D、find

18、下列选项中，关于HDFS说法错误的是（）。

A、HDFS是Hadoop的核心之一

B、HDFS源于Google的GFS论文

C、HDFS用于存储海量大数据

D、HDFS是用于计算海量大数据

19、按粒度大小的顺序，Hive数据被分为：数据库、数据表、（）、桶。

A、元祖

B、栏

C、分区

D、行

20、在HDFS中，用于保存数据的节点是（）。

A、namenode

B、datanode

C、secondaryNode

D、yarn

21、下列哪项通常是集群的最主要的性能瓶颈？

A、CPU

B、网络

C、磁盘

D、内存

22、下列选项中，哪项不是Hive系统架构的组成部分？

A、用户接口

B、跨语言服务

C、HDFS

D、底层驱动引擎

23、Hive查询语言和SQL的一个不同之处在于（）操作。

A、Group by

B、Join

C、Partition

D、Union

24、Hive加载数据文件到数据表中的关键语法是？

A、LOAD DATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename

B、INSERTDATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename

C、LOAD DATA INFILE d:\car.csv APPEND INTO TABLE t_car_temp FIELDS TERMINATED BY “,”

D、INSERTDATA [LOCAL] INFILE d:\car.csv APPEND INTO TABLE t_car_temp FIELDS TERMINATED BY “,”

25、下列选项中，哪一个可以对Hadoop集群进行格式化（）。

A、hadoop namenode -format

B、hadoop namenode -ls

C、hdfs datanode -ls

D、hdfs datanode -format

26、下列选项中，一键启动HDFS集群的指令是（）。

A、start-namenode.sh

B、start-datanode.sh

C、start-dfs.sh

D、start-slave.sh

27、关于SecondaryNameNode哪项是正确的？

A、它是NameNode的热备

B、它对内存没有要求

C、它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间

D、SecondaryNameNode应与NameNode部署到一个节点

28、下列选项中，哪个配置文件可以配置HDFS地址、端口号以及临时文件目录（）。

A、core-site.xml

B、hdfs-site.xml

C、mapred-site.xml

D、yarn-site.xml

29、下列说法中，关于客户端从HDFS中读取数据的说法错误的是（）。

A、客户端会选取排序靠前的DataNode来依次读取Block块

B、客户端会把最终读取出来所有的Block块合并成一个完整的最终文件

C、客户端会选取排序靠后的DataNode来依读取Block块

D、如果客户端本身就是DataNode，那么将从本地直接获取数据

30、Hadoop集群启动成功后，用于监控HDFS集群的端口是（）。

A、50010

B、50075

C、8485

D、50070

31、下列说法不正确的是？

A、数据源是数据仓库的基础，通常包含企业的各种内部信息和外部信息。

B、数据存储及管理是整个数据仓库的核心。

C、OLAP服务器对需要分析的数据按照多维数据模型进行重组、分析，发现数据规律和趋势。

D、前端工具主要功能是将数据可视化展示在前端页面中。

32、下列选项中，用于删除HDFS上文件夹的方法是（）。

A、delete()

B、rename()

C、mkdirs()

D、copyToLocalFile()

33、每个Map任务都有一个内存缓冲区，默认大小是（）。

A、128M

B、64M

C、100M

D、32M

34、Hive建表时，数值列的字段类型选取decimal（x,y）与Float、double的区别，下列说法正确的是？

A、decimal（x,y）是整数，Float、double是小数

B、Float、double在进行sum等聚合运算时，会出现JAVA精度问题

C、decimal（x,y）是数值截取函数，Float、double是数据类型

35、下列选项中，关于SSH服务说法正确的是（）。

A、SSH服务是一种传输协议

B、SSH服务是一种通信协议

C、SSH服务是一种数据包协议

D、SSH服务是一种网络安全协议

36、以下选项中，哪种类型间的转换是不被Hive查询语言所支持的？

A、Double—Number

B、BigInt—Double

C、Int—BigInt

D、String—Double

二、填空

答案：

[“主题”, “非易实”]

答案：

[“HDFS集群”]

答案：

[“NAT”]

答案：

[“Shuffle”]

答案：

[“一”]

答案：

[“纵向扩容”]

答案：

[“Derby”]

答案：

[“元数据”]

答案：

[“单词个数”]

答案：

[“_SUCCESS”]

答案：

[“商业版”]

答案：

[“JobTracker”]

答案：

[“sbin”]

答案：

[“DT”]

答案：

[“链接克隆”]

答案：

[“业务”]

答案：

[“HDFS”, “转换”]

答案：

[“嵌入模式”]

答案：

[“Linux”]

答案：

[“联机分析处理OLAP”]

答案：

[“精准营销”, “风险管控”]

答案：

[“Read（读）”]

答案：

[“成百上千台服务器机器”]

答案：

[“hdfs-site.xml”]

答案：

[“数据去重”]

答案：

[“活跃”, “备用/待命”]

答案：

[“map()”, “reduce()”]

答案：

[“分片”]

答案：

[“分而治之”]

答案：

[“排序”]

答案：

[“块数据校验”]

答案：

[“倒排索引”]

答案：

[“高度容错”]

答案：

[“source /etc/profile”]

答案：

[“集群运行模式”]

答案：

[“一次写入，多次读取”]

三、判断

如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。
在Linux中，mkdir命令主要用于在指定路径下创建子目录。
当我们完成Hadoop集群的安装和配置后，就可以直接启动集群。
MapReduce通过TextOutputFormat组件输出到结果文件中。
在HDFS中，namenode用于决定数据存储到哪一个datanode节点上。
因为HDFS有多个副本，所以 NameNode是不存在单点故障的。
Secondary NameNode可以有效缩短Hadoop集群的启动时间。
JobTracker只负责执行TaskTracker分配的计算任务。
Hadoop HA是两台NameNode同时执行NameNode角色的工作。
MapReduce任务会根据机架获取离自己比较近的网络数据。
由于Hadoop是使用Java语言编写的，因此可以使用Java API操作Hadoop文件系统。
Hadoop HA是集群中启动两台或两台以上机器充当NameNode，避免一台NameNode节点发生故障导致整个集群不可用的情况。
启动Hadoop HA后，可通过端口号50070查看当前节点的NameNode状态

19.大数据在医疗行业中可以有效控制疾病的发生

四、简述:

答案：

hadoop-env.sh提供了Hadoop中的JAVA_HOME运行环境变量。

答案：

添加Hadoop环境变量

答案：

大数据在零售行业的具体表现有三个，分别是精准定位零售行业市场、支撑行业收益管理以及挖掘零售业新需求。

答案：

当存储数据块的服务器中突然有一台机器宕机，我们就无法正常的获取文件了，这个问题被称为单点故障

答案：

（1）用户通过用户接口UI将执行的查询操作发送给驱动器执行。

（2）驱动器借助查询编译器解析查询，检查语法和查询计划或查询需求。

（3）编译器将元数据请求发送到Metastore(任何数据库)。

（4）编译器将元数据作为对编译器的响应发送出去。

（5）编译器检查需求并将计划重新发送给驱动器。至此，查询的解析和编译已经完成。

（6）驱动器将执行计划发送给执行引擎执行Job任务。

（7）执行引擎从DataNode上获取结果集，并将结果发送给用户接口UI和驱动器。

答案：

Map阶段：负责将任务分解，即把复杂的任务分解成若干个”简单的任务”来并行处理，但前提是这些任务没有必然的依赖关系，可以单独执行任务。 Reduce阶段：负责将任务合并，即把Map阶段的结果进行全局汇总。

答案：

一旦Active NameNode挂掉后，Standby NameNode就会在它成为Active状态之前读取所有的JournalNodes里的日志信息，这样就能够保证与挂掉的NameNode的目录镜像树一致，然后无缝的接替它的职责，维护来自客户端请求。

答案：

（1）用户通过客户端Client向YARN提交应用程序Applicastion，提交的内容包含Application的必备信息，例如ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。

（2）YARN中的ResourceManager接收到客户端应用程序的请求后，ResourceManager中的调度器（Scheduler）会为应用程序分配一个容器，用于运行本次程序对应的ApplicationMaster。图6-2中的MR App Mstr表示的是MapReduce程序的ApplicationMaster。

（3）ApplicationMaster被创建后，首先向ResourceManager注册信息，这样用户可以通过ResourceManager查看应用程序的运行状态。接下来的第（4）~（7）步是应用程序的具体执行步骤。

（4）ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请资源。

（5）ResourceManager向提出申请的ApplicationMaster分配资源。一旦ApplicationMaster申请到资源后，便与对应的NodeManager通信，要求它启动任务。

（6）NodeManager为任务设置好运行环境（包括环境变量、JAR包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务。

（7）各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。

（8）应用运行结束后，ApplicationMaster向ResourceManager注销自己，并关闭自己。如果ApplicationMaster因为发生故障导致任务失败，那么ResourceManager中的应用程序管理器会将其重新启动，直到所有任务执行完毕。

答案：

在NameNode内部是以元数据的形式，维护着两个文件，分别是FsImage镜像文件和EditLog日志文件。其中，FsImage镜像文件用于存储整个文件系统命名空间的信息，EditLog日志文件用于持久化记录文件系统元数据发生的变化。当NameNode启动的时候，FsImage镜像文件就会被加载到内存中，然后对内存里的数据执行记录的操作，以确保内存所保留的数据处于最新的状态，这样就加快了元数据的读取和更新操作。

答案：

（1）在每台机器上启动Zookeeper服务。

（2）手动启动Journalnode。

（3）格式化NameNode，并且把格式化后生成的目录拷贝到另外一台NameNode上。

（4）格式化zkfc，在Active节点上执行即可。

（5）启动HDFS服务。

（6）启动Yarn服务。

答案：

Hive核心驱动引擎是由编译器（Compiler），优化器（Optimizer），执行器（Executor）组成，它们用于完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成，生成的查询计划存储在HDFS中，并在随后由MapReduce调用执行。

答案：

创建表阶段：外部表创建表的时候，不会移动数到数据仓库目录中（/user/hive/warehouse），只会记录表数据存放的路径，内部表会把数据复制或剪切到表的目录下。删除表阶段：外部表在删除表的时候只会删除表的元数据信息不会删除表数据，内部表删除时会将元数据信息和表数据同时删除。

答案：

HDFS分布式文件系统具有优点和缺点。优点有高容错、流式数据访问、支持超大文件、高数据吞吐量以及可构建在廉价的机器上；缺点有高延迟、不适合小文件存取场景以及不适合并发写入。

答案：

（1）客户端向NameNode发起RPC请求，来获取请求文件Block数据块所在的位置。

（2）NameNode检测元数据文件，会视情况返回Block块信息或者全部Block块信息，对于每个Block块，NameNode都会返回含有该Block副本的DataNode地址。

（3）客户端会选取排序靠前的DataNode来依次读取Block块（如果客户端本身就是DataNode，那么将从本地直接获取数据），每一个Block都会进行CheckSum（完整性验证），若文件不完整，则客户端会继续向NameNode获取下一批的Block列表，直到验证读取出来文件是完整的，则Block读取完毕。

（4）客户端会把最终读取出来所有的Block块合并成一个完整的最终文件

答案：

在SSH中使用密码主要是增加安全性，在某些情况下也根本不会设置密码通信。

答案：

(1) OLTP是传统关系型数据库的主要应用，主要针对的是基本的日常事务处理，例如，银行转账。

(2) OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果，例如，商品的推荐系统。

答案：

getRecordWriter()方法用于返回一个RecordWriter的实例，checkOutputSpecs()方法用于检测任务输出规范是否有效，getOutputCommiter()方法来负责输出被正确提交。

答案：

Hadoop生态体系中常见的子系统：

HDFS分布式文件系统、

MapReduce分布式计算框架、

Yarn资源管理框架、

Sqoop数据迁移工具、

Mahout数据挖掘算法库、

HBase分布式存储系统、

Zookeeper分布式协作服务、

Hive基于Hadoop的数据仓库以及Flume日志收集工具。

答案：

FsImage镜像文件用于存储整个文件系统命名空间的信息，EditLog日志文件用于持久化记录文件系统元数据发生的变化。

答案：

Hive中的元数据通常包括：表名、列、分区及其相关属性（内部表和外部表），表数据所在目录的位置信息。

答案：

MapReduce的工作过程一共有5个步骤，分别是先分片、格式化数据源，再执行MapTask过程，接着执行Shuffle过程，然后执行ReduceTask过程，最后是写入文件操作。

全文参考答案：

Original: https://blog.csdn.net/kese7952/article/details/124745400
Author: 杨校
Title: 大数据技术笔试题库

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/817933/

转载文章受原作者版权保护。转载请注明原作者出处！

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

大数据技术笔试题库

大家都在看