简答题数据挖掘

简答题

数据质量涉及的因素:准确性,完整性,一致性(采集角度),时效性,相关性(应用角度),可信性,可解释性(用户角度)

数据清理:试图填充空缺的值、识别孤立点、消除噪声,并纠正数据中的不一致性

数据集成:将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源

数据规约:用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同

数据变换:将数据转换或统一成易于进行数据挖掘的数据存储形式,使得挖掘过程可能更有效

缺失值处理策略:

忽略元组

人工填写

使用全局常量代替

属性的中心度量来填充

使用于给定元组同一类的所有样本平均值

使用最可能的值

噪声值处理策略:

分箱法、回归、聚类

转换是ETL 解决方案中最主要的部分,它负责处理抽取、转换、加载各阶段对数据行的各种操作。

转换包括一个或多个步骤。转换中的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。

数据清理,就是试图检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声,解决数据的一致性、唯一性问题,从而达到提高数据质量的目的。

①将一行记录拆分为多行记录,新的记录里有新的字段,由拆分后的子字符串填充;

②拆分方式可根据分隔符进行拆分,其中分隔符支持正则表达式;

③被拆分的源字段仍保留在新纪录里;

①将指定的输入字段根据分隔符拆分成多个字段;

②被拆分的字段将不复存在;

③分隔符不支持正则表达式;

写出下面这个作业的执行顺序。

(1)首先”开始”作业项搜索所有下一个节点作业项,找到了”A”和”C”。

(2)执行”A”。

(3)搜索”A”后面的作业项,发现了”B”。

(4)执行”B”。

(5)搜索”B”后面的作业项,没有找到任何作业项。

(6)回到”A”,也没发现其他作业项。

(7)回到”START”,发现另一个要执行的作业项”C”。

(8)执行”C”。

(9)搜索”C”后面的作业项,没有找到任何作业项。

(10)回到”START”,没有找到任何作业项。

(11)作业结束。

事实表存放各种业务数据。事实数据表包含特定业务事件的数据。

第二章

1.Kettle是一个 程序

A.Java

B.Python

C.JavaScipt

D.C++

2.转换是ETL解决方案中最主要的部分,它负责处理 、 、 各阶段对数据行的各种操作

抽取、转换、加载

转换、加载、抽取

加载、抽取、转换

加载、转换、抽取

4.跳定义了一个 ,允许数据从一个步骤向另一个步骤流动

单向通道

双向通道

5.在Kettle里,数据的单位是 ,数据流就是数据行从一个步骤到另一个步骤的移动

单元格

6.数据流的另一个同义词就是 。

记录流

数据库

  1. 是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步骤的参数,使得它完成相应的功能。

  2. 步骤可以从指定的数据库中读取指定关系表的数据

表输入

Excel输入

CSV文件输入

OLAP 输入

9.步骤需要有一个 的名字

唯一性

个性化

功能化

以上都是

10.一个跳,相对于输出数据的步骤而言,为 跳;相对于输入数据的步骤而言,为 跳。

输出、输入

输入、输出

11.一个步骤的数据发送可以被设置为 和 。

轮流发送、复制发送

多次发生,单次发送

  1. 是将数据行依次发给每一个输出跳, 是将全部数据行发送给所有输出跳

轮流发送、复制发送

复制发送、轮流发送

单次发送,多次发送

多次发送,单次发送

13.在运行转换时,一个线程运行一个步骤,所有步骤的线程几乎 运行

14.从程序执行的角度看, 实际上是两个步骤线程之间进行数据行传输的缓存。这个缓存被称为

跳、行集

箭头、队列

连线、内存

15.Kettle使用图形化的方式定义复杂的ETL程序和工作流,所以被归类为 编程语言。

可视化

控件化

图标化

流程式

环境变量配置、命名参数

17.环境变量具有 性质,配置后的环境变量对所有转换、作业都可用、有效;命名参数具有 性质,仅对当前转换、作业有效。

全局、局部

18.Kettle不是开源软件。

True

False

19.Kettle使用Java编写的非可视化工具。

True

False

20.Kettle中的步骤是顺序执行的。

True

False

21.Kettle中的步骤是并行执行的。

True

False

22.步骤的名称具有唯一性。

True

False

23.什么是转换?

转换是ETL 解决方案中最主要的部分,它负责处理抽取、转换、加载各阶段对数据行的各种操作。

24.什么是跳?

您的答案:

转换里的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。

25.Kettle的参数配置分为哪两类,并简述每一类的作用范围。

Kettle 的参数配置分为环境变量配置和命名参数两类。环境变量具有全局性质,配置后的环境变量对所有转换、作业都可用、有效;命名参数具有局部性质,仅对当前转换、作业有效。

第三章

1.文本文件主要分为 和 两大类。

分隔符文件、固定宽度文件

2.CSV文件是一种用 分割的文本文件。

分隔符

3.Excel的数据可分为 的表格数据和 的表格数据。

结构化、非结构化

4.Kettle提供了 和 步骤从Web上获取数据。

HTTP Client 、HTTP Post

5.查询类的步骤,需要一个 类的步骤来激活。

6.基本上CDC可以分为两种,一种是 的,另一种是 的。

侵入性、非侵入性

和 。

时间戳、自增序列

8.当INSERT、UPDATE、DELETE等SQL进行执行时,可以触发数据库自有的 ,并执行

触发器

9.Kettle里的 步骤就可以用来比较两个表的差异。

合并记录

10.基于 的具有侵入性的CDC操作,可以实时监测到源数据的变化。

触发器

11.基于 的CDC操作是非侵入性的。

物理、逻辑

13.基于源数据的CDC不适用于实时数据捕获,适用于 操作。

14.XML文件不是普通的文本文件,而是一种遵循规范的 的文本文件。

半结构化

15.对于JSON文件,Kettle可以用 和 步骤完成文件的读取与输出。

JSON Input 、JSON Output

16.在”数据库连接”窗口中,在一个作业或转换范围内连接名称不能重复。

True

False

17.查询类的步骤不需要激活,可以直接运行。

True

False

18.触发器的CDC的可以实时监测到数据的所有变化。

True

False

19.在ETL工作中,我们常常面临着处理各种类型的文件场景,请列举几个文件类型。

TXT 、CSV 、Excel 、XML 、JSON

20.什么是CDC?

识别出变化的数据并只导入这部分数据被称为变化数据捕获(Change Data Capture )即CDC

21.CDC操作分为哪四种,并标明是否是侵入性的。

基于源数据的CDC ,侵入性;基于触发器的CDC ,侵入性;基于快照的CDC ,侵入性;基于日志的CDC ,非侵入性

22.简述基于源数据的CDC操作的缺点。

区分插入和更新操作;不能捕获到物理删除操作,但是可以捕获到逻辑删除;如果在一个同步周期内,数据被更新了多次,那么只能同步最后一次的更新操作,中间的更新操作都无法导入;时间戳和基于序列的CDC 操作不适用于实时场景下的数据导入,一般只适用于批量操作。

23.简述基于触发器的CDC操作的优缺点。

优点:可以实时监测到数据的所有变化

缺点:因为要变动源数据库,服务协议或者数据库管理员不允许,所以在大多数情况下,不允许向数据添加触发器,而且这种方法还会降低系统的性能。

24.简述基于日志的CDC操作的优缺点。

优点:基于日志的方式是最高级的、最没有侵入性的CDC 方法;

缺点:只能用来处理一种特定的数据库

1-3

1.转换里的步骤通过___ 来连接

2.转换创建并保存后的文件后缀名是

ktr

kjb

kbj

krt

3.转换是ETL解决方案中最主要的部分,它负责处理 _____ 各阶段对数据行的各种操作

抽取、转换、加载

转换、加载、抽取

加载、抽取、转换

加载、转换、抽取

4.下列方法不是数据变换的有

规范化

属性构造

5.以下说法错误的是

主成分分析、属性子集选择为维归约方法

直方图、聚类、抽样和数据立方体聚集为数量归约方法

用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间

数据集成有助于减少结果数据集的冗余和不一致,这有助于提高其后挖掘过程的准确性和速度

6.下列关于为什么要做数据清理描述错误的是

数据有重复

数据有错误

数据有缺失

数据量太大

7.有关Kettle说法错误的是

在Kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动

利用Kettle,可以快速构建复杂的ETL作业和降低维护工作量

Kettle 可以创建的转换是由一个或多个作业构成的

转换里的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动

8.下列关于数据离散化描述错误的是

通过分类、决策树和相关分析离散化

在z分数规范化(或零-均值规范化)中,基于A的平均值和标准差离散化

通过分箱离散化

通过直方图分析离散化

9.哪一个选项不是数据集成会遇到的问题

实体识别问题

属性子集选择

冗余和相关分析

数据值冲突的检测与处理

10.下面有关关系型数据库的说法不正确的是?

“数据库连接”窗口中连接名称必须在作业或转换范围内唯一的名称

可以在”选项”中设置编码格式

主机名称、用户名和密码均不可使用变量

端口号一般是选中的数据库服务器的默认端口号

11.在数据预处理阶段,数据类型被统一,使得挖掘过程可能更有效,挖掘的模式可能更容易理解,这个过程被称为

数据清理

数据集成

数据规约

数据变换

12.在Kettle里,数据的单位是___ ,数据流就是数据行从一个步骤到另一个步骤的移动

单元格

13.下面哪一项不是缺失值的方法

忽略元组

人工填写

采用全局常量来替换空缺值

14.以下说法错误的是

数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约.

数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用。

冗余数据的删除既是一种数据清理形式,也是一种数据归约

整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流

15.基于CDC的数据导入导出,哪一个是不属于侵入性

基于源数据

基于触发器

基于快照

基于日志

16.在”数据库连接”窗口中,在一个作业或转换范围内连接名称不能重复

17.Kettle中的步骤是顺序执行的

18.Kettle提供了大量的数据清洗步骤,没有必要再使用脚本组件来做数据清理

19.Kettle是一个python程序

20.基于时间戳的CDC操作,不能捕获物理删除的数据,可以捕获逻辑删除的数据

21.步骤的名称在转换或作业范围内具有唯一性

22.Kettle使用Java编写的非可视化工具

23.Kettle不是开源软件

24.数据预处理的四阶段流程并不是完全分开的,在某种场景下是可以一起使用的

25.从数据应用的角度来说,影响数据质量的因素有一致性

26.Kettle里的变量分为两种__,在kettle.properties中配置后的环境变量对所有转换、作业都有效,在命名参数中配置,仅对当前转换、作业有效

27.___是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步骤的参数,使得它完成相应的功能

28.数据预处理目的:______

提升数据质量

29.__定义了一个单向通道 ,允许数据从一个步骤向另一个步骤流动

30.基本上CDC可以分为两种,一种是 _的,另一种是_

侵入性

非侵入性

31._______步骤可以从指定的数据库中读取指定关系表的数据

表输入

32.噪声处理的方法是___、_____和聚类。

分箱法

33.简述基于源数据的CDC操作的缺点

区分插入和更新操作;不能捕获到物理删除操作,但是可以捕获到逻辑删除;如果在一个同步周期内,数据被更新了多次,那么只能同步最后一次的更新操作,中间的更新操作都无法导入;时间戳和基于序列的CDC 操作不适用于实时场景下的数据导入,一般只适用于批量操作

34.简述数据清理的策略

缺失值处理策略:

忽略元组

人工填写

使用全局常量代替

属性的中心度量来填充

使用于给定元组同一类的所有样本平均值

使用最可能的值

噪声值处理策略:

分箱法、回归、聚类

35.数据预处理流程有哪些,并请对其解释

数据预处理流程有:数据清理、数据集成、数据归约、数据变换

数据清理:试图填充空缺的值、识别孤立点、消除噪声,并纠正数据中的不一致性

数据集成:将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源

数据规约:用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同

数据变换:将数据转换或统一成易于进行数据挖掘的数据存储形式,使得挖掘过程可能更有效

36.从不同的角度说明影响数据质量的因素

采集角度:准备性、完整性、一致性

应用角度:相关性和时效性

用户角度:可信性和可解释性

37.什么是CDC(变化数据捕获)

识别出变化的数据并只导入这部分数据被称为变化数据捕获(Change Data Capture )即CDC )

第四章

1.下列关于为什么要做数据清理描述错误的是

数据有重复

数据有错误

数据有缺失

数据量太大

2下列关于数据清理描述错误的是()

数据清理能完全解决数据质量差的问题

数据清理在数据分析过程中是不可或缺的一个环节

数据清理的目的是提高数据质量

可以借助Kettle来完成大量的数据清理工作

3下列关于使用参照表清洗数据说法错误的是()

有些数据无法从内部发现错误,需要结合外部的数据进行参照

只要方法得当,数据内部是可以发现错误的,不需要借助参照表

使用参照表可以处理数据的一致性

使用参数表可以校验数据的准确性

4在Kettle中,不存在单一的清洗步骤,清洗工作往往需要结合多个步骤才能组合完成。

True

False

5.在使用表输入步骤进行数据抽取时,应尽量避免使用复杂的SQL语句进行数据筛选。

True

False

6由于大部分的数据都是准确无误的,存在问题的数据只占极少部分,只要数据分析的方式正确,是不需要进行数据清理的。

True

False

7.Kettle中,参照数据流到流查询步骤对应的跳上会出现一个”i”标识。

True

False

8.Kettle提供了大量的数据清洗步骤,没有必要再使用脚本组件来做数据清理。

True

False

9.重复数据分为哪两类:__

完全重复数据、不完全重复数据

10.Kettle目前的版本中提供了三个关于字符串清洗的步骤,分别是_步骤、_步骤和字符串剪切步骤

字符串操作、字符串替换

11.Kettle提供的字符串替换步骤的功能非常强大,主要是因为该步骤支持____。

正则表达式

12需要将一个行记录拆分成多行记录时,可以选择_步骤;需要将一个字段拆分成多个字段时,可以选择_步骤。

拆分字段成多行、拆分字段

13在Kettle中,提供了两个可以比较相似度的步骤,它们分别是__

计算器步骤、模糊匹配步骤

14 数据清理主要目的是什么?

数据清理,就是试图检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声,解决数据的一致性、唯一性问题,从而达到提高数据质量的目的。

15请简单描述下如何去除不完全重复数据?

第一步,选定一个或多个字段,使用模糊匹配步骤找出疑似重复数据的记录

第二步,选定一个或多个字段做为参考字段,进一步检测数据的可能重复性

第三步,去除或者合并这些疑似重复的记录,这一步是非常关键的一步,需要结合多方面的因素进行综合评估,最终才能确定一个合并/去除的方案。

第五章

1.作业有()、()、注释组成。

作业项 跳

2.作业创建并保存后的文件后缀名是( )。

kjb

3.作业执行顺序由作业项之间的()和每个作业项的()来决定。

跳 执行结果

4.作业的()是作业之间的连接线,它定义了作业的()。

跳 执行路径

5.跳的两种状态分别是()与()。

可用 不可用

6.kettle使用一种( )算法来执行作业里的所有作业项。

7.会速算法的两个特征是:作业运行结果不是()、运行结果保存在()里。

唯一的 内存

8.作业的并行执行是指:两组作业项几乎(),且每组作业项独立运行在两个()中,互不影响

同时启动 线程

9.()作业项是一个作业的起点。它的作用是设置作业的()

START 定时调度

10.如果定义了变量”hostname”,那么在程序中引用的格式是()。

${hostname}

11.作业的监控有2种:()和()。

日志 邮件

12.作业中的注释是可有可无的,因此它不重要。

True

True

14.在一个作业中,START作业项可以多次出现。

False

15.变量是一个任意长度的字符串值,它有自己的作用范围。

True

16.在kettle中所有文本输入框都可以使用变量。

False

17.作业项有哪些不同于转换步骤?

可以影子拷贝;作业项之间传递一个结果对象;可以并行执行。

18.作业跳对作业项对运行结果的判断有哪三种方式?您的答案:

无条件的;当结果为真的时候继续下一步;当结果为假的时候继续下一步。

19.写出下面这个作业的执行顺序。

(1)首先”开始”作业项搜索所有下一个节点作业项,找到了”A”和”C”。

(2)执行”A”。

(3)搜索”A”后面的作业项,发现了”B”。

(4)执行”B”。

(5)搜索”B”后面的作业项,没有找到任何作业项。

(6)回到”A”,也没发现其他作业项。

(7)回到”START”,发现另一个要执行的作业项”C”。

(8)执行”C”。

(9)搜索”C”后面的作业项,没有找到任何作业项。

(10)回到”START”,没有找到任何作业项。

(11)作业结束。

第六章

1.数据仓库主要有事实表和维度表组成,维表主要存放各类属性,事实表主要存放业务数据

True

2.业务键和代理键都通过ETL生成。项目中,我们要确保业务键的唯一性。

False

3.身份证号、手机号、学号等是常见的代理键。

False

True

5.缓慢变化维,主要分为三种,其中类型2当前最新数据会覆盖旧数据。

False

6.缓慢变化维类型3:业务主体数据发生变化时,用当前最新数据生成新的记录,并且在该行记录中记录上一个版本部分关键信息。

True

7.事务事实表记录的是事务层面的事实,保存的是最原子的数据,也称”原子事实表”。

True

8.下列说法错误的是(A)

A、 数据仓库就是数据库。

B、 业务键通常来源于业务系统

C、 事实表加载前,先加载维表

D、星型模型的各个维表之间没有依赖关系

9.以下说法错误的是()

A、 雪花模型有多个相互依赖的维表,加载时要注意先后顺序

B、 雪花模型是在基于星型模型之上拓展来的,每一个维度可以再扩散出更多的维度,根据维度的层级拆分成颗粒度不同的多张表

C 、 事实表和维表之间通过业务键关联

D、 雪花模型的主维表和非维表之间是N对1的关系

10.以下说法错误的是( )

A、 时间、日期维属于生成维

B、 混合维较少用,实现比缓慢变化维中的类型1、类型2、类型3三种类型复杂。

C 、 杂项维的属性通常可以分为特定的几个分类

类型2缓慢变化维,不会直接覆盖以前的版本,每次更新会生成新的记录

11.以下说法正确的是( )

A、 事实表的批量加载,我们使用”表输出”即可

B 、 对传统数据库进行DML 操作时,会产生大量日志数据

C、 对传统数据库进行DML操作时,数据库管理系统不会进行约束性检查

D、 Kettle提供了SQLServer数据库的批量加载控件

12.以下说法错误的是()

A、 查找维度时,要正确的查找代理键

B、 查找维度时,注意数据完整性问题

C 、 数据延迟主要是指事实表数据延迟

D、 先加载维度表,接着加载事实表

13.以下说法错误的是()

A、 事实表中,数据粒度很细,这类通常是事务型事实表

B、 累积快照事实表,数据生成后,后续经常有变化

C、 周期快照事实表,通常是汇总的数据。

D 、事实表的数据不能有多个副本

14.业务键和代理键都通过ETL生成。项目中,我们要确保业务键的唯一性。

False

15.缓慢变化维,主要分为三种,其中类型2当前最新数据会覆盖旧数据。

False

16.缓慢变化维类型1,数据发生变化时,保存多个历史版本。

False

17.缓慢变化维类型3:用当前最新数据生成新的记录,并且在该行记录中记录上一个版本部分关键信息。

True

True

19.以下说法错误的是()

A、 雪花模型有多个相互依赖的维表,加载时要注意先后顺序

B、 雪花模型是在基于星型模型之上拓展来的,每一个维度可以再扩散出更多的维度,根据维度的层级拆分成颗粒度不同的多张表

C 、 事实表和维表之间通过业务键关联

D、 雪花模型的主维表和非维表之间是N对1的关系

20.以下说法错误的是( )

A、 时间、日期维属于生成维

B、 混合维较少用,实现比缓慢变化维中的类型1、类型2、类型3三种类型复杂。

C 、 杂项维的属性通常可以分为特定的几个分类

D、 类型2缓慢变化维,不会直接覆盖以前的版本,每次更新会生成新的记录

21.以下说法错误的是()

A、缓慢变化维类型3,适用于:不希望历史记录全部被覆盖,但也不希望每个版本都保存,希望维护更少的历史记录

B 、”插入/更新”步骤中,需要设置更新关键字及更新字段,通常使用的是代理键

C、更新缓慢变化维2时,需要”维度查询/更新”步骤

D、杂项维维表更新是,一般需要”联合查询/更新”控件

22以下说法正确的是(ABD )

A、 查找维度时,要正确的查找代理键

B、 查找维度时,注意数据完整性问题

C、 数据延迟主要是指事实表数据延迟

D、 先加载维度表,接着加载事实表

23以下说法正确的是(ABCD)

A、 事实表中,数据粒度很细,这类通常是事务型事实表

B、 累积快照事实表,数据生成后,后续经常有变化

C、 周期快照事实表,通常是汇总的数据。

D、以上都正确

24以下选项属于数据仓库特点的是(ABCD)

A、 面向主题的

B、 集成的

C、 相对稳定的

D、 反映历史变化

25事务型事实表的数据被插入,数据就不再进行更改,其更新方式为____

增量更新

26雪花模型中和事实表关联的维表称为____

主维表

27星型模型中,事实表和维表通过____关联

代理键

28如果要统计同比、环比数据,使用哪种类型事实表最适合?

周期快照事实表

29批量加载数据到事实表时,通常需要需要使用批量加载控件,为什么不用”表输出”控件? 批量加载控件有什么特点?

“表输出”中,对数据库操作是基于dml 语句实现的,对数据库进行dml 操作会带来两个问题:

1 、执行insert 、update 、delete 等操作时,数据库管理系统会往日志文件写日志,dml 语句操作的数据量越大,对应的日志文件就越大。

2 、执行insert 、update 、delete 等操作时,数据库管理系统会进行约束性检查,比如主键约束、外键约束、唯一性约束、检查约束等。约束性检查,是一项费时的工作,通常比操作数据耗费更多的时间。

大量的写日志和约束性检查,会严重影响数据库数据性能,显然不适用于大量数据加载的情况。

批量加载控件和”表输出”控件原理不同,对数据操作不是基于DML 语句的。例如,oracle 数据库通过SQL*Loader 实现批量数据加载,不产生日志文件、不对数据约束进行检查 从而大大加快加载速度。

第七章

1.pandas提供了两种主要的数据结构: Series和 DataFrame。

2.Series是一种类似于 数组 的一维数据结构,包含了一系列的 元素 以及元素对应的标签。

3.Series对象没有指定index时,默认创建的index是从 0 到 N-1 的整数值,其中N是Series对象的元素个数。

4.获取Series对象s的index值的写法是 s.index,获取元素值的写法是 s.values。

5.s2 = Series([3, 8, -5, 1], index=[‘d’, ‘b’, ‘a’, ‘c’]), s2[3]返回的是 1 ,s2[‘a’]返回的值是 -5 ,s2>0返回的元素是bool类型。

6.DataFrame是一种带标签的 二 维数据结构,其中各列可以存储 不同的数据类型。

7.pandas提供了 read_csv函数,用于导入csv文件,并得到一个 DataFrame 对象。

a,b,c,d。

9.使用isnull()函数判断DataFrame对象中的

缺失值(空缺值)

10.pandas的导出csv文件的函数是 to_csv,其中指定分隔符的参数名是 sep ,不希望输出索引是,可设置参数index= False。

11.json模块的 load 函数能够导入JSON数据,返回值是一个 dict 对象。

12.pandas通过 ExcelFile类提供了对Excel文件的基本支持。这个类在内部使用 xlrd和openpyxl包来操作Excel文件,因此需要首先安装这两个包。

13.数据库通常可分为两大类型,一类是基于SQL的 关系型数据库,另一类被称为NoSQL,属于 非关系型数据库。

14.Series对象的index可以通过赋值来改变。

True

False

15.在创建DataFrame时,如果columns参数中指定的列不存在,那么创建的DataFrame对象中的对应列值均为NaN,表示一个不可用的值。

True

False

16.1 / 1 分

在读取csv文件时,read_csv函数中参数header=None表示让pandas不指定列名。

True

False

17.pandas.read_csv(‘test.csv’, skiprows=[0,2,3]),skiprows的作用是忽略指定行。

True

False

18.与文件相比,使用数据库管理数据能够获得更快的访问速度,更方便的访问接口,更可靠的数据完整性。

True

False

DataFrame 是一种表格型数据结构,它含有一组有序的列,每列可以是不同的值。DataFrame 既有行索引,也有列索引,这些索引可以看作是由Series 组成的字典。

导入pandas模块并设置别名为pd,请写出代码。

import pandas as pd

20.操作csv文件,按下面的步骤完成代码:

假设现有一个名为csv的文件,请使用pandas的read_csv函数导入,并设置分隔符是”;”,且没有列名,最后赋值给变量df。

df = pd.read_csv(‘test.csv’, sep=’;’, header=False)

21.操作csv文件,按下面的步骤完成代码。

设置df的列名,列名的列表为[‘one’,’two’,’three’]

df.columns = [‘one’,’two’,’three’]

22.操作csv文件,按下面的步骤完成代码。

检查df的各个元素中是否有NaN值。

pd.isnull(df)

23.操作csv文件,按下面的步骤完成代码。

将df导出为”csv”,并以”,”作为分隔符。

df.to_csv(‘result.csv’, sep=’,’)

第八章

1.层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。

True

False

2.DataFrame的duplicated方法返回一个布尔型Series,用以提示各行是否是重复行

True

False

3.安装pandas库命令是()

pip install pandas

4.Pandas库中用于合并数据集的方法是

merge 和concat

5.对于多级索引数据,pandas的 stack方法可以将数据集的列旋转为行,而 unstack方法可以将数据的行旋转为列。

6.pandas有一个get_dummies函数可以实现将分类变量(categorical variable)转换为”虚拟”或”指示”的矩阵。

7.请简要描述pandas库的DataFrame对象

Original: https://blog.csdn.net/qq_46213084/article/details/122052907
Author: 代码写好了吗
Title: 简答题数据挖掘

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/639754/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球