简答题数据挖掘

2023年6月19日下午4:04 • 人工智能 • 阅读 68

简答题

数据质量涉及的因素：准确性，完整性，一致性（采集角度），时效性，相关性（应用角度），可信性，可解释性（用户角度）

数据清理：试图填充空缺的值、识别孤立点、消除噪声，并纠正数据中的不一致性

数据集成：将互相关联的分布式异构数据源集成到一起，使用户能够以透明的方式访问这些数据源

数据规约：用于帮助从原有庞大数据集中获得一个精简的数据集合，并使这一精简数据集保持原有数据集的完整性，这样在精简数据集上进行数据挖掘显然效率更高，并且挖掘出来的结果与使用原有数据集所获得结果是基本相同

数据变换：将数据转换或统一成易于进行数据挖掘的数据存储形式，使得挖掘过程可能更有效

缺失值处理策略：

忽略元组

人工填写

使用全局常量代替

属性的中心度量来填充

使用于给定元组同一类的所有样本平均值

使用最可能的值

噪声值处理策略：

分箱法、回归、聚类

转换是ETL 解决方案中最主要的部分，它负责处理抽取、转换、加载各阶段对数据行的各种操作。

转换包括一个或多个步骤。转换中的步骤通过跳来连接，跳定义了一个单向通道，允许数据从一个步骤向另一个步骤流动。

数据清理，就是试图检测和去除数据集中的噪声数据和无关数据，处理遗漏数据，去除空白数据域和知识背景下的白噪声，解决数据的一致性、唯一性问题，从而达到提高数据质量的目的。

①将一行记录拆分为多行记录，新的记录里有新的字段，由拆分后的子字符串填充；

②拆分方式可根据分隔符进行拆分，其中分隔符支持正则表达式；

③被拆分的源字段仍保留在新纪录里；

①将指定的输入字段根据分隔符拆分成多个字段；

②被拆分的字段将不复存在；

③分隔符不支持正则表达式；

写出下面这个作业的执行顺序。

(1)首先”开始”作业项搜索所有下一个节点作业项，找到了”A”和”C”。

(2)执行”A”。

(3)搜索”A”后面的作业项，发现了”B”。

(4)执行”B”。

(5)搜索”B”后面的作业项，没有找到任何作业项。

(6)回到”A”，也没发现其他作业项。

(7)回到”START”，发现另一个要执行的作业项”C”。

(8)执行”C”。

(9)搜索”C”后面的作业项，没有找到任何作业项。

(10)回到”START”，没有找到任何作业项。

(11)作业结束。

事实表存放各种业务数据。事实数据表包含特定业务事件的数据。

第二章

1.Kettle是一个程序

A.Java

B.Python

C.JavaScipt

D.C++

2.转换是ETL解决方案中最主要的部分，它负责处理、、各阶段对数据行的各种操作

抽取、转换、加载

转换、加载、抽取

加载、抽取、转换

加载、转换、抽取

4.跳定义了一个，允许数据从一个步骤向另一个步骤流动

单向通道

双向通道

5.在Kettle里，数据的单位是，数据流就是数据行从一个步骤到另一个步骤的移动

单元格

6.数据流的另一个同义词就是。

记录流

数据库

是转换里的基本组成部分。它是一个图形化的组件，可以通过配置步骤的参数，使得它完成相应的功能。
步骤可以从指定的数据库中读取指定关系表的数据

表输入

Excel输入

CSV文件输入

OLAP 输入

9.步骤需要有一个的名字

唯一性

个性化

功能化

以上都是

10.一个跳，相对于输出数据的步骤而言，为跳；相对于输入数据的步骤而言，为跳。

输出、输入

输入、输出

11.一个步骤的数据发送可以被设置为和。

轮流发送、复制发送

多次发生，单次发送

是将数据行依次发给每一个输出跳，是将全部数据行发送给所有输出跳

轮流发送、复制发送

复制发送、轮流发送

单次发送，多次发送

多次发送，单次发送

13.在运行转换时，一个线程运行一个步骤，所有步骤的线程几乎运行

14.从程序执行的角度看，实际上是两个步骤线程之间进行数据行传输的缓存。这个缓存被称为

跳、行集

箭头、队列

连线、内存

15.Kettle使用图形化的方式定义复杂的ETL程序和工作流，所以被归类为编程语言。

可视化

控件化

图标化

流程式

环境变量配置、命名参数

17.环境变量具有性质，配置后的环境变量对所有转换、作业都可用、有效；命名参数具有性质，仅对当前转换、作业有效。

全局、局部

18.Kettle不是开源软件。

True

False

19.Kettle使用Java编写的非可视化工具。

True

False

20.Kettle中的步骤是顺序执行的。

True

False

21.Kettle中的步骤是并行执行的。

True

False

22.步骤的名称具有唯一性。

True

False

23.什么是转换？

转换是ETL 解决方案中最主要的部分，它负责处理抽取、转换、加载各阶段对数据行的各种操作。

24.什么是跳？

您的答案：

转换里的步骤通过跳来连接，跳定义了一个单向通道，允许数据从一个步骤向另一个步骤流动。

25.Kettle的参数配置分为哪两类，并简述每一类的作用范围。

Kettle 的参数配置分为环境变量配置和命名参数两类。环境变量具有全局性质，配置后的环境变量对所有转换、作业都可用、有效；命名参数具有局部性质，仅对当前转换、作业有效。

第三章

1.文本文件主要分为和两大类。

分隔符文件、固定宽度文件

2.CSV文件是一种用分割的文本文件。

分隔符

3.Excel的数据可分为的表格数据和的表格数据。

结构化、非结构化

4.Kettle提供了和步骤从Web上获取数据。

HTTP Client 、HTTP Post

5.查询类的步骤，需要一个类的步骤来激活。

6.基本上CDC可以分为两种，一种是的，另一种是的。

侵入性、非侵入性

和。

时间戳、自增序列

8.当INSERT、UPDATE、DELETE等SQL进行执行时，可以触发数据库自有的，并执行

触发器

9.Kettle里的步骤就可以用来比较两个表的差异。

合并记录

10.基于的具有侵入性的CDC操作,可以实时监测到源数据的变化。

触发器

11.基于的CDC操作是非侵入性的。

物理、逻辑

13.基于源数据的CDC不适用于实时数据捕获，适用于操作。

14.XML文件不是普通的文本文件，而是一种遵循规范的的文本文件。

半结构化

15.对于JSON文件，Kettle可以用和步骤完成文件的读取与输出。

JSON Input 、JSON Output

16.在”数据库连接”窗口中，在一个作业或转换范围内连接名称不能重复。

True

False

17.查询类的步骤不需要激活，可以直接运行。

True

False

18.触发器的CDC的可以实时监测到数据的所有变化。

True

False

19.在ETL工作中，我们常常面临着处理各种类型的文件场景，请列举几个文件类型。

TXT 、CSV 、Excel 、XML 、JSON

20.什么是CDC?

识别出变化的数据并只导入这部分数据被称为变化数据捕获（Change Data Capture ）即CDC

21.CDC操作分为哪四种，并标明是否是侵入性的。

基于源数据的CDC ，侵入性；基于触发器的CDC ，侵入性；基于快照的CDC ，侵入性；基于日志的CDC ，非侵入性

22.简述基于源数据的CDC操作的缺点。

区分插入和更新操作；不能捕获到物理删除操作，但是可以捕获到逻辑删除；如果在一个同步周期内，数据被更新了多次，那么只能同步最后一次的更新操作，中间的更新操作都无法导入；时间戳和基于序列的CDC 操作不适用于实时场景下的数据导入，一般只适用于批量操作。

23.简述基于触发器的CDC操作的优缺点。

优点：可以实时监测到数据的所有变化

缺点：因为要变动源数据库，服务协议或者数据库管理员不允许，所以在大多数情况下，不允许向数据添加触发器，而且这种方法还会降低系统的性能。

24.简述基于日志的CDC操作的优缺点。

优点：基于日志的方式是最高级的、最没有侵入性的CDC 方法；

缺点：只能用来处理一种特定的数据库

1-3 章

1.转换里的步骤通过___ 来连接

2.转换创建并保存后的文件后缀名是

ktr

kjb

kbj

krt

3.转换是ETL解决方案中最主要的部分，它负责处理 _ 、 _ 、 ___ 各阶段对数据行的各种操作

抽取、转换、加载

转换、加载、抽取

加载、抽取、转换

加载、转换、抽取

4.下列方法不是数据变换的有

规范化

属性构造

5.以下说法错误的是

主成分分析、属性子集选择为维归约方法

直方图、聚类、抽样和数据立方体聚集为数量归约方法

用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间

数据集成有助于减少结果数据集的冗余和不一致，这有助于提高其后挖掘过程的准确性和速度

6.下列关于为什么要做数据清理描述错误的是

数据有重复

数据有错误

数据有缺失

数据量太大

7.有关Kettle说法错误的是

在Kettle里，数据的单位是行，数据流就是数据行从一个步骤到另一个步骤的移动

利用Kettle，可以快速构建复杂的ETL作业和降低维护工作量

Kettle 可以创建的转换是由一个或多个作业构成的

转换里的步骤通过跳来连接，跳定义了一个单向通道，允许数据从一个步骤向另一个步骤流动

8.下列关于数据离散化描述错误的是

通过分类、决策树和相关分析离散化

在z分数规范化（或零-均值规范化）中，基于A的平均值和标准差离散化

通过分箱离散化

通过直方图分析离散化

9.哪一个选项不是数据集成会遇到的问题

实体识别问题

属性子集选择

冗余和相关分析

数据值冲突的检测与处理

10.下面有关关系型数据库的说法不正确的是？

“数据库连接”窗口中连接名称必须在作业或转换范围内唯一的名称

可以在”选项”中设置编码格式

主机名称、用户名和密码均不可使用变量

端口号一般是选中的数据库服务器的默认端口号

11.在数据预处理阶段，数据类型被统一，使得挖掘过程可能更有效，挖掘的模式可能更容易理解，这个过程被称为

数据清理

数据集成

数据规约

数据变换

12.在Kettle里，数据的单位是___ ，数据流就是数据行从一个步骤到另一个步骤的移动

单元格

13.下面哪一项不是缺失值的方法

忽略元组

人工填写

采用全局常量来替换空缺值

14.以下说法错误的是

数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约.

数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用。

冗余数据的删除既是一种数据清理形式，也是一种数据归约

整个预处理过程要尽量人机结合，尤其要注重和客户以及专家多交流

15.基于CDC的数据导入导出，哪一个是不属于侵入性

基于源数据

基于触发器

基于快照

基于日志

16.在”数据库连接”窗口中，在一个作业或转换范围内连接名称不能重复

17.Kettle中的步骤是顺序执行的

18.Kettle提供了大量的数据清洗步骤，没有必要再使用脚本组件来做数据清理

19.Kettle是一个python程序

20.基于时间戳的CDC操作，不能捕获物理删除的数据，可以捕获逻辑删除的数据

21.步骤的名称在转换或作业范围内具有唯一性

22.Kettle使用Java编写的非可视化工具

23.Kettle不是开源软件

24.数据预处理的四阶段流程并不是完全分开的，在某种场景下是可以一起使用的

25.从数据应用的角度来说，影响数据质量的因素有一致性

26.Kettle里的变量分为两种_和_,在kettle.properties中配置后的环境变量对所有转换、作业都有效，在命名参数中配置，仅对当前转换、作业有效

27.___是转换里的基本组成部分。它是一个图形化的组件，可以通过配置步骤的参数，使得它完成相应的功能

28.数据预处理目的：______

提升数据质量

29.__定义了一个单向通道，允许数据从一个步骤向另一个步骤流动

30.基本上CDC可以分为两种，一种是 _的，另一种是_ 的

侵入性

非侵入性

31._______步骤可以从指定的数据库中读取指定关系表的数据

表输入

32.噪声处理的方法是___、_____和聚类。

分箱法

33.简述基于源数据的CDC操作的缺点

区分插入和更新操作；不能捕获到物理删除操作，但是可以捕获到逻辑删除；如果在一个同步周期内，数据被更新了多次，那么只能同步最后一次的更新操作，中间的更新操作都无法导入；时间戳和基于序列的CDC 操作不适用于实时场景下的数据导入，一般只适用于批量操作

34.简述数据清理的策略

缺失值处理策略：

忽略元组

人工填写

使用全局常量代替

属性的中心度量来填充

使用于给定元组同一类的所有样本平均值

使用最可能的值

噪声值处理策略：

分箱法、回归、聚类

35.数据预处理流程有哪些，并请对其解释

数据预处理流程有：数据清理、数据集成、数据归约、数据变换

数据清理：试图填充空缺的值、识别孤立点、消除噪声，并纠正数据中的不一致性

数据集成：将互相关联的分布式异构数据源集成到一起，使用户能够以透明的方式访问这些数据源

数据变换：将数据转换或统一成易于进行数据挖掘的数据存储形式，使得挖掘过程可能更有效

36.从不同的角度说明影响数据质量的因素

采集角度：准备性、完整性、一致性

应用角度：相关性和时效性

用户角度：可信性和可解释性

37.什么是CDC（变化数据捕获）

识别出变化的数据并只导入这部分数据被称为变化数据捕获（Change Data Capture ）即CDC ）

第四章

1.下列关于为什么要做数据清理描述错误的是

数据有重复

数据有错误

数据有缺失

数据量太大

2下列关于数据清理描述错误的是（）

数据清理能完全解决数据质量差的问题

数据清理在数据分析过程中是不可或缺的一个环节

数据清理的目的是提高数据质量

可以借助Kettle来完成大量的数据清理工作

3下列关于使用参照表清洗数据说法错误的是（）

有些数据无法从内部发现错误，需要结合外部的数据进行参照

只要方法得当，数据内部是可以发现错误的，不需要借助参照表

使用参照表可以处理数据的一致性

使用参数表可以校验数据的准确性

4在Kettle中，不存在单一的清洗步骤，清洗工作往往需要结合多个步骤才能组合完成。

True

False

5.在使用表输入步骤进行数据抽取时，应尽量避免使用复杂的SQL语句进行数据筛选。

True

False

6由于大部分的数据都是准确无误的，存在问题的数据只占极少部分，只要数据分析的方式正确，是不需要进行数据清理的。

True

False

7.Kettle中，参照数据流到流查询步骤对应的跳上会出现一个”i”标识。

True

False

8.Kettle提供了大量的数据清洗步骤，没有必要再使用脚本组件来做数据清理。

True

False

9.重复数据分为哪两类：_、_。

完全重复数据、不完全重复数据

10.Kettle目前的版本中提供了三个关于字符串清洗的步骤，分别是_步骤、_步骤和字符串剪切步骤

字符串操作、字符串替换

11.Kettle提供的字符串替换步骤的功能非常强大，主要是因为该步骤支持____。

正则表达式

12需要将一个行记录拆分成多行记录时，可以选择_步骤；需要将一个字段拆分成多个字段时，可以选择_步骤。

拆分字段成多行、拆分字段

13在Kettle中，提供了两个可以比较相似度的步骤，它们分别是_、_。

计算器步骤、模糊匹配步骤

14 数据清理主要目的是什么？

15请简单描述下如何去除不完全重复数据？

第一步，选定一个或多个字段，使用模糊匹配步骤找出疑似重复数据的记录

第二步，选定一个或多个字段做为参考字段，进一步检测数据的可能重复性

第三步，去除或者合并这些疑似重复的记录，这一步是非常关键的一步，需要结合多方面的因素进行综合评估，最终才能确定一个合并/去除的方案。

第五章

1.作业有（）、（）、注释组成。

作业项跳

2.作业创建并保存后的文件后缀名是（）。

kjb

3.作业执行顺序由作业项之间的（）和每个作业项的（）来决定。

跳执行结果

4.作业的（）是作业之间的连接线，它定义了作业的（）。

跳执行路径

5.跳的两种状态分别是（）与（）。

可用不可用

6.kettle使用一种（）算法来执行作业里的所有作业项。

7.会速算法的两个特征是：作业运行结果不是（）、运行结果保存在（）里。

唯一的内存

8.作业的并行执行是指：两组作业项几乎（），且每组作业项独立运行在两个（）中，互不影响

同时启动线程

9.（）作业项是一个作业的起点。它的作用是设置作业的（）

START 定时调度

10.如果定义了变量”hostname”，那么在程序中引用的格式是（）。

${hostname}

11.作业的监控有2种：（）和（）。

日志邮件

12.作业中的注释是可有可无的，因此它不重要。

True

14.在一个作业中，START作业项可以多次出现。

False

15.变量是一个任意长度的字符串值，它有自己的作用范围。

True

16.在kettle中所有文本输入框都可以使用变量。

False

17.作业项有哪些不同于转换步骤？

可以影子拷贝；作业项之间传递一个结果对象；可以并行执行。

18.作业跳对作业项对运行结果的判断有哪三种方式？您的答案：

无条件的；当结果为真的时候继续下一步；当结果为假的时候继续下一步。

19.写出下面这个作业的执行顺序。

(1)首先”开始”作业项搜索所有下一个节点作业项，找到了”A”和”C”。

(2)执行”A”。

(3)搜索”A”后面的作业项，发现了”B”。

(4)执行”B”。

(5)搜索”B”后面的作业项，没有找到任何作业项。

(6)回到”A”，也没发现其他作业项。

(7)回到”START”，发现另一个要执行的作业项”C”。

(8)执行”C”。

(9)搜索”C”后面的作业项，没有找到任何作业项。

(10)回到”START”，没有找到任何作业项。

(11)作业结束。

第六章

1.数据仓库主要有事实表和维度表组成，维表主要存放各类属性，事实表主要存放业务数据

True

2.业务键和代理键都通过ETL生成。项目中，我们要确保业务键的唯一性。

False

3.身份证号、手机号、学号等是常见的代理键。

False

True

5.缓慢变化维，主要分为三种，其中类型2当前最新数据会覆盖旧数据。

False

6.缓慢变化维类型3：业务主体数据发生变化时，用当前最新数据生成新的记录，并且在该行记录中记录上一个版本部分关键信息。

True

7.事务事实表记录的是事务层面的事实，保存的是最原子的数据，也称”原子事实表”。

True

8.下列说法错误的是（A）

A、数据仓库就是数据库。

B、业务键通常来源于业务系统

C、事实表加载前，先加载维表

D、星型模型的各个维表之间没有依赖关系

9.以下说法错误的是（）

A、雪花模型有多个相互依赖的维表，加载时要注意先后顺序

B、雪花模型是在基于星型模型之上拓展来的，每一个维度可以再扩散出更多的维度，根据维度的层级拆分成颗粒度不同的多张表

C 、事实表和维表之间通过业务键关联

D、雪花模型的主维表和非维表之间是N对1的关系

10.以下说法错误的是（）

A、时间、日期维属于生成维

B、混合维较少用，实现比缓慢变化维中的类型1、类型2、类型3三种类型复杂。

C 、杂项维的属性通常可以分为特定的几个分类

类型2缓慢变化维，不会直接覆盖以前的版本，每次更新会生成新的记录

11.以下说法正确的是（）

A、事实表的批量加载，我们使用”表输出”即可

B 、对传统数据库进行DML 操作时，会产生大量日志数据

C、对传统数据库进行DML操作时，数据库管理系统不会进行约束性检查

D、 Kettle提供了SQLServer数据库的批量加载控件

12.以下说法错误的是()

A、查找维度时，要正确的查找代理键

B、查找维度时，注意数据完整性问题

C 、数据延迟主要是指事实表数据延迟

D、先加载维度表，接着加载事实表

13.以下说法错误的是()

A、事实表中，数据粒度很细，这类通常是事务型事实表

B、累积快照事实表，数据生成后，后续经常有变化

C、周期快照事实表，通常是汇总的数据。

D 、事实表的数据不能有多个副本

14.业务键和代理键都通过ETL生成。项目中，我们要确保业务键的唯一性。

False

15.缓慢变化维，主要分为三种，其中类型2当前最新数据会覆盖旧数据。

False

16.缓慢变化维类型1，数据发生变化时，保存多个历史版本。

False

17.缓慢变化维类型3：用当前最新数据生成新的记录，并且在该行记录中记录上一个版本部分关键信息。

True

19.以下说法错误的是（）

A、雪花模型有多个相互依赖的维表，加载时要注意先后顺序

B、雪花模型是在基于星型模型之上拓展来的，每一个维度可以再扩散出更多的维度，根据维度的层级拆分成颗粒度不同的多张表

C 、事实表和维表之间通过业务键关联

D、雪花模型的主维表和非维表之间是N对1的关系

20.以下说法错误的是（）

A、时间、日期维属于生成维

B、混合维较少用，实现比缓慢变化维中的类型1、类型2、类型3三种类型复杂。

C 、杂项维的属性通常可以分为特定的几个分类

D、类型2缓慢变化维，不会直接覆盖以前的版本，每次更新会生成新的记录

21.以下说法错误的是（）

A、缓慢变化维类型3，适用于：不希望历史记录全部被覆盖，但也不希望每个版本都保存，希望维护更少的历史记录

B 、”插入/更新”步骤中，需要设置更新关键字及更新字段，通常使用的是代理键

C、更新缓慢变化维2时，需要”维度查询/更新”步骤

D、杂项维维表更新是，一般需要”联合查询/更新”控件

22以下说法正确的是(ABD )

A、查找维度时，要正确的查找代理键

B、查找维度时，注意数据完整性问题

C、数据延迟主要是指事实表数据延迟

D、先加载维度表，接着加载事实表

23以下说法正确的是(ABCD)

A、事实表中，数据粒度很细，这类通常是事务型事实表

B、累积快照事实表，数据生成后，后续经常有变化

C、周期快照事实表，通常是汇总的数据。

D、以上都正确

24以下选项属于数据仓库特点的是（ABCD）

A、面向主题的

B、集成的

C、相对稳定的

D、反映历史变化

25事务型事实表的数据被插入，数据就不再进行更改，其更新方式为____

增量更新

26雪花模型中和事实表关联的维表称为____

主维表

27星型模型中，事实表和维表通过____关联

代理键

28如果要统计同比、环比数据，使用哪种类型事实表最适合？

周期快照事实表

29批量加载数据到事实表时，通常需要需要使用批量加载控件，为什么不用”表输出”控件？批量加载控件有什么特点？

“表输出”中，对数据库操作是基于dml 语句实现的，对数据库进行dml 操作会带来两个问题：

1 、执行insert 、update 、delete 等操作时，数据库管理系统会往日志文件写日志，dml 语句操作的数据量越大，对应的日志文件就越大。

2 、执行insert 、update 、delete 等操作时，数据库管理系统会进行约束性检查，比如主键约束、外键约束、唯一性约束、检查约束等。约束性检查，是一项费时的工作，通常比操作数据耗费更多的时间。

大量的写日志和约束性检查，会严重影响数据库数据性能，显然不适用于大量数据加载的情况。

批量加载控件和”表输出”控件原理不同，对数据操作不是基于DML 语句的。例如，oracle 数据库通过SQL*Loader 实现批量数据加载，不产生日志文件、不对数据约束进行检查从而大大加快加载速度。

第七章

1.pandas提供了两种主要的数据结构： Series和 DataFrame。

2.Series是一种类似于数组的一维数据结构，包含了一系列的元素以及元素对应的标签。

3.Series对象没有指定index时，默认创建的index是从 0 到 N-1 的整数值，其中N是Series对象的元素个数。

4.获取Series对象s的index值的写法是 s.index，获取元素值的写法是 s.values。

5.s2 = Series([3, 8, -5, 1], index=[‘d’, ‘b’, ‘a’, ‘c’])， s2[3]返回的是 1 ，s2[‘a’]返回的值是 -5 ，s2>0返回的元素是bool类型。

6.DataFrame是一种带标签的二维数据结构，其中各列可以存储不同的数据类型。

7.pandas提供了 read_csv函数，用于导入csv文件，并得到一个 DataFrame 对象。

a，b，c，d。

9.使用isnull()函数判断DataFrame对象中的

缺失值（空缺值）

10.pandas的导出csv文件的函数是 to_csv，其中指定分隔符的参数名是 sep ，不希望输出索引是，可设置参数index= False。

11.json模块的 load 函数能够导入JSON数据，返回值是一个 dict 对象。

12.pandas通过 ExcelFile类提供了对Excel文件的基本支持。这个类在内部使用 xlrd和openpyxl包来操作Excel文件，因此需要首先安装这两个包。

13.数据库通常可分为两大类型，一类是基于SQL的关系型数据库，另一类被称为NoSQL，属于非关系型数据库。

14.Series对象的index可以通过赋值来改变。

True

False

15.在创建DataFrame时，如果columns参数中指定的列不存在，那么创建的DataFrame对象中的对应列值均为NaN，表示一个不可用的值。

True

False

16.1 / 1 分

在读取csv文件时，read_csv函数中参数header=None表示让pandas不指定列名。

True

False

17.pandas.read_csv(‘test.csv’, skiprows=[0,2,3])，skiprows的作用是忽略指定行。

True

False

18.与文件相比，使用数据库管理数据能够获得更快的访问速度，更方便的访问接口，更可靠的数据完整性。

True

False

DataFrame 是一种表格型数据结构，它含有一组有序的列，每列可以是不同的值。DataFrame 既有行索引，也有列索引，这些索引可以看作是由Series 组成的字典。

导入pandas模块并设置别名为pd，请写出代码。

import pandas as pd

20.操作csv文件，按下面的步骤完成代码:

假设现有一个名为csv的文件，请使用pandas的read_csv函数导入，并设置分隔符是”;”,且没有列名，最后赋值给变量df。

df = pd.read_csv(‘test.csv’, sep=’;’, header=False)

21.操作csv文件，按下面的步骤完成代码。

设置df的列名，列名的列表为[‘one’,’two’,’three’]

df.columns = [‘one’,’two’,’three’]

22.操作csv文件，按下面的步骤完成代码。

检查df的各个元素中是否有NaN值。

pd.isnull(df)

23.操作csv文件，按下面的步骤完成代码。

将df导出为”csv”，并以”,”作为分隔符。

df.to_csv(‘result.csv’, sep=’,’)

第八章

1.层次化索引（hierarchical indexing）是pandas的一项重要功能，它使你能在一个轴上拥有多个（两个以上）索引级别。

True

False

2.DataFrame的duplicated方法返回一个布尔型Series，用以提示各行是否是重复行

True

False

3.安装pandas库命令是（）

pip install pandas

4.Pandas库中用于合并数据集的方法是

merge 和concat

5.对于多级索引数据，pandas的 stack方法可以将数据集的列旋转为行，而 unstack方法可以将数据的行旋转为列。

6.pandas有一个get_dummies函数可以实现将分类变量（categorical variable）转换为”虚拟”或”指示”的矩阵。

7.请简要描述pandas库的DataFrame对象

Original: https://blog.csdn.net/qq_46213084/article/details/122052907
Author: 代码写好了吗
Title: 简答题数据挖掘

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/639754/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOv5算法详解

1：输入端（1） Mosaic数据增强 Yolov5的输入端采用了和Yolov4一样的Mosaic数据增强的方式。Mosaic是参考2019年底提出的CutMix数据增强的方式，…

人工智能 2023年6月26日
00133
Python中找出dataframe中的重复的行 DataFrame.duplicated()方法

● 选择题以下关于DataFrame.duplicated()函数说法错误的是： A 该函数用于标记dataframe中内容重复的行 B 该函数返回值是一个序列，True表示重复…

人工智能 2023年7月7日
0077
CUDA（10.2）＋PyTorch安装加配置详细完整教程

以下均为博主亲测的可靠流程，其中有一些我遇到的问题及解决方法，希望能帮到大家，不再踩坑，也欢迎大家交流遇到的问题和配置方法。 CUDA（10.2）＋PyTorch安装加配置详细完…

人工智能 2023年7月5日
0074
大数据分析-实验八鸢尾花数据集分类

Tec8-鸢尾花数据集分类使用Sklearn的逻辑回归完成鸢尾花分类预测 from sklearn.datasets import load_iris from sklearn….

人工智能 2023年7月15日
0095
手写分类决策树（鸢尾花数据集）

目录 * – 1.实验简介及数据集 – 2.算法分析 – 3.具体实现 – + 3.1 数据结构 + 3.2 如何产生分支 + * …

人工智能 2023年6月30日
0090
cv2.getPerspectiveTransform 透视变换函数解析

简介透视变换(Perspective Transformation)是将成像投影到一个新的视平面(Viewing Plane)，也称作投影映射(Projective Mappin…

人工智能 2023年7月6日
0082
梯度下降算法的python实现

前言梯度下降算法 Gradient Descent GD是沿梯度下降的方向连续迭代逼近求最小值的过程，本文将实现以下梯度下降算法的python实现。简单梯度下降算法批量梯度下…

人工智能 2023年7月4日
0070
nnUNet在2d数据集上训练测试一体教程（绕过五折交叉验证

nnUNet在2d数据集上训练测试一体教程（绕过五折交叉验证）文章目录 nnUNet在2d数据集上训练测试一体教程（绕过五折交叉验证）前言一、环境配置 * 1.创建虚拟环境 …

人工智能 2023年6月18日
0077
ImageNet数据集和ILSVRC2012介绍以及如何通过python使用

介绍 ImageNet是一个图像数据集，关于它的详细介绍可以参考这篇文章：Dataset之ImageNet：ImageNet数据集简介、下载、使用方法之详细攻略。ILSVRC是Im…

人工智能 2023年7月21日
0073
基于上下文的推荐算法

背景之前的算法主要研究了如何联系用户和物品，将最符合用户兴趣的物品推荐给用户，但这些算法都忽略了一点，就是用户所处的上下文（context）。这些上下文包括用户访问推荐系统的时间…

人工智能 2023年7月17日
0074
数据驱动实践五 – 预测客户的下一个购买日

数据驱动实践五预测客户的下一个购买日本系列文章中所采用的大部分行为和分析都是基于一个同样的思想方法：以客户所值得的方式对待他们，要早于他们的预期(例如，LTV);在不好的事情发…

人工智能 2023年7月1日
0061
富文本编辑器添加图片

使用 cursor->insertImage()插入图片 QTextImageFormat（图片格式）内联图像由 Unicode 值 U+FFFC（对象替换字符）表示，该值…

人工智能 2023年6月26日
0072
【go微服务】RPC的原理与Go RPC

本文介绍了RPC的概念以及Go语言中标准库rpc的基本使用。什么是RPC RPC（Remote Procedure Call），即远程过程调用。它允许像调用本地服务一样调用远程服…

人工智能 2023年6月26日
0091
删除多余的screen

screen 的创建、恢复、删除命令如下，创建：screen -S name查看有多少会话：screen -ls恢复：screen -r name先恢复没有则创建：screen …

人工智能 2023年7月5日
0095
敏捷云数据分析能力获权威认可，一举获得两项亚马逊云科技资质认证

近日，敏捷云以优异的表现同期获得了，亚马逊云科技两项资质认证：Data&Analytics Competency和Amazon EMR Service Delivery，至…

人工智能 2023年7月18日
0069
100天精通Python（数据分析篇）——第51天：numpy函数进阶

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月5日
0043

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

简答题数据挖掘

大家都在看