简答题
数据质量涉及的因素:准确性,完整性,一致性(采集角度),时效性,相关性(应用角度),可信性,可解释性(用户角度)
数据清理:试图填充空缺的值、识别孤立点、消除噪声,并纠正数据中的不一致性
数据集成:将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源
数据规约:用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同
数据变换:将数据转换或统一成易于进行数据挖掘的数据存储形式,使得挖掘过程可能更有效
缺失值处理策略:
忽略元组
人工填写
使用全局常量代替
属性的中心度量来填充
使用于给定元组同一类的所有样本平均值
使用最可能的值
噪声值处理策略:
分箱法、回归、聚类
转换是ETL 解决方案中最主要的部分,它负责处理抽取、转换、加载各阶段对数据行的各种操作。
转换包括一个或多个步骤。转换中的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。
数据清理,就是试图检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声,解决数据的一致性、唯一性问题,从而达到提高数据质量的目的。
①将一行记录拆分为多行记录,新的记录里有新的字段,由拆分后的子字符串填充;
②拆分方式可根据分隔符进行拆分,其中分隔符支持正则表达式;
③被拆分的源字段仍保留在新纪录里;
①将指定的输入字段根据分隔符拆分成多个字段;
②被拆分的字段将不复存在;
③分隔符不支持正则表达式;
写出下面这个作业的执行顺序。
(1)首先”开始”作业项搜索所有下一个节点作业项,找到了”A”和”C”。
(2)执行”A”。
(3)搜索”A”后面的作业项,发现了”B”。
(4)执行”B”。
(5)搜索”B”后面的作业项,没有找到任何作业项。
(6)回到”A”,也没发现其他作业项。
(7)回到”START”,发现另一个要执行的作业项”C”。
(8)执行”C”。
(9)搜索”C”后面的作业项,没有找到任何作业项。
(10)回到”START”,没有找到任何作业项。
(11)作业结束。
事实表存放各种业务数据。事实数据表包含特定业务事件的数据。
第二章
1.Kettle是一个 程序
A.Java
B.Python
C.JavaScipt
D.C++
2.转换是ETL解决方案中最主要的部分,它负责处理 、 、 各阶段对数据行的各种操作
抽取、转换、加载
转换、加载、抽取
加载、抽取、转换
加载、转换、抽取
4.跳定义了一个 ,允许数据从一个步骤向另一个步骤流动
单向通道
双向通道
5.在Kettle里,数据的单位是 ,数据流就是数据行从一个步骤到另一个步骤的移动
单元格
6.数据流的另一个同义词就是 。
记录流
数据库
-
是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步骤的参数,使得它完成相应的功能。
-
步骤可以从指定的数据库中读取指定关系表的数据
表输入
Excel输入
CSV文件输入
OLAP 输入
9.步骤需要有一个 的名字
唯一性
个性化
功能化
以上都是
10.一个跳,相对于输出数据的步骤而言,为 跳;相对于输入数据的步骤而言,为 跳。
输出、输入
输入、输出
11.一个步骤的数据发送可以被设置为 和 。
轮流发送、复制发送
多次发生,单次发送
- 是将数据行依次发给每一个输出跳, 是将全部数据行发送给所有输出跳
轮流发送、复制发送
复制发送、轮流发送
单次发送,多次发送
多次发送,单次发送
13.在运行转换时,一个线程运行一个步骤,所有步骤的线程几乎 运行
14.从程序执行的角度看, 实际上是两个步骤线程之间进行数据行传输的缓存。这个缓存被称为
跳、行集
箭头、队列
连线、内存
15.Kettle使用图形化的方式定义复杂的ETL程序和工作流,所以被归类为 编程语言。
可视化
控件化
图标化
流程式
环境变量配置、命名参数
17.环境变量具有 性质,配置后的环境变量对所有转换、作业都可用、有效;命名参数具有 性质,仅对当前转换、作业有效。
全局、局部
18.Kettle不是开源软件。
True
False
19.Kettle使用Java编写的非可视化工具。
True
False
20.Kettle中的步骤是顺序执行的。
True
False
21.Kettle中的步骤是并行执行的。
True
False
22.步骤的名称具有唯一性。
True
False
23.什么是转换?
转换是ETL 解决方案中最主要的部分,它负责处理抽取、转换、加载各阶段对数据行的各种操作。
24.什么是跳?
您的答案:
转换里的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。
25.Kettle的参数配置分为哪两类,并简述每一类的作用范围。
Kettle 的参数配置分为环境变量配置和命名参数两类。环境变量具有全局性质,配置后的环境变量对所有转换、作业都可用、有效;命名参数具有局部性质,仅对当前转换、作业有效。
第三章
1.文本文件主要分为 和 两大类。
分隔符文件、固定宽度文件
2.CSV文件是一种用 分割的文本文件。
分隔符
3.Excel的数据可分为 的表格数据和 的表格数据。
结构化、非结构化
4.Kettle提供了 和 步骤从Web上获取数据。
HTTP Client 、HTTP Post
5.查询类的步骤,需要一个 类的步骤来激活。
6.基本上CDC可以分为两种,一种是 的,另一种是 的。
侵入性、非侵入性
和 。
时间戳、自增序列
8.当INSERT、UPDATE、DELETE等SQL进行执行时,可以触发数据库自有的 ,并执行
触发器
9.Kettle里的 步骤就可以用来比较两个表的差异。
合并记录
10.基于 的具有侵入性的CDC操作,可以实时监测到源数据的变化。
触发器
11.基于 的CDC操作是非侵入性的。
物理、逻辑
13.基于源数据的CDC不适用于实时数据捕获,适用于 操作。
14.XML文件不是普通的文本文件,而是一种遵循规范的 的文本文件。
半结构化
15.对于JSON文件,Kettle可以用 和 步骤完成文件的读取与输出。
JSON Input 、JSON Output
16.在”数据库连接”窗口中,在一个作业或转换范围内连接名称不能重复。
True
False
17.查询类的步骤不需要激活,可以直接运行。
True
False
18.触发器的CDC的可以实时监测到数据的所有变化。
True
False
19.在ETL工作中,我们常常面临着处理各种类型的文件场景,请列举几个文件类型。
TXT 、CSV 、Excel 、XML 、JSON
20.什么是CDC?
识别出变化的数据并只导入这部分数据被称为变化数据捕获(Change Data Capture )即CDC
21.CDC操作分为哪四种,并标明是否是侵入性的。
基于源数据的CDC ,侵入性;基于触发器的CDC ,侵入性;基于快照的CDC ,侵入性;基于日志的CDC ,非侵入性
22.简述基于源数据的CDC操作的缺点。
区分插入和更新操作;不能捕获到物理删除操作,但是可以捕获到逻辑删除;如果在一个同步周期内,数据被更新了多次,那么只能同步最后一次的更新操作,中间的更新操作都无法导入;时间戳和基于序列的CDC 操作不适用于实时场景下的数据导入,一般只适用于批量操作。
23.简述基于触发器的CDC操作的优缺点。
优点:可以实时监测到数据的所有变化
缺点:因为要变动源数据库,服务协议或者数据库管理员不允许,所以在大多数情况下,不允许向数据添加触发器,而且这种方法还会降低系统的性能。
24.简述基于日志的CDC操作的优缺点。
优点:基于日志的方式是最高级的、最没有侵入性的CDC 方法;
缺点:只能用来处理一种特定的数据库
1-3 章
1.转换里的步骤通过___ 来连接
2.转换创建并保存后的文件后缀名是
ktr
kjb
kbj
krt
3.转换是ETL解决方案中最主要的部分,它负责处理 _ 、 _ 、 ___ 各阶段对数据行的各种操作
抽取、转换、加载
转换、加载、抽取
加载、抽取、转换
加载、转换、抽取
4.下列方法不是数据变换的有
规范化
属性构造
5.以下说法错误的是
主成分分析、属性子集选择为维归约方法
直方图、聚类、抽样和数据立方体聚集为数量归约方法
用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间
数据集成有助于减少结果数据集的冗余和不一致,这有助于提高其后挖掘过程的准确性和速度
6.下列关于为什么要做数据清理描述错误的是
数据有重复
数据有错误
数据有缺失
数据量太大
7.有关Kettle说法错误的是
在Kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动
利用Kettle,可以快速构建复杂的ETL作业和降低维护工作量
Kettle 可以创建的转换是由一个或多个作业构成的
转换里的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动
8.下列关于数据离散化描述错误的是
通过分类、决策树和相关分析离散化
在z分数规范化(或零-均值规范化)中,基于A的平均值和标准差离散化
通过分箱离散化
通过直方图分析离散化
9.哪一个选项不是数据集成会遇到的问题
实体识别问题
属性子集选择
冗余和相关分析
数据值冲突的检测与处理
10.下面有关关系型数据库的说法不正确的是?
“数据库连接”窗口中连接名称必须在作业或转换范围内唯一的名称
可以在”选项”中设置编码格式
主机名称、用户名和密码均不可使用变量
端口号一般是选中的数据库服务器的默认端口号
11.在数据预处理阶段,数据类型被统一,使得挖掘过程可能更有效,挖掘的模式可能更容易理解,这个过程被称为
数据清理
数据集成
数据规约
数据变换
12.在Kettle里,数据的单位是___ ,数据流就是数据行从一个步骤到另一个步骤的移动
单元格
13.下面哪一项不是缺失值的方法
忽略元组
人工填写
采用全局常量来替换空缺值
14.以下说法错误的是
数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约.
数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用。
冗余数据的删除既是一种数据清理形式,也是一种数据归约
整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流
15.基于CDC的数据导入导出,哪一个是不属于侵入性
基于源数据
基于触发器
基于快照
基于日志
16.在”数据库连接”窗口中,在一个作业或转换范围内连接名称不能重复
17.Kettle中的步骤是顺序执行的
18.Kettle提供了大量的数据清洗步骤,没有必要再使用脚本组件来做数据清理
19.Kettle是一个python程序
20.基于时间戳的CDC操作,不能捕获物理删除的数据,可以捕获逻辑删除的数据
21.步骤的名称在转换或作业范围内具有唯一性
22.Kettle使用Java编写的非可视化工具
23.Kettle不是开源软件
24.数据预处理的四阶段流程并不是完全分开的,在某种场景下是可以一起使用的
25.从数据应用的角度来说,影响数据质量的因素有一致性
26.Kettle里的变量分为两种_和_,在kettle.properties中配置后的环境变量对所有转换、作业都有效,在命名参数中配置,仅对当前转换、作业有效
27.___是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步骤的参数,使得它完成相应的功能
28.数据预处理目的:______
提升数据质量
29.__定义了一个单向通道 ,允许数据从一个步骤向另一个步骤流动
30.基本上CDC可以分为两种,一种是 _的,另一种是_ 的
侵入性
非侵入性
31._______步骤可以从指定的数据库中读取指定关系表的数据
表输入
32.噪声处理的方法是___、_____和聚类。
分箱法
33.简述基于源数据的CDC操作的缺点
区分插入和更新操作;不能捕获到物理删除操作,但是可以捕获到逻辑删除;如果在一个同步周期内,数据被更新了多次,那么只能同步最后一次的更新操作,中间的更新操作都无法导入;时间戳和基于序列的CDC 操作不适用于实时场景下的数据导入,一般只适用于批量操作
34.简述数据清理的策略
缺失值处理策略:
忽略元组
人工填写
使用全局常量代替
属性的中心度量来填充
使用于给定元组同一类的所有样本平均值
使用最可能的值
噪声值处理策略:
分箱法、回归、聚类
35.数据预处理流程有哪些,并请对其解释
数据预处理流程有:数据清理、数据集成、数据归约、数据变换
数据清理:试图填充空缺的值、识别孤立点、消除噪声,并纠正数据中的不一致性
数据集成:将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源
数据规约:用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同
数据变换:将数据转换或统一成易于进行数据挖掘的数据存储形式,使得挖掘过程可能更有效
36.从不同的角度说明影响数据质量的因素
采集角度:准备性、完整性、一致性
应用角度:相关性和时效性
用户角度:可信性和可解释性
37.什么是CDC(变化数据捕获)
识别出变化的数据并只导入这部分数据被称为变化数据捕获(Change Data Capture )即CDC )
第四章
1.下列关于为什么要做数据清理描述错误的是
数据有重复
数据有错误
数据有缺失
数据量太大
2下列关于数据清理描述错误的是()
数据清理能完全解决数据质量差的问题
数据清理在数据分析过程中是不可或缺的一个环节
数据清理的目的是提高数据质量
可以借助Kettle来完成大量的数据清理工作
3下列关于使用参照表清洗数据说法错误的是()
有些数据无法从内部发现错误,需要结合外部的数据进行参照
只要方法得当,数据内部是可以发现错误的,不需要借助参照表
使用参照表可以处理数据的一致性
使用参数表可以校验数据的准确性
4在Kettle中,不存在单一的清洗步骤,清洗工作往往需要结合多个步骤才能组合完成。
True
False
5.在使用表输入步骤进行数据抽取时,应尽量避免使用复杂的SQL语句进行数据筛选。
True
False
6由于大部分的数据都是准确无误的,存在问题的数据只占极少部分,只要数据分析的方式正确,是不需要进行数据清理的。
True
False
7.Kettle中,参照数据流到流查询步骤对应的跳上会出现一个”i”标识。
True
False
8.Kettle提供了大量的数据清洗步骤,没有必要再使用脚本组件来做数据清理。
True
False
9.重复数据分为哪两类:_、_。
完全重复数据、不完全重复数据
10.Kettle目前的版本中提供了三个关于字符串清洗的步骤,分别是_步骤、_步骤和字符串剪切步骤
字符串操作、字符串替换
11.Kettle提供的字符串替换步骤的功能非常强大,主要是因为该步骤支持____。
正则表达式
12需要将一个行记录拆分成多行记录时,可以选择_步骤;需要将一个字段拆分成多个字段时,可以选择_步骤。
拆分字段成多行、拆分字段
13在Kettle中,提供了两个可以比较相似度的步骤,它们分别是_、_。
计算器步骤、模糊匹配步骤
14 数据清理主要目的是什么?
数据清理,就是试图检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声,解决数据的一致性、唯一性问题,从而达到提高数据质量的目的。
15请简单描述下如何去除不完全重复数据?
第一步,选定一个或多个字段,使用模糊匹配步骤找出疑似重复数据的记录
第二步,选定一个或多个字段做为参考字段,进一步检测数据的可能重复性
第三步,去除或者合并这些疑似重复的记录,这一步是非常关键的一步,需要结合多方面的因素进行综合评估,最终才能确定一个合并/去除的方案。
第五章
1.作业有()、()、注释组成。
作业项 跳
2.作业创建并保存后的文件后缀名是( )。
kjb
3.作业执行顺序由作业项之间的()和每个作业项的()来决定。
跳 执行结果
4.作业的()是作业之间的连接线,它定义了作业的()。
跳 执行路径
5.跳的两种状态分别是()与()。
可用 不可用
6.kettle使用一种( )算法来执行作业里的所有作业项。
7.会速算法的两个特征是:作业运行结果不是()、运行结果保存在()里。
唯一的 内存
8.作业的并行执行是指:两组作业项几乎(),且每组作业项独立运行在两个()中,互不影响
同时启动 线程
9.()作业项是一个作业的起点。它的作用是设置作业的()
START 定时调度
10.如果定义了变量”hostname”,那么在程序中引用的格式是()。
${hostname}
11.作业的监控有2种:()和()。
日志 邮件
12.作业中的注释是可有可无的,因此它不重要。
True
True
14.在一个作业中,START作业项可以多次出现。
False
15.变量是一个任意长度的字符串值,它有自己的作用范围。
True
16.在kettle中所有文本输入框都可以使用变量。
False
17.作业项有哪些不同于转换步骤?
可以影子拷贝;作业项之间传递一个结果对象;可以并行执行。
18.作业跳对作业项对运行结果的判断有哪三种方式?您的答案:
无条件的;当结果为真的时候继续下一步;当结果为假的时候继续下一步。
19.写出下面这个作业的执行顺序。
(1)首先”开始”作业项搜索所有下一个节点作业项,找到了”A”和”C”。
(2)执行”A”。
(3)搜索”A”后面的作业项,发现了”B”。
(4)执行”B”。
(5)搜索”B”后面的作业项,没有找到任何作业项。
(6)回到”A”,也没发现其他作业项。
(7)回到”START”,发现另一个要执行的作业项”C”。
(8)执行”C”。
(9)搜索”C”后面的作业项,没有找到任何作业项。
(10)回到”START”,没有找到任何作业项。
(11)作业结束。
第六章
1.数据仓库主要有事实表和维度表组成,维表主要存放各类属性,事实表主要存放业务数据
True
2.业务键和代理键都通过ETL生成。项目中,我们要确保业务键的唯一性。
False
3.身份证号、手机号、学号等是常见的代理键。
False
True
5.缓慢变化维,主要分为三种,其中类型2当前最新数据会覆盖旧数据。
False
6.缓慢变化维类型3:业务主体数据发生变化时,用当前最新数据生成新的记录,并且在该行记录中记录上一个版本部分关键信息。
True
7.事务事实表记录的是事务层面的事实,保存的是最原子的数据,也称”原子事实表”。
True
8.下列说法错误的是(A)
A、 数据仓库就是数据库。
B、 业务键通常来源于业务系统
C、 事实表加载前,先加载维表
D、星型模型的各个维表之间没有依赖关系
9.以下说法错误的是()
A、 雪花模型有多个相互依赖的维表,加载时要注意先后顺序
B、 雪花模型是在基于星型模型之上拓展来的,每一个维度可以再扩散出更多的维度,根据维度的层级拆分成颗粒度不同的多张表
C 、 事实表和维表之间通过业务键关联
D、 雪花模型的主维表和非维表之间是N对1的关系
10.以下说法错误的是( )
A、 时间、日期维属于生成维
B、 混合维较少用,实现比缓慢变化维中的类型1、类型2、类型3三种类型复杂。
C 、 杂项维的属性通常可以分为特定的几个分类
类型2缓慢变化维,不会直接覆盖以前的版本,每次更新会生成新的记录
11.以下说法正确的是( )
A、 事实表的批量加载,我们使用”表输出”即可
B 、 对传统数据库进行DML 操作时,会产生大量日志数据
C、 对传统数据库进行DML操作时,数据库管理系统不会进行约束性检查
D、 Kettle提供了SQLServer数据库的批量加载控件
12.以下说法错误的是()
A、 查找维度时,要正确的查找代理键
B、 查找维度时,注意数据完整性问题
C 、 数据延迟主要是指事实表数据延迟
D、 先加载维度表,接着加载事实表
13.以下说法错误的是()
A、 事实表中,数据粒度很细,这类通常是事务型事实表
B、 累积快照事实表,数据生成后,后续经常有变化
C、 周期快照事实表,通常是汇总的数据。
D 、事实表的数据不能有多个副本
14.业务键和代理键都通过ETL生成。项目中,我们要确保业务键的唯一性。
False
15.缓慢变化维,主要分为三种,其中类型2当前最新数据会覆盖旧数据。
False
16.缓慢变化维类型1,数据发生变化时,保存多个历史版本。
False
17.缓慢变化维类型3:用当前最新数据生成新的记录,并且在该行记录中记录上一个版本部分关键信息。
True
True
19.以下说法错误的是()
A、 雪花模型有多个相互依赖的维表,加载时要注意先后顺序
B、 雪花模型是在基于星型模型之上拓展来的,每一个维度可以再扩散出更多的维度,根据维度的层级拆分成颗粒度不同的多张表
C 、 事实表和维表之间通过业务键关联
D、 雪花模型的主维表和非维表之间是N对1的关系
20.以下说法错误的是( )
A、 时间、日期维属于生成维
B、 混合维较少用,实现比缓慢变化维中的类型1、类型2、类型3三种类型复杂。
C 、 杂项维的属性通常可以分为特定的几个分类
D、 类型2缓慢变化维,不会直接覆盖以前的版本,每次更新会生成新的记录
21.以下说法错误的是()
A、缓慢变化维类型3,适用于:不希望历史记录全部被覆盖,但也不希望每个版本都保存,希望维护更少的历史记录
B 、”插入/更新”步骤中,需要设置更新关键字及更新字段,通常使用的是代理键
C、更新缓慢变化维2时,需要”维度查询/更新”步骤
D、杂项维维表更新是,一般需要”联合查询/更新”控件
22以下说法正确的是(ABD )
A、 查找维度时,要正确的查找代理键
B、 查找维度时,注意数据完整性问题
C、 数据延迟主要是指事实表数据延迟
D、 先加载维度表,接着加载事实表
23以下说法正确的是(ABCD)
A、 事实表中,数据粒度很细,这类通常是事务型事实表
B、 累积快照事实表,数据生成后,后续经常有变化
C、 周期快照事实表,通常是汇总的数据。
D、以上都正确
24以下选项属于数据仓库特点的是(ABCD)
A、 面向主题的
B、 集成的
C、 相对稳定的
D、 反映历史变化
25事务型事实表的数据被插入,数据就不再进行更改,其更新方式为____
增量更新
26雪花模型中和事实表关联的维表称为____
主维表
27星型模型中,事实表和维表通过____关联
代理键
28如果要统计同比、环比数据,使用哪种类型事实表最适合?
周期快照事实表
29批量加载数据到事实表时,通常需要需要使用批量加载控件,为什么不用”表输出”控件? 批量加载控件有什么特点?
“表输出”中,对数据库操作是基于dml 语句实现的,对数据库进行dml 操作会带来两个问题:
1 、执行insert 、update 、delete 等操作时,数据库管理系统会往日志文件写日志,dml 语句操作的数据量越大,对应的日志文件就越大。
2 、执行insert 、update 、delete 等操作时,数据库管理系统会进行约束性检查,比如主键约束、外键约束、唯一性约束、检查约束等。约束性检查,是一项费时的工作,通常比操作数据耗费更多的时间。
大量的写日志和约束性检查,会严重影响数据库数据性能,显然不适用于大量数据加载的情况。
批量加载控件和”表输出”控件原理不同,对数据操作不是基于DML 语句的。例如,oracle 数据库通过SQL*Loader 实现批量数据加载,不产生日志文件、不对数据约束进行检查 从而大大加快加载速度。
第七章
1.pandas提供了两种主要的数据结构: Series和 DataFrame。
2.Series是一种类似于 数组 的一维数据结构,包含了一系列的 元素 以及元素对应的标签。
3.Series对象没有指定index时,默认创建的index是从 0 到 N-1 的整数值,其中N是Series对象的元素个数。
4.获取Series对象s的index值的写法是 s.index,获取元素值的写法是 s.values。
5.s2 = Series([3, 8, -5, 1], index=[‘d’, ‘b’, ‘a’, ‘c’]), s2[3]返回的是 1 ,s2[‘a’]返回的值是 -5 ,s2>0返回的元素是bool类型。
6.DataFrame是一种带标签的 二 维数据结构,其中各列可以存储 不同的数据类型。
7.pandas提供了 read_csv函数,用于导入csv文件,并得到一个 DataFrame 对象。
a,b,c,d。
9.使用isnull()函数判断DataFrame对象中的
缺失值(空缺值)
10.pandas的导出csv文件的函数是 to_csv,其中指定分隔符的参数名是 sep ,不希望输出索引是,可设置参数index= False。
11.json模块的 load 函数能够导入JSON数据,返回值是一个 dict 对象。
12.pandas通过 ExcelFile类提供了对Excel文件的基本支持。这个类在内部使用 xlrd和openpyxl包来操作Excel文件,因此需要首先安装这两个包。
13.数据库通常可分为两大类型,一类是基于SQL的 关系型数据库,另一类被称为NoSQL,属于 非关系型数据库。
14.Series对象的index可以通过赋值来改变。
True
False
15.在创建DataFrame时,如果columns参数中指定的列不存在,那么创建的DataFrame对象中的对应列值均为NaN,表示一个不可用的值。
True
False
16.1 / 1 分
在读取csv文件时,read_csv函数中参数header=None表示让pandas不指定列名。
True
False
17.pandas.read_csv(‘test.csv’, skiprows=[0,2,3]),skiprows的作用是忽略指定行。
True
False
18.与文件相比,使用数据库管理数据能够获得更快的访问速度,更方便的访问接口,更可靠的数据完整性。
True
False
DataFrame 是一种表格型数据结构,它含有一组有序的列,每列可以是不同的值。DataFrame 既有行索引,也有列索引,这些索引可以看作是由Series 组成的字典。
导入pandas模块并设置别名为pd,请写出代码。
import pandas as pd
20.操作csv文件,按下面的步骤完成代码:
假设现有一个名为csv的文件,请使用pandas的read_csv函数导入,并设置分隔符是”;”,且没有列名,最后赋值给变量df。
df = pd.read_csv(‘test.csv’, sep=’;’, header=False)
21.操作csv文件,按下面的步骤完成代码。
设置df的列名,列名的列表为[‘one’,’two’,’three’]
df.columns = [‘one’,’two’,’three’]
22.操作csv文件,按下面的步骤完成代码。
检查df的各个元素中是否有NaN值。
pd.isnull(df)
23.操作csv文件,按下面的步骤完成代码。
将df导出为”csv”,并以”,”作为分隔符。
df.to_csv(‘result.csv’, sep=’,’)
第八章
1.层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。
True
False
2.DataFrame的duplicated方法返回一个布尔型Series,用以提示各行是否是重复行
True
False
3.安装pandas库命令是()
pip install pandas
4.Pandas库中用于合并数据集的方法是
merge 和concat
5.对于多级索引数据,pandas的 stack方法可以将数据集的列旋转为行,而 unstack方法可以将数据的行旋转为列。
6.pandas有一个get_dummies函数可以实现将分类变量(categorical variable)转换为”虚拟”或”指示”的矩阵。
7.请简要描述pandas库的DataFrame对象
Original: https://blog.csdn.net/qq_46213084/article/details/122052907
Author: 代码写好了吗
Title: 简答题数据挖掘
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/639754/
转载文章受原作者版权保护。转载请注明原作者出处!