第二章初识ETL 课后作业

2023年7月16日下午10:09 • 人工智能 • 阅读 49

数据清洗（黑马程序员）第二章课后作业

一、填空题

1．__ETL _是实现商务智能(Business Intelligence ,BI)的核心和灵魂。

2．ETL是将业务系统的数据经过抽取、转换之后加载到数据仓库的过程。

3．ETL的实现有多种方式,常见的方式有借助 ETL工具、编写SQL语句、_将ETL工具和SQL语句结合起来使用__。

4．数据的抽取分为数据的全量抽取和数据的增量抽取。

5．不符合要求的数据主要有不完整的数据、_ 错误的数据、重复的数据三大类。

二、判断题

1．基于ETL的数据清洗是挖掘有价值数据的一种方案。（√）

2．如果数据源为外部文件,可使用SQL语句进行数据清洗工作。（×）

3．不完整数据主要包括日期越界的数据。（×）

4．重复数据检测主要分为基于字段和基于记录的重复检测。（√）

Kettle是一款国外免费开源的ETL工具,纯Python语言编写。（×）

三、选择题

1．下列方式，_ 不属于增量抽取的方式。（D）

A.触发器方式 B.时间戳方式

C.全表比对方式 D.批量抽取方式

2．下列算法中，_ 不可用于检测重复记录。（A）

A.编辑距离算法 B.优先队列算法

C.N-Gram聚类算法 D、排序邻居算法

四、简答题

简述不符合要求数据的清洗流程。

答：不符合要求数据的清洗流程：数据的清洗转换是ETL中最复杂的部分,主要任务是过滤掉不符合要求的数据。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。首先判断不符要求的数据属于哪种类型；

不完整数据的清洗流程：

(1)对获得的数据源进行不完整数据的检测,为后续的数据处理提供所需的数据。

(2）对检测出来的不完整数据进行处理,如修复缺失部分或全部内容的数据。

(3）输出处理后的符合要求的完整数据。

错误数据的清洗流程：

(1)将数据源按照规定的数据格式进行检测,并执行数据预处理,为后续的处理步骤做准备。

(2）对预处理后的数据进行一致性检测,如果预处理后的数据与原始数据存在完整性不一致的问题,则通过数据修改过程使数据统一。为避免再次出现该问题,应重复进行检测与修改过程,直到符合要求为止。

(3）输出修改后的数据。

重复数据的清洗流程：

(1）通过对源数据库属性段的分析,找到属性的唯一值，并根据唯一值对源数据库中的数据记录进行排序,可以选择自上而下或者自下而上的顺序排序。

(2）按顺序扫描数据库中的每一条记录,并将它与相邻的记录进行比较,进行记录的相似度匹配计算,输出修改后的数据。

(3）如果计算出的相似度数值大于系统设定的阈值,说明该记录或连续的几条记录为相似重复记录,则进行数据记录的合并或删除操作﹔否则扫描下一条数据记录,重复以上第(2)、(3)步骤。

(4）当所有数据记录检测完毕后﹐,输出清洗后的数据结果。

Original: https://blog.csdn.net/weixin_46002034/article/details/124647733
Author: 鄧堯
Title: 第二章初识ETL 课后作业

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/697322/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas中的索引和多层索引

索引分类 Index；单层索引； MultiIndex；多层索引；举例： import pandas as pd import numpy as np df = pd.DataF…

人工智能 2023年7月6日
0073
RuntimeError: Expected 4-dimensional input for 4-dimensional weight 3 3 1, but got 3-dimensional inp

源代码GitHub – sanghyun-son/EDSR-PyTorch: PyTorch version of the paper ‘Enhanced …

人工智能 2023年7月14日
0058
逆透视变换(IPM)多种方式及代码总结

0.背景在自动/辅助驾驶中，车道线的检测非常重要。在前视摄像头拍摄的图像中，由于透视效应的存在，本来平行的事物，在图像中确实相交的。而IPM变换就是消除这种透视效应，所以也叫逆…

人工智能 2023年7月28日
0067
Meetup回顾｜星策社区FeatureStore Meetup V2

继2021年12月11日举办第一次Feature Store Meetup之后，星策开源社区于2022年4月10日举办了第二期「FeatureStore Meetup V2 」，本…

人工智能 2023年7月17日
0069
计算机视觉中的编码-解码器结构总结（持续更新）

文章目录 NLP领域的编码解码器结构机器学习中的编码器 * 自动编码器视觉领域中的编码解码器结构编码器-解码器结构：编码器原始输入信号转化为中间格式，然后解码器将中间格式转化…

人工智能 2023年5月27日
0098
【HTML粉色跳动爱心】效果展示+源代码

目录 * – 一、源代码 – + 1.1 index.html + 1.2 style.css + 1.3 js文件 – 二、效果展示一、源代…

人工智能 2023年7月30日
0054
pandas中对于文本类数据的处理汇总

pandas中字符串类处理函数 * – + * 1.英文字母大小写转换及填充 * 2.字符串合并与拆分 * – 2.1 多列字符串合并 – 2….

人工智能 2023年7月7日
0053
CVPR 2022 图像恢复论文

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月25日
0058
机器学习实战（SVM）

目录 SVM原理概述 Sklearn实现SVM 线性SVM分类非线性SVM分类使用多项式特征来增加特征内核的使用 SVM原理概述这里不对SVM原理进行详细推导，只对SVM进…

人工智能 2023年7月15日
0079
猫狗分类，猫狗大战

项目全部代码在文章末尾 1、任务描述 Cats vs. Dogs（猫狗大战）数据集下载地址为https://www.kaggle.com/c/dogs-vs-cats/data。这…

人工智能 2023年7月1日
0074
Python2.7 CentOS7 处理报错 ImportError: No module named psycopg2

运行出错：ImportError: No module named psycopg2import psycopg2Traceback (most recent call last)…

人工智能 2023年5月24日
0080
详解pytorch之tensor的拼接

tensor经常需要进行拼接、拆分与调换维度，比如通道拼接，比如通道调至最后一个维度等，本文的目的是详细讨论一下具体是怎么拼接的。如果本来就理解这其中的原理的童鞋就不用往下看了，肯…

人工智能 2023年6月13日
0081
MAE详解

目录一、介绍二、网络结构 1. encoder 2. decoder 3. LOSS 三、实验全文参考：论文阅读笔记：Masked Autoencoders Are Scal…

人工智能 2023年6月23日
00139
PyTorch搭建CNN-LSTM混合模型实现多变量多步长时间序列预测（负荷预测）

目录 I. 前言 II. CNN-LSTM III. 代码实现 * 3.1 数据处理 3.2 模型训练/测试 3.3 实验结果 IV. 源码及数据 I. 前言前面已经写了很多关于…

人工智能 2023年7月24日
0085
Windows10利用anaconda安装tensorflow 1.5.0

由于自己在根据网上文章安装tensorflow时遇到一些问题，这里简要记录一下自己的安装流程。 1、安装anaconda 特定的方法可以自己搜索，这里不再详细说明。 [En] Sp…

人工智能 2023年5月24日
0084
什么是卷积神经网络（CNN），它在深度学习中的应用是什么

什么是卷积神经网络（CNN）？卷积神经网络（Convolutional Neural Network，缩写为CNN）是一种深度学习模型，特别适用于处理具有网络结构的数据，如图像、…

人工智能 2024年1月1日
0030

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

第二章 初识ETL 课后作业

大家都在看

第二章初识ETL 课后作业