机器学习期末考试判断题

2023年5月31日上午10:22 • 人工智能 • 阅读 135

1.集合中的元素没有特定顺序但可以重复。

参考答案：错误

集合（set）是一个无序的不重复元素序列。

创建一个空集合必须用 set() 而不是 { }，因为 { } 用来创建一个空字典。

2.在距离度量中，最常用的是”闵可夫斯基距离”。当p=2时，闵可夫斯基距离就是欧式距离，当p=1时，闵可夫斯基距离就是曼哈顿距离。

参考答案：正确

3.聚类和分类的区别在于用于聚类的训练样本的类标记是未知的。

参考答案：正确

聚类无标签

4.机器学习算法在图像识别领域的性能表现可能会超过人类。

参考答案：正确

人类生活在看得见和看不见的世界

5.列表是不可变对象，支持在原处修改。

参考答案：错误

前后逻辑矛盾，不可变对象怎么修改。

6.决策树学习是一种逼近离散值目标函数的方法，学习到的函数被表示为一棵决策树。

参考答案：正确

7.梯度下降，就是沿着函数的梯度（导数）方向更新自变量，使得函数的取值越来越小，直至达到全局最小或者局部最小。

参考答案：正确

在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。在机器学习算法中，在最小化损失函数时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数，和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。梯度下降是一个函数f(x)找它的最小值所在点的一种方法。

梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。在机器学习中，基于基本的梯度下降法发展了两种梯度下降方法，分别为随机梯度下降法和批量梯度下降法。

8.学习率越大，训练速度越快，最优解越精确。

参考答案：错误

9.线性回归是一种有监督机器学习算法，它使用真实的标签进行训练。

参考答案：正确

10.最小二乘法是基于预测值和真实值的均方差最小化的方法来估计线性回归学习器的参数w和b。

参考答案：正确

11.完成的训练模型可以保存为外部文件，再次使用模型时，不需要重新训练。

参考答案：正确

12.精确率、查全率、准确率、F1分数四种指标各有侧重，指标值都是越高越好，最佳值均为1，最差值均为0。

参考答案：正确

F1分数（F1 Score），是统计学中用来衡量二分类（或多任务二分类）模型精确度的一种指标。它同时兼顾了分类模型的准确率和召回率。F1分数可以看作是模型准确率和召回率的一种加权平均，它的最大值是1，最小值是0，值越大意味着模型越好。

13.查全率越高，意味着模型漏掉的样本越少，当假阴性的成本很高时，查全率指标有助于衡量模型的好坏。

参考答案：正确

真实 1

真实 0

预测1

True Positive(TP)真阳性

False Positive(FP)假阳性

预测0

False Negative(FN)假阴性

True Negative(TN)真阴性

查准率（precision ），指的是 预测值为 1且 真实值也为 1的样本在 预测值 为 1 的所有样本中所占的比例。召回率（recall ），也叫查全率，指的是 预测值为 1且 真实值也为 1的样本在 真实值 为 1 的所有样本中所占的比例。平衡F 分数（BalancedScore ）。

14.列表、元组和字符串都支持双向索引，有效索引的范围为[-L,L]，L为列表、元组或字符串的长度。

参考答案：错误

字符串属于 Python 有序序列,和列表、元组一样都支持双向索引。

从第二位开始（包含）截取到倒数第二位（不包含） print (“list[1:-2]:”,list [1 :-2 ])

字符串等正序从下标0 开始，有效索引的范围为[-L,L-1]

15.列表、元组和字符串属于有序序列，其中的元素有严格的先后顺序。

参考答案：正确

16.一般的，一棵决策树包含一个根结点、若干个内部结点和若干个叶结点；叶结点对应于决策结果，其他每个结点则对应于一个属性测试；根结点包含样本全集。

参考答案：正确

17.Sigmoid函数能够把输入的连续实值变换为0和1之间的输出。

参考答案：正确

Sigmoid函数将线性回归线转为逻辑回归线。

18.监督学习的学习数据既有特征（feature），也有标签（label）。

参考答案：正确

19.线性回归主要用于解决回归问题，其因变量是连续的值。

参考答案：正确

20.k 均值算法，是一种原型聚类算法。

参考答案：正确

21.聚类生成的组称为簇，簇内任意对象之间具有较高的相似度，而簇间任意对象之间具有较高的相异度。

参考答案：正确

22.超参数选择不当，会对模型有较大的负面影响，所以在参数调整策略方面，所有超参数都同等重要。

参考答案：错误

通常可以将超参数分为三类：网络参数、优化参数、正则化参数。

网络参数：可指网络层与层之间的交互方式（相加、相乘或者串接等）、卷积核数量和卷积核尺寸、网络层数（也称深度）和激活函数等。

优化参数：一般指学习率（learning rate）、批样本数量（batch size）、不同优化器的参数以及部分损失函数的可调参数。

正则化：权重衰减系数，丢弃比率（dropout）。

本质上，参数调整是模型优化寻找最优解和正则项之间的关系。网络模型优化调整的目的是为了寻找到全局最优解（或者相比更好的局部最优解），而正则项又希望模型尽量拟合到最优。两者通常情况下，存在一定的对立，但两者的目标是一致的，即最小化期望风险。模型优化希望最小化经验风险，而容易陷入过拟合，正则项用来约束模型复杂度。所以如何平衡两者之间的关系，得到最优或者较优的解就是超参数调整优化的目的。

超参数在调整中重要程度分先后，在具体项目中具体而论。

23.训练集与验证集的样本是不同的。

参考答案：正确

24.在各类机器学习算法中，过拟合和欠拟合都是可以彻底避免的。

参考答案：错误

机器学习永远在寻找最优解的路上。

25.寻找最优超参数费时费力，应该在模型训练之前就指定最优参数。

参考答案：错误

采用模型和数据集的不同导致模型训练前人为或经验可以预估参数，但无法指定最优参数。这句话若是正确就是对机器学习的颠覆。

26.准确率是所有正确识别的样本占样本总量的比例。当所有类别都同等重要时，采用准确率最为简单直观。

参考答案：正确

27.Pandas 中利用merge 函数合并数据表时默认的是内连接方式。

参考答案：正确

28.同一个列表中的元素的数据类型可以各不相同。

参考答案：正确

29.回归中利用最小二乘法主要通过最小化误差的平方来寻找一个数据匹配的最佳函数。

参考答案：正确

30.均方根误差与均方误差二者没有关系。

参考答案：错误

首先应该了解，”均”代表的意思是”平均Mean”，”方”代表的意思是”平方Square”，”根”代表的意思是”开放Root”，”误差”代表的意思是”测量值和真值的差Error”，”差”代表的意思是”样本值和样本均值的差”。故而下面的几个

均方根误差（RMSE）：顾名思义，均方根误差是对样本点的测量值和真值先做差，再求平方，然后做平均运算，最后做开方。其表征的含义是，测量值与真值曲线的拟合程度。用来衡量测量的准确程度，均方根误差值越小，测量精度越高。

均方根（RMS）:顾名思义，均方根是对样本值先进行平方运算，再求平均值，然后开放。其表征的含义是，交流电压和电流的有效值，用来衡量平均功率。

方差（Variance）：方差的概念和前面的词义拆分不对应，具体原因在寻找。其是先对样本值和样本均值求差，再求平方和，然后求平均。

均方差（Standard Deviation）：均方差的概念也和前面的词义拆分不相对应。其是先对样本值和样本均值先求差，再求平方和，然后求平均，最后开方运算。

均方根误差，均方误差和均方差与方差的区别：显然，两组词一个以”误差”结尾，一个以”差”结尾。故而均方根误差和均方误差表征的是测量曲线和真值曲线的拟合程度，而方差和均方差代表的是样本值和样本均值的拟合程度，换句话说，即样本值的离散程度。

31.k近邻学习是一种常用的监督学习方法，其工作机制为：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k个邻居信息进行预测。因此k 近邻算法的核心是k 值和距离度量的选取。

参考答案：正确

32.信息熵是度量样本集合纯度最常用的一种指标。信息熵的值越大，说明样本集合的纯度越高。

参考答案：错误

化学中熵指的是混乱程度，信息熵越高信息越混乱，样本集合脏数据越多。

33.Sigmoid函数的导数是以它本身为因变量的函数。

参考答案：正确

34.数据集一般划分为训练集、验证集和测试集三部分，训练集用于建模，验证集（开发集）用于模型验证与矫正，测试集用于模型的最终评估。

参考答案：正确

35.F1值是精确率与查全率的加权平均值，综合平衡了精确率与查全率两个指标的特点，F1 值突出对分类错误的评估。

参考答案：正确

36.在数据规模较小时，通过数据增强技术，可以有效弥补数据集的不足，扩充数据量，改善数据分布，提升模型训练质量。

参考答案：正确

37.岭回归是对线性回归的优化，在线性回归的基础上，对损失函数增加了一个L2正则项，目的是降低方差，提高模型泛化能力。

参考答案：正确

38.训练/测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响，例如在分类任务中至少要保持样本的类别比例相似。

参考答案：正确

39.Python 使用lambda 创建匿名函数，匿名函数拥有自己的命名空间。

参考答案：正确

40.Pandas中可以通过行索引或行索引位置的切片形式选取行数据。

参考答案：正确

41.面对大规模数据集时，模型训练更容易发生过拟合现象。

参考答案：错误

过拟合与数据集规模没有必然联系。

42.直观上看，我们希望”物以类聚”，即聚类的结果”簇内相似度”高，且”簇间”相似度低。

参考答案：正确

这句话描述了分类成功的结果与期望，分类本身就是要同类结合，特征明显。

43.若按照属性a划分后获得的信息增益越大，意味着使用属性a划分所获得的纯度提升越大。因此，可选择获得最大信息增益的属性作为决策树的最优划分属性。著名的ID3 决策树学习算法就是以信息增益为准则来选择划分属性的。

参考答案：正确

44.通过求解损失函数的最小值，可以实现求解模型参数、优化模型参数和评价模型学习效果的目的。

参考答案：正确

45.逻辑回归算法是一种广义的线性回归分析方法，它仅在线性回归算法的基础上，利用Sigmoid函数对事件发生的概率进行预测。

参考答案：正确

46.逻辑斯蒂（对数几率）回归是一种回归学习方法。

参考答案：错误

试题解析：解析：逻辑斯蒂（对数几率）回归是一种分类学习方法。

逻辑斯蒂回归(周志华书中把他叫做对数几率回归)不是用于回归而是用于分类，是用来解决二分类的问题（Binary Classification）。

47.正则化是为了防止模型过拟合而引入额外信息，对模型原有逻辑进行外部干预和修正，从而提高模型的泛化能力。

参考答案：正确

48.聚类需要从没有标签的一组输入向量中寻找数据的模型和规律。

参考答案：正确

聚类无监督

49.对于大规模数据集而言，数据增强是一种有效提升数据质量的手段。

参考答案：正确

50.Lasso回归是对线性回归的优化，在线性回归的基础上，对损失函数增加了一个L1正则项，目的是降低方差，提高模型泛化能力。

参考答案：正确

Lasso回归是在损失函数后，加L1正则化，如下所示：

51.回归预测的目标函数是离散值，分类预测的目标函数是连续值。

参考答案：错误

刚好颠倒

52.数据标准化有利于加快模型的收敛速度，提升模型的泛化能力。

参考答案：正确

53.精确率越高，意味着误报率越低，因此，当误报的成本较高时，精确率指标有助于判断模型的好坏。

参考答案：正确

试卷分析：多选题考察主要涉及Python基础、Python第三方库科学计算基础软件包NumPy、结构化数据分析工具Pandas、绘图库Matplotlib、科学计算工具包SciPy等的具体应用、机器学习基本流程、数据集知识、机器学习模型优化方法、回归与分类问题等，试题中出现的难点深挖角度来说不少。总的来说，题目有一定难度但由于题型缘故，非黑即白，得分还是较为容易。

Original: https://blog.csdn.net/anmin8888/article/details/121310590
Author: kylinmin
Title: 机器学习期末考试判断题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550532/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

PyTorch中的循环神经网络（RNN）是如何实现的

PyTorch中循环神经网络（RNN）的实现循环神经网络（Recurrent Neural Network，简称RNN）是一种能够对序列数据进行建模的神经网络模型。在PyTorc…

人工智能 2024年1月2日
0039
【学习记录】用pytorch自己写数据生成器

学习过程中的记&#…

人工智能 2023年7月23日
0048
Python分类实例之猫狗大战

目录作者介绍编程实战指南比赛数据集介绍（Dogs vs cats）环境配置模型定义数据加载训练和测试结果展示参考作者介绍周新龙，男，西安工程大学电子信息学院…

人工智能 2023年6月24日
0075
计算机视觉教程3-1：全面详解图像边缘检测算法(附Python实战)

目录 0 写在前面 1 一阶微分算子 * 1.1 Prewitt算子 1.2 Sobel算子 2 二阶微分算子 * 2.1 Laplace算子 2.2 LoG算子 3 Canny边…

人工智能 2023年7月5日
0099
【深度学习】2-模型在测试集的准确率大于训练集

🚩 前言 🚩 活动地址：CSDN21天学习挑战赛🚀 博主主页：清风莫追保持输入，保持输出！（引用我某朋友的一句话）文章目录 🚩 前言 1. 问题描述 2. 解决问题 * 2….

人工智能 2023年6月23日
0089
吴恩达 – 机器学习课程笔记（持续更新）

一、机器学习 1.1 机器学习定义计算机程序从经验E中学习，解决某一任务T，进行某一性能P，通过P测定在T上的表现因经验E而提高eg：跳棋程序E：程序自身下的上万盘棋局T：下…

人工智能 2023年6月18日
00106
误差反向传播算法的原理是什么

问题：误差反向传播算法的原理是什么？详细介绍误差反向传播算法（Error Backpropagation Algorithm）是一种用于训练人工神经网络的广泛使用的算法。它通过…

人工智能 2024年1月4日
0046
回归模型的score得分为负_深度研究：回归模型评价指标R2_score

回归模型的性能的评价指标主要有：RMSE(平方根误差)、MAE(平均绝对误差)、MSE(平均平方误差)、R2_score。但是当量纲不同时，RMSE、MAE、MSE难以衡量模型效果…

人工智能 2023年6月18日
00116
利用谷歌colab跑github代码AttnGAN详细步骤深度学习实验（colab+pytorch+jupyter+github+AttnGAN）

Google Colab，全名Colaboratory，是由谷歌提供的免费的云平台，可以使用pytorch、keras、tensorflow等框架进行深度学习。其GPU为Tesla…

人工智能 2023年7月22日
0061
利用python爬取信息并保存到excel

哈喽，大家好！今天小编为大家带来好消息呢我们应该如何把爬取的信息保存到excel呢。首先我们讲存入excel经常用到的库，xlrd，xlwt ，xlwings，openpyxl…

人工智能 2023年7月15日
0058
深度学习笔记—多尺度网络结构归类总结

目录 1.什么是图像金字塔 1.1 高斯金字塔 ( Gaussian pyramid): 1.2 拉普拉斯金字塔（Laplacian pyramid） 1.3 DOG金字塔 2. …

人工智能 2023年6月24日
00115
【预训练语言模型】ERNIE: Enhanced Language Representation with Informative Entities（ERNIE）

ERNIE: Enhanced Language Representation with Informative Entities（ERNIE）前记：【预训练语言模型】系列文章…

人工智能 2023年6月10日
0077
NLP-自然语言处理-文本分类-总结-Tensorflow2.0版

一、文本分类综述 1、基本概念（1）定义在给定的分类体系中（eg:文档P（可能含有标题t）），将文本分到指定的某个或某几个类别当中（2）分类对象短文本（句子/标题/…

人工智能 2023年5月24日
0086
Python的张量运算

目录 1 机器学习中张量的创建 2 索引和切片访问张量中的数据 3 张量的整体操作和逐元素运算 4 张量的变形和转置 * 4.1 变形 4.2 转置 5 Python中的广播 6 …

人工智能 2023年6月16日
0057
ubuntu18.04卸载opencv3.4.16安装opencv4.1.2全教程

最近因为作YOLOP，搞车道识别和机场跑道识别，对opencv版本有较高要求，所以将最开始安装的OpenCV3.4.16卸载，重新安装4.1.2版本参考大佬操作的链接，中间有些…

人工智能 2023年7月19日
0068
吴恩达—机器学习的流程（持续更新）

参考：吴恩达机器学习的视频本文用于我自己的内容总结以及层次理解。学习流程： 1. 具有一个特征的学习算法（linear regression 线性回归），代价函数编辑的由来…

人工智能 2023年6月18日
0071

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

机器学习期末考试判断题

大家都在看