深度学习必知概念

2023年7月17日下午3:14 • 人工智能 • 阅读 70

公众号：尤而小屋
作者：Peter
编辑：Peter

大家好，我是Peter~

本文主要机器学习的一些基本内容，包含：

除了分类和回归之外的其他机器学习形式
评估机器学习模型的规范流程
为深度学习准备数据
特征工程
解决过拟合
处理机器学习问题的通用流程

; 机器学习4个分支

监督学习supervised learning

最常见的机器学习类型。给定一组样本（通常是人工标准），它可以学会将数据映射到已知目标（也叫标注）。监督学习广泛应用到光学字符识别、语音识别、图像分类和语言翻译。

监督学习除了回归和分类，还有其他变体：

序列生成
语法树预测
目标检测
图像分割

无监督学习

无监督学习是指在没有目标的情况下寻找输入数据的有趣变换，目的是在于 数据可视化、数据压缩、数据去噪或者更好地理解数据中的相关性。

主要是降维和聚类

自监督学习

自监督学习是监督学习的特例。自监督学习可以看做是没有人工标注的标签的监督学习。

标签是仍然存在的，但是他们是从输入数据中生成的，通常是使用启发式算法生成的。

一个常见的例子就是：自编码器autoencoder，其目标就是未经修改的输入。

给定视频中过去的帧来预测下一帧，或者给定文本中前面的词语来预测下一个次，都是属于自监督学习的例子（这两个例子是 时序监督学习的例子）

强化学习

强化学习是因为谷歌的DeepMind公司将其成功应用于学习完Atari游戏（还有围棋阿尔法狗）中，才开始被广泛关注。

在强化学习中，智能体agent接收有关其环境的信息，并学会选择使其某种奖励最大化的行动。

分类和回归术语

总结一下回归和分类中常出现的术语：

样本、输入：进入模型的数据点
预测、输出：从模型出来的结果
目标：真实值。对于外部数据源，理想状态下，模型能够预测出真实值
预测误差、损失值：预测值和真实值之间的距离
类别：分类问题中供选择的一组标签。比如对猫狗图像进行分类时，猫和狗就是标签
标签：分类问题中类别标注的具体例子。比如1234号图像被标注为包含类别狗，那么”狗”就是1234号图像的标签
真实值和标注：数据集的所有目标。通常是人工收集
二分类：一种分类任务，每个输入样本应该被划分到 两个互斥的类别中
多分类：一种分类任务，每个输入样本应该被划分到多个不同的类别中，比如手写数字分类
多标签分类：一种分类任务，每个输入样本都可以分配多个标签。比如一幅图像中既有猫又有狗，那么应该同时标注猫标签和狗标签。每幅图像的标签个数通常是可变的。
标量回归：目标是连续标量值的任务。比如预测房价
向量回归：目标是一组连续值（比如一个连续变量）的任务。如果对多个值进行回归，就是向量回归
小批量或批量：模型同时处理的一小部分样本，通常是8-128.样本数通常是2的幂，方便CPU上的内存分配。训练时，小批量用来为模型权重计算一次梯度下降更新。

评估机器学习的模型

机器学习的目的是得到可以泛化的模型：在前所未见的数据集上也能够表现的很好，而过拟合则是核心难点。

3大数据集

评估模型的重点是将数据划分为：训练集、验证集和测试集

训练集：训练模型
验证集：评估模型
测试集：最后一次的测试

模型一定不能读取与测试集任何相关的信息，即使是间接读取也不行。3大经典评估方法：

简单的留出验证
K折验证
带有打乱数据的重复K折验证

3大评估方法

简单的留出验证（hold-out validation）

留出一定的比例的数据作为测试集，在剩余的数据集上训练数据，然后在测试集上评估模型。

为了防止信息泄露，我们不能基于测试集来调节模型，必须保留一个验证集。


num_validation_samples = 10000

np.random.shuffle(data)

validation_data = data[:num_validation_samples]

data = data[num_validation_samples:]
train_data = data

model = get_model()
model.train(train_data)

validation_score = model.evaluate(validation_data)

model = get_model()

model.train(np.concatenate([train_data,validation_data]))

test_score = model.evaluate(test_data)

一个缺点：如果可用的数据很少，可能验证集和测试集包含的样本很少，从而无法从统计学上代表数据。

因此就有了K折验证和重复的K折验证来解决这个问题。

K折验证

使用K折交叉验证的基本原来：

将数据划分为K个分区，通常是4或者5
实例化K个模型，将模型在K-1个分区上训练，剩下的一个区上进行评估
模型的验证分数等于K个验证分数的均值。

如何K折交叉验证：以3折交叉验证为例


k = 4

num_validation_samples = len(data) // k

np.random.shuffle(data)

validation_scores = []

for fold in range(k):

    validation_data = data[fold * num_validation_samples: (fold + 1) * num_validation_samples]

    train_data = data[: fold * num_validation_samples] + data[(fold + 1) * num_validation_samples:]

    model = get_model()
    model.train(train_data)

    validation_score = model.evaluate(validation_data)
    validation_scores.append(validation_score)

validation_score = np.average(validation_scores)

model = get_model()
model.train(data)
test_score = model.evaluate(test_data)

带有打乱数据的K折验证

如果数据很少，又想精确地评估模型，可以使用打乱数据的K折交叉验证：iterated K-fold validation with shuffling。

具体做法： 在每次将数据划分为k个分区之前，先将数据打乱，最终分数是每个K折验证分数的均值

注意：这个做法一共要训练和评估P*K个模型，P是重复次数，计算代价很大。

评估模型的注意事项

数据代表性：随机打乱数据
时间箭头：如果想根据过去预测未来，即针对所谓的时间序列的数据，则不应该随机打乱数据，这样会造成 时间泄露
数据冗余：确保训练集和验证集之间没有交集

数据预处理、特征工程和特征学习

预处理

预处理的主要步骤：

向量化
标准化
处理缺失值
特征提取

向量化

神经网络的所有输入和输出都必须是 浮点张量。都必须转成张量，这一步叫做向量化data vectorization

值标准化

数据输入网络前，对每个特征分别做标准化，使其均值为0，标准差为1。

输入神经网络的数据应该具有以下特征：

取值较小：大部分取值在0-1范围内
同质性(homogenous)：所有特征的取值范围都在大致相同的范围内

Numpy实现的标准化过程：

X -= X.mean(axis=0)
X -= X.std(axis=0)

缺失值处理

在神经网络中，一般将缺失值用0填充。

特征工程

根据已有的知识对数据进行编码的转换，以改善模型的效果。

特征工程的本质：用更简单的方式表述问题，从而使得问题变得更容易。

现在大部分的深度学习是不需要特征工程的，因为神经网络能够从原始数据中自动提取有用的特征。

; 解决过拟合

什么是过拟合和欠拟合

机器学习的根本问题是优化和泛化的对立。

优化：调节模型以在训练集上得到最佳性能；泛化：训练好的模型在未知数据上的性能好坏。

过拟合overfit：模型在训练集上表现良好，但是在测试集上表现不好。过拟合存在所有的机器学习问题中。
欠拟合underfit：训练数据上的损失越小，测试数据上的数据损失也越小。

过拟合和欠拟合的产生

1、欠拟合问题，根本的原因是特征维度过少，导致拟合的函数无法满足训练集，误差较大。

解决方法：欠拟合问题可以通过增加特征维度来解决。

2、过拟合问题，根本的原因则是特征维度过多，导致拟合的函数完美的经过训练集，但是对新数据的预测结果则较差。解决过拟合问题，则有2个途径：

减少特征维度；可以人工选择保留的特征，或者模型选择算法
正则化；保留所有的特征，通过降低参数θ的值，来影响模型

3招解决过拟合

减小网络大小

防止过拟合最简单的方案：减小模型大小，即减少模型中学习参数的个数（层数和每层的单元个数决定）。

容量：在深度学习中，模型中可学习参数的个数称之为容量。

使用的模型必须具有足够多的参数，以防止过拟合，即模型应该避免记忆资源不足。


import tensorflow as tf
import keras as models
import keras as layers

model = models.Sequential()
model.add(tf.keras.Dense(16, activation="relu",input_shape=(10000, )))
model.add(tf.keras.Dense(16, activation="relu"))
model.add(tf.keras.Dense(1, activation="sigmoid"))

用一个更小的网络来替代：

model = models.Sequential()
model.add(tf.keras.Dense(4, activation="relu",input_shape=(10000, )))
model.add(tf.keras.Dense(4, activation="relu"))
model.add(tf.keras.Dense(1, activation="sigmoid"))

我们发现：更小的网络开始过拟合的时间要晚于之前的网络；而且小网络的性能变差的速度也更慢。

换成更大的模型：

model = models.Sequential()
model.add(tf.keras.Dense(512, activation="relu",input_shape=(10000, )))
model.add(tf.keras.Dense(512, activation="relu"))
model.add(tf.keras.Dense(1, activation="sigmoid"))

网络的容量越大，拟合训练数据的速度也越快，更容易过拟合。

添加权重正则化（最佳）

奥卡姆剃刀(Occams razor) 原理：如果一件事有两种解释，那么最可能正确的就是最简单的那个，即假设更少的那个。

权重正则化：强制让模型权重只能取较小的值，从而限制模型的复杂度，使得权重的分布更加规则regular。其实现方法：向网络损失函数中添加与较大权重值相关的成本。

具体两种方式：

L1正则化：权重系数的绝对值；L1范数
L2正则化：权重系数的平方；L2范数

神经网络中的L2正则化也叫做权重衰减weight decay。

Keras中添加权重正则化的方法是向层传递：权重正则化实例作为关键字参数，以添加L2权重正则化为例：

from keras import regularizers

model = models.Sequential()
model.add(tf.keras.layers.Dense(16,kernel_regularizer=regularizers.l2(0.001),
                               activation="relu",
                               input_shape=(10000,)))
model.add(tf.keras.layers.Dense(16,kernel_regularizer=regularizers.l2(0.001),
                               activation="relu"))
model.add(tf.keras.layers.Dense(1,activation="sigmoid"))

l2(0.001)的意思是该层权重矩阵的每个系数都会使网络总损失增加0.001*weight_coeffient_value

由于这个惩罚项只在训练时添加，所以网络的训练损失会比测试损失大的多

添加L2正则项前后对比：

其他权重正则化的添加方式：

from keras import regularizers

regularizers.l1(0.001)
regularizers.l1_l2(l1=0.001, l2=0.001)

添加dropout正则化

dropout是神经网络中最有效也是最常用的正则化方式之一， 做法：在训练过程中随机将该层的一些输入特征舍弃（设置为0）

dropout的比例就是被设置为0的特征所占的比例，通常在0.2-0.5之间。添加dropout的具体过程：

model.add(tf.keras.layers.Dropout(0.5))

要应用在前面一层的输出

model = models.Sequential()
model.add(tf.keras.layers.Dense(16,activation="relu",input_shape=(10000,)))
model.add(tf.keras.layers.Dropout(0.5))
model.add(tf.keras.layers.Dense(16,activation="relu"))
model.add(tf.keras.layers.Dropout(0.5))
model.add(tf.keras.layers.Dense(1,activation="sigmoid"))

总结

防止神经网络过拟合的方法：

获取更多的训练数据
减小网络容量
添加权重正则化
添加dropout

机器学习的通用工作流程

问题定义、收集数据
选择衡量成功的标准
平衡分类问题：精度和接受者操作特征曲线下面积-ROC/AUC
分类不平衡问题：准确率和召回率
确定评估方法
留出验证集
K折交叉验证
重复的K折交叉验证
准备数据
数据转成张量
取值缩放到0-1之间
数据标准化
特征工程
开发比基准更好的模型

扩发模型规模：开发过拟合的模型

机器学习中无处不在的对立是优化和泛化的对立，理想的模型是刚好在欠拟合和过拟合的边界上，在容量不足和容量过大的边界上。

为了弄清楚我们需要多大的模型，就必须开发一个过拟合的模型：

添加更多的层
让每一层变的更大
训练更多的轮次

在训练的过程中始终监控训练损失和验证损失，以及我们关心的指标。

模型正则化和调节参数
添加dropout
尝试增加或者减少层数
添加L1或者L2正则化项
尝试不同的超参数
反复做特征工程

Original: https://blog.csdn.net/qq_25443541/article/details/123935979
Author: 尤尔小屋的猫
Title: 深度学习必知概念

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698918/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【机器学习】回归决策树

回归决策树 1. 原理概述 2. 算法描述 3. 简单实例 * 3.1 实例计算过程 3.2 回归决策树和线性回归对比 4. 小结原理概述上篇文章已经讲到，关于数据类型，我们…

人工智能 2023年6月17日
0077
Python神经网络

神经网络介绍神经网络人工神经网络（Artificial Neural Networks）也简称为神经网络（NN）。是模拟人类大脑神经网络的结构和行为。 20 世纪 80 年代以…

人工智能 2023年7月14日
0073
基于LSTM的新型冠状病毒预测模型

基于LSTM的新型冠状病毒预测模型 LSTM的优势 * 我们本次使用tensorflow搭建LSTM模型 – + 1.导入相应的包 2.数据处理过程这里不做展示，主要是…

人工智能 2023年5月26日
0095
如何在anaconda里面安装pytorch

巧妙的方法直接在自己的环境终端下输入，我一般都是这样安装，很方便稳定。 pip install torch==1.7.0+cu110 torchvision==0.8.1+cu1…

人工智能 2023年7月28日
0073
基于ResNet50的CIFAR10分类

本次运用了 ResNet50进行了图像分类处理（基于Pytorch) 一、数据集 CIFAR-10数据集共有60000张彩色图像，这些图像是32*32，分为10个类，每类6000张…

人工智能 2023年6月30日
0074
如何在linux上直接运行python程序（感谢亮赶同学）

如何在linux上直接运行python程序（感谢亮赶同学） ==最后感谢亮赶同学的帮助== 之前亮赶同学在我的服务器上一顿操作，给我把数据路径问题解决了，随后拂袖而去，这让身为小白…

人工智能 2023年7月29日
0057
联邦学习激励机制

联邦学习激励机制每日一诗：《杂兴其二》清 · 张廷玉我闻昔人言，苛政猛如虎。又诵《魏风》篇，硕鼠况贪取。嗟哉牧民人，煌煌绾圭组。乃以父母称，而为众所苦。驺虞有仁心，麟趾中规矩。…

人工智能 2023年6月25日
0082
[Pyecharts]数据可视化大屏展示

【Pyecharts】大屏展示-练习前言 * 1.条件： 2.代码及展示 – 时间序列曲线图时间轮播 24小时轮播 1：2：3 拥堵路段词云图拥堵榜、通畅榜水球…

人工智能 2023年6月19日
00125
史上最全解决ModuleNotFoundError: No module named ‘cv2‘等错误

解决 ModuleNotFoundError: No module named ‘XXXXX’ 以opencv为例子，别的错误类似解决：在安装opevnc…

人工智能 2023年6月18日
0080
Transformer 中比较晦涩难懂的东西

文章目录 * – Transformer 中比较晦涩难懂的东西 – + keras 实现mask + * encoder部分[对输入进行操作] * dec…

人工智能 2023年7月14日
0092
【pytorch】optimizer（优化器）的使用详解

目录 1 创建一个 Optimizer * 一个简单的例子：求目标函数的最小值 Per-parameter 的优化器 2 Taking an optimization step 开…

人工智能 2023年7月22日
0061
（详细步骤+双y等常用命令）使用plot绘制MATLAB/SIMULINK中的数据（to workspace）

目录 0 背景 1 两种方法 1.1 方法一 1.2 方法二 2 常用的画图命令 2.1 设置plot坐标轴和标题 2.2 设置plot图像中字体大小（坐标轴、图例、刻度） 2.3…

人工智能 2023年7月17日
0091
Kaggle，上传，GPU，下载

遇到没GPU想训练模型的情况，CPU跑好久，可利用Kaggle的云GPU。 1、注册参考[1]，其中，kaggle官网：地址 2、进入主页，可用creat创建nootbook，之…

人工智能 2023年7月27日
0045
毕设学习笔记

目录 1.第一个python程序 2.用pycharm编写程序 * 2.1标准化输出字符串 2.2 强制类型转换 3.条件判断语句 * 3.1 知识点 3.2举例 4.循环控制语句…

人工智能 2023年6月11日
00108
独家巨献！阿里专家兼Github贡献者，整理的SpringBoot入门到成神

现在基本都是使用 Spring Boot 框架进行系统开发集成，效率杠杠的，如果你还没用过 Spring Boot，那就太 out 了！今天给大家带来的是一份出身自阿里巴巴，兼国…

人工智能 2023年6月27日
0062
可解释深度学习：从感受野到深度学习的三大基本任务：图像分类，语义分割，目标检测，让你真正理解深度学习

目录前言一、初识感受野 1.1猜一猜他是什么？ 1.2人眼视觉系统下的感受野 1.3深度神经网络中的感受野 1.3.1感受野的性质 1.3.2感受野的定义 1.3.3举一个例子…

人工智能 2023年6月23日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31