使用Pytorch解决回归问题的一般方法

2023年6月15日上午9:22 • 人工智能 • 阅读 65

1 数据预处理

1.1 读取数据

读取数据后，将数据划分为标签(y)与特征(x)两类。

这里假设数据存储在excel表格中（为了尽可能与实际情况相符，不直接使用sklearn或者pytorch自带的数据集）。数据来源是sklearn中的波士顿房价，不过作者先将数据转存到了excel中，这与实际工作中的应用场景比较相符。

使用pandas读取数据：

import pandas as pd
'''&#x5BFC;&#x5165;&#x6570;&#x636E;'''
data = pd.read_excel('&#x6CE2;&#x58EB;&#x987F;&#x623F;&#x4EF7;&#x9884;&#x6D4B;.xlsx',header=None,index_col=None)  # &#x4E00;&#x5171;506&#x7EC4;&#x6570;&#x636E;&#xFF0C;&#x6BCF;&#x7EC4;&#x6570;&#x636E;13&#x4E2A;&#x7279;&#x5F81;&#xFF0C;13&#x4E2A;&#x7279;&#x5F81;&#x5BF9;&#x5E94;&#x4E00;&#x4E2A;&#x8F93;&#x51FA;
x = data.loc[:, 0:12]  # &#x5C06;&#x7279;&#x5F81;&#x6570;&#x636E;&#x5B58;&#x50A8;&#x5728;x&#x4E2D;&#xFF0C;&#x8868;&#x683C;&#x524D;13&#x5217;&#x4E3A;&#x7279;&#x5F81;,
y = data.loc[:, 13:13]  # &#x5C06;&#x6807;&#x7B7E;&#x6570;&#x636E;&#x5B58;&#x50A8;&#x5728;y&#x4E2D;&#xFF0C;&#x8868;&#x683C;&#x6700;&#x540E;&#x4E00;&#x5217;&#x4E3A;&#x6807;&#x7B7E;

1.2 归一化（Min-Max Scaling）与标准化（Standardization ）

对1.1划分好的标签执行归一化或者标准化操作。归一化与标准化均不改变数据分布，归一化后数据会在0，1之间（也可以设置成其他任意范围）；标准化后数据的均值为0，方差为1。值得注意的是，归一化以及标准化均不会改变数据本身的分布，标准化后的数据并不一定是标准是标准正态分布，具体分布与标准化之前的分布一致。

在大多数机器学习算法中，由于归一化对异常值非常敏感，所以通常会选择标准化进行特征缩放，在神经网络算法中也是采用标准化处理数据。

归一化：

标准化：

使用sklearn实现归一化：

'''&#x5BF9;&#x6BCF;&#x5217;&#xFF08;&#x7279;&#x5F81;&#xFF09;&#x5F52;&#x4E00;&#x5316;'''
from sklearn.preprocessing import MinMaxScaler # &#x5BFC;&#x5165;&#x5F52;&#x4E00;&#x5316;&#x6A21;&#x5757;

feature_range&#x63A7;&#x5236;&#x538B;&#x7F29;&#x6570;&#x636E;&#x8303;&#x56F4;&#xFF0C;&#x9ED8;&#x8BA4;[0,1]
scaler = MinMaxScaler(feature_range=[0,1]) # &#x5B9E;&#x4F8B;&#x5316;&#xFF0C;&#x8C03;&#x6574;0,1&#x7684;&#x6570;&#x503C;&#x53EF;&#x4EE5;&#x6539;&#x53D8;&#x5F52;&#x4E00;&#x5316;&#x8303;&#x56F4;

X = scaler.fit_transform(x)  # &#x5C06;&#x6807;&#x7B7E;&#x5F52;&#x4E00;&#x5316;&#x5230;0,1&#x4E4B;&#x95F4;
Y = scaler.fit_transform(y)  # &#x5C06;&#x7279;&#x5F81;&#x5F52;&#x4E8E;&#x5316;&#x5230;0,1&#x4E4B;&#x95F4;

x = scaler.inverse_transform(X) # &#x5C06;&#x6570;&#x636E;&#x6062;&#x590D;&#x81F3;&#x5F52;&#x4E00;&#x5316;&#x4E4B;&#x524D;

使用sklearn实现标准化：

'''&#x5BF9;&#x6BCF;&#x5217;&#x6570;&#x636E;&#x6267;&#x884C;&#x6807;&#x51C6;&#x5316;'''

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()  # &#x5B9E;&#x4F8B;&#x5316;
X = scaler.fit_transform(x)  # &#x6807;&#x51C6;&#x5316;&#x7279;&#x5F81;
Y = scaler.fit_transform(y)  # &#x6807;&#x51C6;&#x5316;&#x6807;&#x7B7E;

x = scaler.inverse_transform(X) # &#x8FD9;&#x884C;&#x4EE3;&#x7801;&#x53EF;&#x4EE5;&#x5C06;&#x6570;&#x636E;&#x6062;&#x590D;&#x81F3;&#x6807;&#x51C6;&#x5316;&#x4E4B;&#x524D;

1.3 划分数据集

数据执行标准化或归一化后，需要划分测试集、训练集与验证集，还需要设置训练数据的批次。测试集用于训练数据，验证集用于调整超参数，测试集用于验证模型效果（绝对不能根据测试集的表现来调节模型，这属于数据污染！！！）。

下面使用pytorch划分数据集及训练的批次：

需要特别注意的是pytorch只能处理tensor类型的数据，因此需要将标准化后ndarray格式的数据先转化为tensor格式。

import torch

X = torch.tensor(X, dtype=torch.float32)  # &#x5C06;&#x6570;&#x636E;&#x96C6;&#x8F6C;&#x6362;&#x6210;torch&#x80FD;&#x8BC6;&#x522B;&#x7684;&#x683C;&#x5F0F;
Y = torch.tensor(Y, dtype=torch.float32)
torch_dataset = torch.utils.data.TensorDataset(X, Y)  # &#x7EC4;&#x6210;torch&#x4E13;&#x95E8;&#x7684;&#x6570;&#x636E;&#x5E93;
batch_size = 6  # &#x8BBE;&#x7F6E;&#x6279;&#x6B21;&#x5927;&#x5C0F;

&#x5212;&#x5206;&#x8BAD;&#x7EC3;&#x96C6;&#x6D4B;&#x8BD5;&#x96C6;&#x4E0E;&#x9A8C;&#x8BC1;&#x96C6;
torch.manual_seed(seed=2021) # &#x8BBE;&#x7F6E;&#x968F;&#x673A;&#x79CD;&#x5B50;&#x5206;&#x5173;&#x952E;&#xFF0C;&#x4E0D;&#x7136;&#x6BCF;&#x6B21;&#x5212;&#x5206;&#x7684;&#x6570;&#x636E;&#x96C6;&#x90FD;&#x4E0D;&#x4E00;&#x6837;&#xFF0C;&#x4E0D;&#x5229;&#x4E8E;&#x7ED3;&#x679C;&#x590D;&#x73B0;
train_validaion, test = torch.utils.data.random_split(
    torch_dataset,
    [450, 56],
)  # &#x5148;&#x5C06;&#x6570;&#x636E;&#x96C6;&#x62C6;&#x5206;&#x4E3A;&#x8BAD;&#x7EC3;&#x96C6;+&#x9A8C;&#x8BC1;&#x96C6;&#xFF08;&#x5171;450&#x7EC4;&#xFF09;&#xFF0C;&#x6D4B;&#x8BD5;&#x96C6;&#xFF08;56&#x7EC4;&#xFF09;
train, validation = torch.utils.data.random_split(
    train_validaion, [400, 50])  # &#x518D;&#x5C06;&#x8BAD;&#x7EC3;&#x96C6;+&#x9A8C;&#x8BC1;&#x96C6;&#x62C6;&#x5206;&#x4E3A;&#x8BAD;&#x7EC3;&#x96C6;400&#xFF0C;&#x6D4B;&#x8BD5;&#x96C6;50

&#x518D;&#x5C06;&#x8BAD;&#x7EC3;&#x96C6;&#x5212;&#x5206;&#x6279;&#x6B21;&#xFF0C;&#x6BCF;batch_size&#x4E2A;&#x6570;&#x636E;&#x4E00;&#x6279;&#xFF08;&#x6D4B;&#x8BD5;&#x96C6;&#x4E0E;&#x9A8C;&#x8BC1;&#x96C6;&#x4E0D;&#x5212;&#x5206;&#x6279;&#x6B21;&#xFF09;
train_data = torch.utils.data.DataLoader(train,
                                         batch_size=batch_size,
                                         shuffle=True)

到此为止，数据预处理部分结束，下面做个小结：

（1）使用pandas读取数据并拆分标签与特征；

（2）使用sklearn对数据执行归一化或者标准化；

（3）使用pytorch对数据划分批次及训练集、测试集与验证集。

对于数据预处理，作者习惯使用pandas、sklearn等工具包，但其他任何能够实现相同效果的工具包也均可。

2 训练模型

2.1 搭建神经网络模型

神经网络需要搭建输入层、隐藏层与输出层，搭建完成后还需要考虑误差计算函数、激活函数以及误差反向传播中权重、偏差更新规则的选择。

神经网络的计算可以分为输入数据的正向传播过程、误差的反向传播过程、权重及偏差矩阵的更新过程。

正向传播过程：数据从输入层出来后需要先进行非线性激活，再进入隐藏层；从一个隐藏层出来之后，需要先非线性激活，再到进入下一个隐藏层；经过了所有隐藏层之后，再进入输出层；输出层输出数据后使用误差函数计算预测值与实际值的误差。

反向传播过程：反向传播过程与正向传播过程相反，而且也不是矩阵求积运算，而是基于链式法则的求偏导运算（误差对偏差矩阵以及误差对权重矩阵的偏导数）。

更新权重及偏差矩阵：根据反向传播过程计算出的偏导数更新偏差矩阵以及权重矩阵，最终使得偏差最小或者达到结束条件后停止计算。

在使用pytorch求解回归问题的实践中，只需要考虑输入层的释放神经元数目、输出层的接收神经元数目、隐藏层接收和释放神经元数目以及隐藏层数的选择，还有激活函数、误差计算函数以及权重和偏差更新规则的选择即可。至于如何实现正向传播、反向传播以及权重偏差更新，这并不需要专门研究，仅仅使用一段简单的python代码就可借助pytorch实现。

搭建神经网络模型需要注意以下几点：

（1）输入层的接收神经元个数必须与特征数目相同；输出层的释放神经元个数必须与每个标签数目相同；

（2）隐藏层的神经元数目可以自行调整，但是必须遵守以下规则：第一个隐藏层的接收神经元数目必须与输入层的释放神经元数目相同，最后一个隐藏层的释放神经元数目必须与输出端的接收神经元数目相同，中间隐藏层的释放神经元数目必须与下一个隐藏层的接收神经元数目相同；

（3）对于回归问题，输出层之后不需要任何激活函数。

2.2 激活函数的选择

激活函数在神经网络中作用有很多，最主要的作用是给神经网络提供非线性建模能力。如果没有激活函数，那么再多层的神经网络也只能处理线性可分问题。常用的激活函数有sigmoid、tanh、relu、softmax等。它们的图形、表达式、导数等信息如下图所示：

如果搭建的神经网络层数不多，选择sigmoid、tanh、relu、softmax都可以；如果搭建的网络层次较多，一般不宜选择sigmoid、tanh激活函数，因为它们的导数都小于1，尤其是sigmoid的导数在[0,1/4]之间，多层叠加后，根据微积分链式法则，随着层数增多，导数或偏导将指数级变小（所谓的梯度消失问题）。因此，对于层数较多的神经网络，其激活函数需要保证其导数不小于1；当然，对于较多层的神经网络，其激活函数的导数也不能大于1，因为大于1后将导致梯度爆炸；激活函数的导数等于1最好，而激活函数relu正好满足这个条件。综上所述，在搭建比较深的神经网络时，一般使用relu激活函数，当然，对于一般深度神经网络也可使用relu函数。对于回归问题，如果不知如何选择激活函数，统统使用relu即可。

2.3 误差函数的选择

对于回归问题，选择均方误差（Mean squared error，MSE）即可：

2.4 权重偏差更新规则的选择

权重偏差更新规则的选择实际上就是优化器的选择。最基本的优化器算法是SGD（随机梯度下降），这种算法的梯度更新规则十分简洁，当学习率取值恰当时，可以收敛到全局最优点，但其对学习率很敏感（过小导致收敛速度过慢，过大又越过极值点），容易陷入局部最优。故深度学习实践中一般不会考虑使用SGD算法。通过改进SGD算法，可以得到带动量的SGD算法、NAG算法、AdaGrad算法、RMSProp算法以及Adam算法等等。

AdaGrad算法、RMSProp算法以及Adam算法都是自适应优化算法，可以自动更新学习率。有时可以考虑综合使用这些优化算法，如先使用Adam算法获得较好的参数，再使用SGD+动量的优化方法，以达到最佳性能。

2.5 神经元数目及隐藏层数的选择

目前仍然没有较好的方法来确定神经元数目以及隐藏层数目。普遍采用的方法就是遍历法，比如可以在10-200个神经元数目以及5-20的隐藏层数目范围内遍历，选取使得误差函数最小的结构。

2.6 代码实现

'''&#x8BAD;&#x7EC3;&#x90E8;&#x5206;'''
import torch.optim as optim

feature_number = 13  # &#x8BBE;&#x7F6E;&#x7279;&#x5F81;&#x6570;&#x76EE;
out_prediction = 1  # &#x8BBE;&#x7F6E;&#x8F93;&#x51FA;&#x6570;&#x76EE;
learning_rate = 0.01  # &#x8BBE;&#x7F6E;&#x5B66;&#x4E60;&#x7387;
epochs = 50  # &#x8BBE;&#x7F6E;&#x8BAD;&#x7EC3;&#x4EE3;&#x6570;

class Net(torch.nn.Module):
    def __init__(self, n_feature, n_output, n_neuron1, n_neuron2,n_layer):  # n_feature&#x4E3A;&#x7279;&#x5F81;&#x6570;&#x76EE;&#xFF0C;&#x8FD9;&#x4E2A;&#x6570;&#x5B57;&#x4E0D;&#x80FD;&#x968F;&#x4FBF;&#x53D6;,n_output&#x4E3A;&#x7279;&#x5F81;&#x5BF9;&#x5E94;&#x7684;&#x8F93;&#x51FA;&#x6570;&#x76EE;&#xFF0C;&#x4E5F;&#x4E0D;&#x80FD;&#x968F;&#x4FBF;&#x53D6;
        self.n_feature=n_feature
        self.n_output=n_output
        self.n_neuron1=n_neuron1
        self.n_neuron2=n_neuron2
        self.n_layer=n_layer
        super(Net, self).__init__()
        self.input_layer = torch.nn.Linear(self.n_feature, self.n_neuron1) # &#x8F93;&#x5165;&#x5C42;
        self.hidden1 = torch.nn.Linear(self.n_neuron1, self.n_neuron2) # 1&#x7C7B;&#x9690;&#x85CF;&#x5C42;
        self.hidden2 = torch.nn.Linear(self.n_neuron2, self.n_neuron2) # 2&#x7C7B;&#x9690;&#x85CF;
        self.predict = torch.nn.Linear(self.n_neuron2, self.n_output) # &#x8F93;&#x51FA;&#x5C42;

    def forward(self, x):
        '''&#x5B9A;&#x4E49;&#x524D;&#x5411;&#x4F20;&#x9012;&#x8FC7;&#x7A0B;'''
        out = self.input_layer(x)
        out = torch.relu(out) # &#x4F7F;&#x7528;relu&#x51FD;&#x6570;&#x975E;&#x7EBF;&#x6027;&#x6FC0;&#x6D3B;
        out = self.hidden1(out)
        out = torch.relu(out)
        for i in range(self.n_layer):
            out = self.hidden2(out)
            out = torch.relu(out)
        out = self.predict( # &#x56DE;&#x5F52;&#x95EE;&#x9898;&#x6700;&#x540E;&#x4E00;&#x5C42;&#x4E0D;&#x9700;&#x8981;&#x6FC0;&#x6D3B;&#x51FD;&#x6570;
            out
        )  # &#x9664;&#x53BB;feature_number&#x4E0E;out_prediction&#x4E0D;&#x80FD;&#x968F;&#x4FBF;&#x53D6;&#xFF0C;&#x9690;&#x85CF;&#x5C42;&#x6570;&#x4E0E;&#x5176;&#x4ED6;&#x795E;&#x7ECF;&#x5143;&#x6570;&#x76EE;&#x5747;&#x53EF;&#x4EE5;&#x9002;&#x5F53;&#x8C03;&#x6574;&#x4EE5;&#x5F97;&#x5230;&#x6700;&#x4F73;&#x9884;&#x6D4B;&#x6548;&#x679C;
        return out

net = Net(n_feature=feature_number,
                      n_output=out_prediction,
                      n_layer=1,
                      n_neuron1=20,
                      n_neuron2=20) # &#x8FD9;&#x91CC;&#x76F4;&#x63A5;&#x786E;&#x5B9A;&#x4E86;&#x9690;&#x85CF;&#x5C42;&#x6570;&#x76EE;&#x4EE5;&#x53CA;&#x795E;&#x7ECF;&#x5143;&#x6570;&#x76EE;&#xFF0C;&#x5B9E;&#x9645;&#x64CD;&#x4F5C;&#x4E2D;&#x9700;&#x8981;&#x904D;&#x5386;
optimizer = optim.Adam(net.parameters(), learning_rate)  # &#x4F7F;&#x7528;Adam&#x7B97;&#x6CD5;&#x66F4;&#x65B0;&#x53C2;&#x6570;
criteon = torch.nn.MSELoss()  # &#x8BEF;&#x5DEE;&#x8BA1;&#x7B97;&#x516C;&#x5F0F;&#xFF0C;&#x56DE;&#x5F52;&#x95EE;&#x9898;&#x91C7;&#x7528;&#x5747;&#x65B9;&#x8BEF;&#x5DEE;

for epoch in range(epochs):  # &#x6574;&#x4E2A;&#x6570;&#x636E;&#x96C6;&#x8FED;&#x4EE3;&#x6B21;&#x6570;
    net.train() # &#x542F;&#x52A8;&#x8BAD;&#x7EC3;&#x6A21;&#x5F0F;
    for batch_idx, (data, target) in enumerate(train_data):
        logits = net.forward(data)  # &#x524D;&#x5411;&#x8BA1;&#x7B97;&#x7ED3;&#x679C;&#xFF08;&#x9884;&#x6D4B;&#x7ED3;&#x679C;&#xFF09;
        loss = criteon(logits, target)  # &#x8BA1;&#x7B97;&#x635F;&#x5931;
        optimizer.zero_grad()  # &#x68AF;&#x5EA6;&#x6E05;&#x96F6;
        loss.backward()  # &#x540E;&#x5411;&#x4F20;&#x9012;&#x8FC7;&#x7A0B;
        optimizer.step()  # &#x4F18;&#x5316;&#x6743;&#x91CD;&#x4E0E;&#x504F;&#x5DEE;&#x77E9;&#x9635;

    logit = []  # &#x8FD9;&#x4E2A;&#x662F;&#x9A8C;&#x8BC1;&#x96C6;&#xFF0C;&#x53EF;&#x4EE5;&#x6839;&#x636E;&#x9A8C;&#x8BC1;&#x96C6;&#x7684;&#x7ED3;&#x679C;&#x8FDB;&#x884C;&#x8C03;&#x53C2;&#xFF0C;&#x8FD9;&#x91CC;&#x6839;&#x636E;&#x9A8C;&#x8BC1;&#x96C6;&#x7684;&#x7ED3;&#x679C;&#x9009;&#x53D6;&#x6700;&#x4F18;&#x7684;&#x795E;&#x7ECF;&#x7F51;&#x7EDC;&#x5C42;&#x6570;&#x4E0E;&#x795E;&#x7ECF;&#x5143;&#x6570;&#x76EE;
    target = []
    net.eval() # &#x542F;&#x52A8;&#x6D4B;&#x8BD5;&#x6A21;&#x5F0F;
    for data, targets in validation:  # &#x8F93;&#x51FA;&#x9A8C;&#x8BC1;&#x96C6;&#x7684;&#x5E73;&#x5747;&#x8BEF;&#x5DEE;
        logits = net.forward(data).detach().numpy()
        targets=targets.detach().numpy()
        target.append(targets[0])
        logit.append(logits[0])
    average_loss =  criteon(torch.tensor(logit), torch.tensor(target))
    print('\nTrain Epoch:{} for the Average loss of VAL

3 测试模型及可视化

使用测试集对训练好的模型进行测试，并且绘制真实值与预测值的对比图。测试集的数据不能用于超参数调整，否则会造成数据污染。

代码如下：

import matplotlib.pyplot as plt
import numpy as np
prediction = []
test_y = []
net.eval() # &#x542F;&#x52A8;&#x6D4B;&#x8BD5;&#x6A21;&#x5F0F;
for test_x, test_ys in test:
    predictions = net(test_x)
    predictions=predictions.detach().numpy()
    prediction.append(predictions[0])
    test_ys.detach().numpy()
    test_y.append(test_ys[0])
prediction = scaler.inverse_transform(np.array(prediction).reshape(
    -1, 1))  # &#x5C06;&#x6570;&#x636E;&#x6062;&#x590D;&#x81F3;&#x5F52;&#x4E00;&#x5316;&#x4E4B;&#x524D;
test_y = scaler.inverse_transform(np.array(test_y).reshape(-1, 1))
&#x5747;&#x65B9;&#x8BEF;&#x5DEE;&#x8BA1;&#x7B97;
test_loss = criteon(torch.tensor(prediction ,dtype=torch.float32), torch.tensor(test_y, dtype=torch.float32))
print('&#x6D4B;&#x8BD5;&#x96C6;&#x5747;&#x65B9;&#x8BEF;&#x5DEE;&#xFF1A;',test_loss.detach().numpy())

&#x53EF;&#x89C6;&#x5316;
plt.figure()
plt.scatter(test_y, prediction, color='red')
plt.plot([0, 52], [0, 52], color='black', linestyle='-')
plt.xlim([-0.05, 52])
plt.ylim([-0.05, 52])
plt.xlabel('true')
plt.ylabel('prediction')
plt.title('true vs prection')
plt.show()

以上内容为pytorch实现神经网络回归预测的基本内容，包括了数据预处理、神经网络模型搭建以及激活函数、误差函数的选取（回归问题激活函数均取relu、误差函数均取mse，不必考虑其它函数）。但是上述内容不包括神经元数目以及隐藏层数目的选取、优化器的选取（通过作者的实践来看Adam算法作为优化器效果比较好）、如何使用GPU进行加速、如何防止过拟合等方面的内容。对于精确度要求不高、数据集比较简单的应用场景，一般采用两个隐藏层、神经元数目在200以内、Adam优化器即可，如果没有明显的过拟合现象，则不需要采取过拟合措施。

如果依据前述内容构建的模型效果不佳或者对精度有较高要求，则需要参考以下部分。

4 防止过拟合

4.1 判断过拟合

随着神经网络结构越来越复杂，数据在训练集的表现会越来越好，但在测试集的表现却越来越差，这就是过拟合现象。之所以会出现过拟合，主要是因为神经网络学习到了训练集中的一些噪声规律，但这种规律在整个数据集其实是不存在的。判断过拟合的方法：数据在训练集的效果持续上升，在验证集的效果持续下降。

判断过拟合的代码需要进行如下修改：

train_loss=[]
validation_loss=[]
for epoch in range(epochs):  # &#x6574;&#x4E2A;&#x6570;&#x636E;&#x96C6;&#x8FED;&#x4EE3;&#x6B21;&#x6570;
    net.train()
    for batch_idx, (data, target) in enumerate(train_data):
        logits = net.forward(data)  # &#x524D;&#x5411;&#x8BA1;&#x7B97;&#x7ED3;&#x679C;&#xFF08;&#x9884;&#x6D4B;&#x7ED3;&#x679C;&#xFF09;
        loss = criteon(logits, target)  # &#x8BA1;&#x7B97;&#x635F;&#x5931;
        train_losses=loss.detach().numpy()
        optimizer.zero_grad()  # &#x68AF;&#x5EA6;&#x6E05;&#x96F6;
        loss.backward()  # &#x540E;&#x5411;&#x4F20;&#x9012;&#x8FC7;&#x7A0B;
        optimizer.step()  # &#x4F18;&#x5316;&#x6743;&#x91CD;&#x4E0E;&#x504F;&#x5DEE;&#x77E9;&#x9635;
    train_loss.append(train_losses[0]) # &#x8BB0;&#x5F55;&#x5386;&#x53F2;&#x6D4B;&#x8BD5;&#x8BEF;&#x5DEE;(&#x6BCF;&#x4EE3;)

    logit = []  # &#x8FD9;&#x4E2A;&#x662F;&#x9A8C;&#x8BC1;&#x96C6;&#xFF0C;&#x53EF;&#x4EE5;&#x6839;&#x636E;&#x9A8C;&#x8BC1;&#x96C6;&#x7684;&#x7ED3;&#x679C;&#x8FDB;&#x884C;&#x8C03;&#x53C2;&#xFF0C;&#x8FD9;&#x91CC;&#x6839;&#x636E;&#x9A8C;&#x8BC1;&#x96C6;&#x7684;&#x7ED3;&#x679C;&#x9009;&#x53D6;&#x6700;&#x4F18;&#x7684;&#x795E;&#x7ECF;&#x7F51;&#x7EDC;&#x5C42;&#x6570;&#x4E0E;&#x795E;&#x7ECF;&#x5143;&#x6570;&#x76EE;
    target = []
    net.eval()
    for data, targets in validation:  # &#x8F93;&#x51FA;&#x9A8C;&#x8BC1;&#x96C6;&#x7684;&#x5E73;&#x5747;&#x8BEF;&#x5DEE;
        logits = net.forward(data).detach().numpy()
        targets=targets.detach().numpy()
        target.append(targets[0])
        logit.append(logits[0])
    average_loss= criteon(torch.tensor(logit),torch.tensor(target)).detach().numpy()  # &#x8BA1;&#x7B97;&#x635F;&#x5931;
    validation_loss.append(average_loss[0]) # &#x8BB0;&#x5F55;&#x5386;&#x53F2;&#x9A8C;&#x8BC1;&#x8BEF;&#x5DEE;&#xFF08;&#x6BCF;&#x4EE3;&#xFF09;

&#x53EF;&#x89C6;&#x5316;&#x9A8C;&#x8BC1;&#x96C6;&#x8BEF;&#x5DEE;&#x4E0E;&#x6D4B;&#x8BD5;&#x96C6;&#x8BEF;&#x5DEE;
plt.figure()
plt.plot([x+1 for x in range(epochs)], validation_loss, color='black', linestyle='-',label='validation loss')
plt.plot([x+1 for x in range(epochs)], train_loss, color='red', linestyle='-',label='train loss')
plt.xlabel('epoches')
plt.ylabel('loss')
plt.legend()
plt.title('judge overfitting')
plt.show()

4.2 L2正则化（权重衰减，weight decay）

上图中的c出现了过拟合现象。对比b与c的拟合函数可以发现，要对c进行修正，只需要将c中函数的高次项系数衰减到接近0即可，L2正则化正是依靠此思路的一种降低模型复杂度的方法：

依据上式，可得到权重更新规则：

根据

，L2正则化也叫做权重衰减，lamda越小，权重衰减的程度越大。一般的优化器（如SGD、Adadelta、Adam、Adagrad、RMSprop等）都自带的一个参数weight_decay用于指定权值衰减率，该参数相当于L2正则化表达式中的λ参数。weight_decay一般可以设置在0.02以下。

代码实现：

optimizer = optim.SGD(net.parameters(), learning_rate, momentum=0.9, weight_decay=1e-2) # &#x5E26;&#x52A8;&#x91CF;&#x7684;SGD&#x7B97;&#x6CD5;&#x5B9E;&#x73B0;&#x6743;&#x91CD;&#x8870;&#x51CF;
optimizer = optim.Adam(net.parameters(), learning_rate&#xFF0C;weight_decay=1e-2)  # Adam&#x7B97;&#x6CD5;&#x5B9E;&#x73B0;&#x52A8;&#x91CF;&#x8870;&#x51CF;&#xFF0C;&#x5176;&#x4F59;&#x7B97;&#x6CD5;&#x540C;&#x7406;

4.3 Dropout

Dropout是指在训练过程中按一定比例（比例参数可设置）随机忽略或屏蔽一些神经元，反向传播时该神经元也不会有任何权重的更新。加入了Dropout以后，输入的特征都是有可能会被随机清除的，所以该神经元不会特别依赖于任何一个输入特征，也就是说不会给任何一个输入设置太大的权重。由于网络模型对神经元特定的权重不那么敏感，这反过来又提升了模型的泛化能力，不容易对训练数据过拟合。

Dropout需要注意的问题：

（1）在训练阶段和测试阶段是不同的，一般在训练中使用，测试时不使用；

（2）丢弃率通常控制在20%～50%比较好，可以从20%开始尝试。如果比例太低则起不到效果，比例太高则会导致模型的欠学习；

（3）当Dropout应用在较大的网络模型时，更有可能得到效果的提升，模型有更多的机会学习到多种独立的表征；

（4）输入层和隐藏层都使用Dropout。对于神经元较少的层，神经元的丢弃率设置要尽量小（ 0.5以下），对于神经元较多的层，神经元的设置可以大一点（ 0.5以上）。

（5）使用dropout时，需要增加学习速率和动量。比如可以把学习速率扩大10～100倍，动量值调高到0.9～0.99。

代码实现：

class Net(torch.nn.Module):
    def __init__(self, n_feature, n_output, n_neuron1, n_neuron2, n_layer, giving_up1, giving_up2):  # n_feature为特征数目，这个数字不能随便取,n_output为特征对应的输出数目，也不能随便取
        self.n_feature=n_feature
        self.n_output=n_output
        self.n_neuron1=n_neuron1
        self.n_neuron2=n_neuron2
        self.n_layer=n_layer
        self.giving_up1 = giving_up1
        self.giving_up2 = giving_up2
        super(Net, self).__init__()
        self.input_layer = torch.nn.Linear(self.n_feature, self.n_neuron1)
        self.hidden1 = torch.nn.Linear(self.n_neuron1, self.n_neuron2)
        self.hidden2 = torch.nn.Linear(self.n_neuron2, self.n_neuron2)
        self.predict = torch.nn.Linear(self.n_neuron2, self.n_output)
        self.dropout1 = torch.nn.Dropout(giving_up1) # 使用dropout防止过拟合（记得增大学习率与动量）
        self.dropout2 = torch.nn.Dropout(giving_up2)

    def forward(self, x):
        out = self.input_layer(x)
        out = torch.relu(out)
        out = self.dropout1(out)
        out = self.hidden1(out)
        out = torch.relu(out)
        out = self.dropout2(out)
        for i in range(self.n_layer):
            out = self.hidden2(out)
            out = torch.relu(out) # 回归问题最后一层不需要激活函数
            out = self.dropout2(out)
        out = self.predict(
            out
        )  # 除去feature_number与out_prediction不能随便取，隐藏层数与其他神经元数目均可以适当调整以得到最佳预测效果
        return out

4.4 Batch Normalization（批量归一化）

每一次参数迭代更新后，上一层网络的输出数据经过该层网络的计算后，数据的分布将会发生变化，这会为下一层网络的学习带来困难（神经网络的任务本就是学习数据的分布规律，分布改变则会导致学习更加困难），这种现象叫做Internal Covariate Shift，该现象可以使用Batch Normalization解决；与Internal Covariate Shift相似的一个现象叫做Covariate Shif，该现象主要描述的是训练数据和测试数据之间的分布差异性给网络泛化性和训练速度带来的影响，该现象可以使用标准化解决。

在神经网络训练时如果遇到收敛速度很慢或梯度爆炸导致无法训练的情况，可以尝试使用BN解决。当然，即使没有遇到上述问题，也可以考虑加入BN来加快训练速度，提高模型精度，还可以大大地提高训练模型的效率。BN具体优势如下：

（1）因为这BN算法收敛很快，所以可以采用初始很大的学习率。当然，即使选择了较小的学习率，也会比以前的收敛速度快；

（2）因为BN具有提高网络泛化能力的特性，采用本算法后，可以不再考虑使用dropout以及L2正则化来防止过拟合，或者可以选择更小的L2正则约束参数。

class Net(torch.nn.Module):
    def __init__(self, n_feature, n_output, n_neuron1, n_neuron2,n_layer):  # n_feature&#x4E3A;&#x7279;&#x5F81;&#x6570;&#x76EE;&#xFF0C;&#x8FD9;&#x4E2A;&#x6570;&#x5B57;&#x4E0D;&#x80FD;&#x968F;&#x4FBF;&#x53D6;,n_output&#x4E3A;&#x7279;&#x5F81;&#x5BF9;&#x5E94;&#x7684;&#x8F93;&#x51FA;&#x6570;&#x76EE;&#xFF0C;&#x4E5F;&#x4E0D;&#x80FD;&#x968F;&#x4FBF;&#x53D6;
        self.n_feature=n_feature
        self.n_output=n_output
        self.n_neuron1=n_neuron1
        self.n_neuron2=n_neuron2
        self.n_layer=n_layer
        super(Net, self).__init__()
        self.input_layer = torch.nn.Linear(self.n_feature, self.n_neuron1) # &#x8F93;&#x5165;&#x5C42;
        self.hidden1 = torch.nn.Linear(self.n_neuron1, self.n_neuron2) # 1&#x7C7B;&#x9690;&#x85CF;&#x5C42;
        self.hidden2 = torch.nn.Linear(self.n_neuron2, self.n_neuron2) # 2&#x7C7B;&#x9690;&#x85CF;
        self.predict = torch.nn.Linear(self.n_neuron2, self.n_output) # &#x8F93;&#x51FA;&#x5C42;
        self.bn1 = torch.nn.BatchNorm1d(self.n_neuron1)
        self.bn2 = torch.nn.BatchNorm1d(self.n_neuron2)

    def forward(self, x):
        '''&#x5B9A;&#x4E49;&#x524D;&#x5411;&#x4F20;&#x9012;&#x8FC7;&#x7A0B;'''
        out = self.input_layer(x)
        out=self.bn1(out)
        out = torch.relu(out) # &#x4F7F;&#x7528;relu&#x51FD;&#x6570;&#x975E;&#x7EBF;&#x6027;&#x6FC0;&#x6D3B;
        out = self.hidden1(out)
        out=self.bn2(out)
        out = torch.relu(out)
        for i in range(self.n_layer):
            out = self.hidden2(out)
            out=self.bn2(out)
            out = torch.relu(out)
        out = self.predict( # &#x56DE;&#x5F52;&#x95EE;&#x9898;&#x6700;&#x540E;&#x4E00;&#x5C42;&#x4E0D;&#x9700;&#x8981;&#x6FC0;&#x6D3B;&#x51FD;&#x6570;
            out
        )  # &#x9664;&#x53BB;feature_number&#x4E0E;out_prediction&#x4E0D;&#x80FD;&#x968F;&#x4FBF;&#x53D6;&#xFF0C;&#x9690;&#x85CF;&#x5C42;&#x6570;&#x4E0E;&#x5176;&#x4ED6;&#x795E;&#x7ECF;&#x5143;&#x6570;&#x76EE;&#x5747;&#x53EF;&#x4EE5;&#x9002;&#x5F53;&#x8C03;&#x6574;&#x4EE5;&#x5F97;&#x5230;&#x6700;&#x4F73;&#x9884;&#x6D4B;&#x6548;&#x679C;
        return out

4.5 net.train()与net.eval()方法

net.train()方法的作用是告诉模型进行的是训练操作，训练模型前应该加上此代码；

net.eval()方法的作用是告诉模型进行的是测试操作，验证以及测试模型前应该加上此代码。

之前之所以没有特别强调net.train()以及net.eval()方法的使用，主要是因为对于一般的多层神经网络（主要是指不带BN算法或者dropout算法的神经网络）而言，net.train()以及net.eval()方法没有实质性的作用，添加与否对模型不会有任何影响。但BN算法或者dropout算法都只是在训练起作用，测试时应该将其冻结。因此，在测试以及验证模型时，net.train()以及net.eval()方法必须保留以告诉模型何时在做训练，何时在做测试。我的建议是无论模型中是否有BN算法或者dropout算法，都不要省略net.train()和net.eval()方法。

4.6 权重初始化

权重初始值过大可能会在前向传播或反向传播中产生爆炸的值；如果太小将导致丢失信息。对收敛的算法来说，适当的初始化能加快收敛速度。另外，初始值的选择也将影响模型是收敛到局部最小值还是全局最小值。常见的参数初始化方法有零值初始化、随机初始化、均匀分布初始、正态分布初始和正交分布初始等。实践表明，正态分布、正交分布、均匀分布初始化能带来更好的效果。

实际上，pytorch中凡是继承nn.Module的模块参数都采取了较合理的初始化策略，不需要使用者担心初始化问题。另外，除了使用pytorch内嵌的初始化规则外，还可以考虑使用一些智能算法（TSA, GA等）对权重以及偏差矩阵初始化。

之后的部分以后再写（包括使用贝叶斯优化方法选取超参数、使用GPU加速运算等部分）

5 超参数优化

超参数优化比较常见的方法是网格搜索。这是一种暴力搜索方法，耗费的资源极大，不过好处是以此法获得的超参数一定是最优的，没有局部最优的问题。网络搜索比较适用于待优化超参数较少（最多3到4个）、网络结构比较简单、数据集较小的场景，但是回归问题中的超参数至少会涉及学习率learing_rate；神经网络层数n_layer；循环学习代数epochs；每批次的大小batch_sizes；各层输入、释放的神经元个数n_neuron若干；如果使用了权重衰减，那么还有权重衰减系数weight_decay；如果使用了dropout，那么还有神经元舍弃率giving_up若干；如果使用了学习率自动衰减，那么还要设置每隔多少代才衰减的超参数step_size、衰减倍率beta等等。因此，一般不会考虑使用网格搜索去优化超参数，目前比较流行的做法采用贝叶斯优化方法。

贝叶斯优化是一种基于统计学理论的优化方法，具体原理这里不作介绍，会用就行。

import pandas as pd
'''&#x5BFC;&#x5165;&#x6570;&#x636E;'''
data = pd.read_excel('&#x6CE2;&#x58EB;&#x987F;&#x623F;&#x4EF7;&#x9884;&#x6D4B;.xlsx', header=None,
                     index_col=None)  # &#x4E00;&#x5171;506&#x7EC4;&#x6570;&#x636E;&#xFF0C;&#x6BCF;&#x7EC4;&#x6570;&#x636E;13&#x4E2A;&#x7279;&#x5F81;&#xFF0C;13&#x4E2A;&#x7279;&#x5F81;&#x5BF9;&#x5E94;&#x4E00;&#x4E2A;&#x8F93;&#x51FA;
y = data.loc[:, 13:13]  # &#x5C06;&#x6807;&#x7B7E;&#x6570;&#x636E;&#x5B58;&#x50A8;&#x5728;y&#x4E2D;&#xFF0C;&#x8868;&#x683C;&#x6700;&#x540E;&#x4E00;&#x5217;&#x4E3A;&#x6807;&#x7B7E;
x = data.loc[:, 0:12]  # &#x5C06;&#x7279;&#x5F81;&#x6570;&#x636E;&#x5B58;&#x50A8;&#x5728;x&#x4E2D;&#xFF0C;&#x8868;&#x683C;&#x524D;13&#x5217;&#x4E3A;&#x7279;&#x5F81;,

from sklearn.preprocessing import StandardScaler
'''&#x5BF9;&#x6BCF;&#x5217;&#x6570;&#x636E;&#x6267;&#x884C;&#x6807;&#x51C6;&#x5316;'''
scaler = StandardScaler()  # &#x5B9E;&#x4F8B;&#x5316;
X = scaler.fit_transform(x)  # &#x6807;&#x51C6;&#x5316;&#x7279;&#x5F81;
Y = scaler.fit_transform(y)  # &#x6807;&#x51C6;&#x5316;&#x6807;&#x7B7E;

x = scaler.inverse_transform(X) # &#x8FD9;&#x884C;&#x4EE3;&#x7801;&#x53EF;&#x4EE5;&#x5C06;&#x6570;&#x636E;&#x6062;&#x590D;&#x81F3;&#x6807;&#x51C6;&#x5316;&#x4E4B;&#x524D;

import torch
'''&#x5212;&#x5206;&#x6570;&#x636E;&#x96C6;'''
X = torch.tensor(X, dtype=torch.float32)  # &#x5C06;&#x6570;&#x636E;&#x96C6;&#x8F6C;&#x6362;&#x6210;torch&#x80FD;&#x8BC6;&#x522B;&#x7684;&#x683C;&#x5F0F;
Y = torch.tensor(Y, dtype=torch.float32)
torch_dataset = torch.utils.data.TensorDataset(X, Y)  # &#x7EC4;&#x6210;torch&#x4E13;&#x95E8;&#x7684;&#x6570;&#x636E;&#x5E93;
batch_size = 6  # &#x8BBE;&#x7F6E;&#x6279;&#x6B21;&#x5927;&#x5C0F;

&#x5212;&#x5206;&#x8BAD;&#x7EC3;&#x96C6;&#x6D4B;&#x8BD5;&#x96C6;&#x4E0E;&#x9A8C;&#x8BC1;&#x96C6;
torch.manual_seed(seed=2021)  # &#x8BBE;&#x7F6E;&#x968F;&#x673A;&#x79CD;&#x5B50;&#x5206;&#x5173;&#x952E;&#xFF0C;&#x4E0D;&#x7136;&#x6BCF;&#x6B21;&#x5212;&#x5206;&#x7684;&#x6570;&#x636E;&#x96C6;&#x90FD;&#x4E0D;&#x4E00;&#x6837;&#xFF0C;&#x4E0D;&#x5229;&#x4E8E;&#x7ED3;&#x679C;&#x590D;&#x73B0;
train_validaion, test = torch.utils.data.random_split(
    torch_dataset,
    [450, 56],
)  # &#x5148;&#x5C06;&#x6570;&#x636E;&#x96C6;&#x62C6;&#x5206;&#x4E3A;&#x8BAD;&#x7EC3;&#x96C6;+&#x9A8C;&#x8BC1;&#x96C6;&#xFF08;&#x5171;450&#x7EC4;&#xFF09;&#xFF0C;&#x6D4B;&#x8BD5;&#x96C6;&#xFF08;56&#x7EC4;&#xFF09;
train, validation = torch.utils.data.random_split(
    train_validaion, [400, 50])  # &#x518D;&#x5C06;&#x8BAD;&#x7EC3;&#x96C6;+&#x9A8C;&#x8BC1;&#x96C6;&#x62C6;&#x5206;&#x4E3A;&#x8BAD;&#x7EC3;&#x96C6;400&#xFF0C;&#x6D4B;&#x8BD5;&#x96C6;50

class Net(torch.nn.Module):
    '''&#x642D;&#x5EFA;&#x795E;&#x7ECF;&#x7F51;&#x7EDC;'''
    def __init__(
            self, n_feature, n_output, n_neuron1, n_neuron2,
            n_layer):  # n_feature&#x4E3A;&#x7279;&#x5F81;&#x6570;&#x76EE;&#xFF0C;&#x8FD9;&#x4E2A;&#x6570;&#x5B57;&#x4E0D;&#x80FD;&#x968F;&#x4FBF;&#x53D6;,n_output&#x4E3A;&#x7279;&#x5F81;&#x5BF9;&#x5E94;&#x7684;&#x8F93;&#x51FA;&#x6570;&#x76EE;&#xFF0C;&#x4E5F;&#x4E0D;&#x80FD;&#x968F;&#x4FBF;&#x53D6;
        self.n_feature = n_feature
        self.n_output = n_output
        self.n_neuron1 = n_neuron1  # &#x5F85;&#x4F18;&#x5316;&#x8D85;&#x53C2;&#x6570;
        self.n_neuron2 = n_neuron2  # &#x5F85;&#x4F18;&#x5316;&#x8D85;&#x53C2;&#x6570;
        self.n_layer = n_layer  # &#x5F85;&#x4F18;&#x5316;&#x8D85;&#x53C2;&#x6570;
        super(Net, self).__init__()
        self.input_layer = torch.nn.Linear(self.n_feature,
                                           self.n_neuron1)  # &#x8F93;&#x5165;&#x5C42;
        self.hidden1 = torch.nn.Linear(self.n_neuron1, self.n_neuron2)  # 1&#x7C7B;&#x9690;&#x85CF;&#x5C42;
        self.hidden2 = torch.nn.Linear(self.n_neuron2, self.n_neuron2)  # 2&#x7C7B;&#x9690;&#x85CF;
        self.predict = torch.nn.Linear(self.n_neuron2, self.n_output)  # &#x8F93;&#x51FA;&#x5C42;

    def forward(self, x):
        '''&#x5B9A;&#x4E49;&#x524D;&#x5411;&#x4F20;&#x9012;&#x8FC7;&#x7A0B;'''
        out = self.input_layer(x)
        out = torch.relu(out)  # &#x4F7F;&#x7528;relu&#x51FD;&#x6570;&#x975E;&#x7EBF;&#x6027;&#x6FC0;&#x6D3B;
        out = self.hidden1(out)
        out = torch.relu(out)
        for _ in range(self.n_layer):
            out = self.hidden2(out)
            out = torch.relu(out)
        out = self.predict(  # &#x56DE;&#x5F52;&#x95EE;&#x9898;&#x6700;&#x540E;&#x4E00;&#x5C42;&#x4E0D;&#x9700;&#x8981;&#x6FC0;&#x6D3B;&#x51FD;&#x6570;
            out
        )  # &#x9664;&#x53BB;n_feature&#x4E0E;out_prediction&#x4E0D;&#x80FD;&#x968F;&#x4FBF;&#x53D6;&#xFF0C;&#x9690;&#x85CF;&#x5C42;&#x6570;&#x4E0E;&#x5176;&#x4ED6;&#x795E;&#x7ECF;&#x5143;&#x6570;&#x76EE;&#x5747;&#x53EF;&#x4EE5;&#x9002;&#x5F53;&#x8C03;&#x6574;&#x4EE5;&#x5F97;&#x5230;&#x6700;&#x4F73;&#x9884;&#x6D4B;&#x6548;&#x679C;
        return out

def structure_initialization(parameters):
    '''&#x5B9E;&#x4F8B;&#x5316;&#x795E;&#x7ECF;&#x7F51;&#x7EDC;'''
    n_layer = parameters.get('n_layer', 2)  # &#x82E5;n_layer&#x7F3A;&#x7701;&#x5219;&#x53D6;&#x9ED8;&#x8BA4;&#x503C;2
    n_neuron1 = parameters.get('n_neuron1', 140)
    n_neuron2 = parameters.get('n_neuron2', 140)
    learning_rate = parameters.get('learning_rate', 0.0001)
    net = Net(n_feature=13,
              n_output=1,
              n_layer=n_layer,
              n_neuron1=n_neuron1,
              n_neuron2=n_neuron2)  # &#x8FD9;&#x91CC;&#x76F4;&#x63A5;&#x786E;&#x5B9A;&#x4E86;&#x9690;&#x85CF;&#x5C42;&#x6570;&#x76EE;&#x4EE5;&#x53CA;&#x795E;&#x7ECF;&#x5143;&#x6570;&#x76EE;&#xFF0C;&#x5B9E;&#x9645;&#x64CD;&#x4F5C;&#x4E2D;&#x9700;&#x8981;&#x904D;&#x5386;
    optimizer = torch.optim.Adam(net.parameters(),
                                 learning_rate)  # &#x4F7F;&#x7528;Adam&#x7B97;&#x6CD5;&#x66F4;&#x65B0;&#x53C2;&#x6570;
    criteon = torch.nn.MSELoss()  # &#x8BEF;&#x5DEE;&#x8BA1;&#x7B97;&#x516C;&#x5F0F;&#xFF0C;&#x56DE;&#x5F52;&#x95EE;&#x9898;&#x91C7;&#x7528;&#x5747;&#x65B9;&#x8BEF;&#x5DEE;
    return net, optimizer, criteon

def train_evaluate(parameterization):
    '''&#x6B64;&#x51FD;&#x6570;&#x8FD4;&#x56DE;&#x6A21;&#x578B;&#x8BEF;&#x5DEE;&#x4F5C;&#x4E3A;&#x8D1D;&#x53F6;&#x65AF;&#x4F18;&#x5316;&#x4F9D;&#x636E;'''
    net, optimizer, criteon = structure_initialization(parameterization)
    batch_size = parameterization.get('batch_sizes', 6)
    epochs = parameterization.get('epochs', 100)
    # &#x5C06;&#x8BAD;&#x7EC3;&#x96C6;&#x5212;&#x5206;&#x6279;&#x6B21;&#xFF0C;&#x6BCF;batch_size&#x4E2A;&#x6570;&#x636E;&#x4E00;&#x6279;
    train_data = torch.utils.data.DataLoader(train,
                                             batch_size=batch_size,
                                             shuffle=True)
    net.train()  # &#x542F;&#x52A8;&#x8BAD;&#x7EC3;&#x6A21;&#x5F0F;
    for epoch in range(epochs):  # &#x6574;&#x4E2A;&#x6570;&#x636E;&#x96C6;&#x8FED;&#x4EE3;&#x6B21;&#x6570;
        for batch_idx, (data, target) in enumerate(train_data):
            logits = net.forward(data)  # &#x524D;&#x5411;&#x8BA1;&#x7B97;&#x7ED3;&#x679C;&#xFF08;&#x9884;&#x6D4B;&#x7ED3;&#x679C;&#xFF09;
            loss = criteon(logits, target)  # &#x8BA1;&#x7B97;&#x635F;&#x5931;
            optimizer.zero_grad()  # &#x68AF;&#x5EA6;&#x6E05;&#x96F6;
            loss.backward()  # &#x540E;&#x5411;&#x4F20;&#x9012;&#x8FC7;&#x7A0B;
            optimizer.step()  # &#x4F18;&#x5316;&#x6743;&#x91CD;&#x4E0E;&#x504F;&#x5DEE;&#x77E9;&#x9635;

    logit = []  # &#x8FD9;&#x4E2A;&#x662F;&#x9A8C;&#x8BC1;&#x96C6;&#xFF0C;&#x53EF;&#x4EE5;&#x6839;&#x636E;&#x9A8C;&#x8BC1;&#x96C6;&#x7684;&#x7ED3;&#x679C;&#x8FDB;&#x884C;&#x8C03;&#x53C2;&#xFF0C;&#x8FD9;&#x91CC;&#x6839;&#x636E;&#x9A8C;&#x8BC1;&#x96C6;&#x7684;&#x7ED3;&#x679C;&#x9009;&#x53D6;&#x6700;&#x4F18;&#x7684;&#x795E;&#x7ECF;&#x7F51;&#x7EDC;&#x5C42;&#x6570;&#x4E0E;&#x795E;&#x7ECF;&#x5143;&#x6570;&#x76EE;
    target = []
    net.eval()  # &#x542F;&#x52A8;&#x6D4B;&#x8BD5;&#x6A21;&#x5F0F;
    for data, targets in validation:  # &#x8F93;&#x51FA;&#x9A8C;&#x8BC1;&#x96C6;&#x7684;&#x5E73;&#x5747;&#x8BEF;&#x5DEE;
        logits = net.forward(data).detach().numpy()
        targets = targets.detach().numpy()
        target.append(targets[0])
        logit.append(logits[0])
    average_loss = criteon(torch.tensor(logit), torch.tensor(target))  # &#x8BA1;&#x7B97;&#x635F;&#x5931;
    return float(average_loss)

from ax.service.managed_loop import optimize  # &#x4F7F;&#x7528;&#x8D1D;&#x53F6;&#x65AF;&#x4F18;&#x5316;&#x8D85;&#x53C2;&#x6570;,&#x53EF;&#x4EE5;&#x4F7F;&#x7528;pip install ax-platform&#x547D;&#x4EE4;&#x5B89;&#x88C5;&#xFF0C;&#x8D1D;&#x53F6;&#x65AF;&#x4F18;&#x5316;&#x5177;&#x4F53;&#x4ECB;&#x7ECD;&#x89C1;https://ax.dev/docs/bayesopt.html

def bayesian_optimization():
    best_parameters, values, experiment, model = optimize(
        parameters=[{
            "name": "learning_rate",
            "type": "range",
            "bounds": [1e-6, 0.1],
            "log_scale": True
        }, {
            "name": "n_layer",
            "type": "range",
            "bounds": [0, 4]
        }, {
            "name": "n_neuron1",
            "type": "range",
            "bounds": [40, 300]
        }, {
            "name": "n_neuron2",
            "type": "range",
            "bounds": [40, 300]
        }, {
            "name": "batch_sizes",
            "type": "range",
            "bounds": [6, 100]
        }, {
            "name": "epochs",
            "type": "range",
            "bounds": [300, 500]
        }],
        evaluation_function=train_evaluate,
        objective_name='MSE LOSS',
        total_trials=200,  # &#x6267;&#x884C;200&#x6B21;&#x4F18;&#x5316;
        minimize=True)  # &#x5F80;&#x6700;&#x5C0F;&#x503C;&#x65B9;&#x5411;&#x4F18;&#x5316;&#xFF08;&#x9ED8;&#x8BA4;&#x5F80;&#x6700;&#x5927;&#x503C;&#x65B9;&#x5411;&#x4F18;&#x5316;&#xFF09;
    return best_parameters

best = bayesian_optimization() # &#x8FD4;&#x56DE;&#x6700;&#x4F18;&#x7684;&#x7ED3;&#x6784;

Original: https://blog.csdn.net/liuqihang11/article/details/120412061
Author: syphomn
Title: 使用Pytorch解决回归问题的一般方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614314/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python: 开始使用tensorflow 出现的一些问题即解决办法

python 用了快一年了，想试用一下tensorflow, 了解一下深度学习(deep learning), 但是与其他的模块不同， tensorflow用起来并不容易，或许…

人工智能 2023年6月16日
0073
2022各顶会NAS论文（不全）

CVPR 2022 1.Shapley-NAS: Discovering Operation Contribution for Neural Architecture Search…

人工智能 2023年6月4日
0063
Python数据分析中的训练集、验证集、测试集

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】 ● 标题与摘要 Python数据分析中的训练集、验证集、测试集 …

人工智能 2023年7月15日
0059
PaddleDetection：FCOS Anchor Free目标检测算法

2021SC@SDUSC本周分析 Anchor Based方法当我们提到当前主流的目标检测算法时，无论是多阶段的各种RCNN和单阶段的SSD、YoloV3等等都是基于Anchor…

人工智能 2023年7月12日
0053
双语麻省理工-自然语言处理进阶

课程描述自然语言处理是如何教计算机理解人类语言的工程艺术和科学。自然语言处理是一种人工智能技术，现在它无处不在—自然语言处理让我们可以和手机通话，使用网络回答问题，在书籍和社交媒…

人工智能 2023年5月28日
0067
基于MATLAB的指纹识别算法仿真实现

FPGA教程目录 MATLAB教程目录 Original: https://blog.csdn.net/ccsss22/article/details/127582230Autho…

人工智能 2023年7月19日
0072
双重差分法之空间DID

简单谈一下我本人对空间双重差分模型（Spatial Difference in Difference Model， SDID ）几点或许不太成熟的理解。（本文首发于个人微信公众…

人工智能 2023年6月2日
00107
视频文本检索论文笔记（一）：Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

浅谈这篇论文 Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning —2020CVPR 视频文本检…

人工智能 2023年6月1日
00105
学习笔记之知识图谱三元组抽取模型

这里使用一个多任务模型抽取三元组。任务1是抽取subjects, 任务2是同时抽取objects 和 predictions。抽取的方式并不是BIO标注的方式而是采用半指针半标注的…

人工智能 2023年6月1日
0053
Centos7宝塔部署python

前言：宝塔本身有python项目管理器，但是有些依赖安装会存在问题，比如paddlehub安装总是失败，本文在宝塔安装了anaconda基础上配合python项目管理器去部署项目，…

人工智能 2023年6月26日
0072
Pytorch Transformer Tokenizer常见输入输出实战详解

Tokenizer简介和工作流程 Transformers，以及基于BERT家族的预训练模型+微调模式已经成为NLP领域的标配。而作为文本数据预处理的主要方法-Tokenizer（…

人工智能 2023年5月27日
0072
【Python案例】短视频转动漫效果

近日，已使用多年的人教版小学数学教材中的插画引发社会各界人士争议。咱程序员也没有手绘插画能力，但咱可以借助强大的深度学习模型将视频转动漫。本文目标是让任何具有 python语言基本…

人工智能 2023年5月28日
0085
Pandas的基本使用

1.关于Pandas Pandas是基于Numpy的。但Numpy只能处理数字，若想处理其他类型的数据，如字符串等，就得依靠Pandas Pandas有两大类数据类型： 2.Pan…

人工智能 2023年7月8日
0083
知识图谱在畜牧业中的应用实例

在金融、医疗、&#…

人工智能 2023年6月1日
0084
YOLOv7实验测试之二：遥感图像检测应用（yolov7-tiny-silu.yaml）

需要更多程序资料以及答疑欢迎大家关注——微信公众号：人工智能AI算法工程师前期一直没有时间跑YOLOv7源码，今天对YOLOv7在NWPU-10遥感图像数据集上进行实验测试，现将…

人工智能 2023年6月17日
0087
CycleGAN在Voice Conversion音色转换上的应用

文章目录总结 CycleGAN VC * 网络结构训练细节 CycleGAN VC2 * 网络结构训练细节 CycleGAN VC3 * 网络结构训练细节 Mask Cyc…

人工智能 2023年5月25日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31