MultiHead-Attention和Masked-Attention的机制和原理

2023年6月23日下午8:04 • 人工智能 • 阅读 79

文章目录

一、本文说明
二. MultiHead Attention
*
2.1 MultiHead Attention理论讲解
2.2. Pytorch实现MultiHead Attention
三. Masked Attention
*
3.1 为什么要使用Mask掩码
3.2 如何进行mask掩码
3.3 为什么是负无穷而不是0
3.4. 训练时的掩码
参考资料

一、本文说明

看本文前，需要先彻底搞懂Self-Attention。推荐看我的另一篇博文层层剖析，让你彻底搞懂Self-Attention、MultiHead-Attention和Masked-Attention的机制和原理。本篇文章内容在上面这篇也有，可以一起看。

二. MultiHead Attention

2.1 MultiHead Attention理论讲解

在Transformer中使用的是MultiHead Attention，其实这玩意和Self Attention区别并不是很大。先明确以下几点，然后再开始讲解：

MultiHead的head不管有几个，参数量都 是一样的。并不是head多，参数就多。
当MultiHead的head为1时，并不等价于Self Attetnion，MultiHead Attention和Self Attention是不一样的东西
MultiHead Attention使用的也是Self Attention的公式
MultiHead除了W q , W k , W v W^q, W^k, W^v W q ,W k ,W v三个矩阵外，还要多额外定义一个W o W^o W o。

好了，知道上面几点，我们就可以开始讲解MultiHeadAttention了。

MultiHead Attention大部分逻辑和Self Attention是一致的，是从求出Q,K,V后开始改变的，所以我们就从这里开始讲解。

现在我们求出了Q, K, V矩阵，对于Self-Attention，我们已经可以带入公式了，用图像表示则为：

MultiHead-Attention和Masked-Attention的机制和原理

为了简单起见，该图忽略了Softmax和 d k d_k d k 的计算

而MultiHead Attention在带入公式前做了一件事情，就是拆，它按照”词向量维度”这个方向，将Q,K,V拆成了多个头，如图所示：

这里我的head数为4。既然拆成了多个head，那么之后的计算，也是各自的head进行计算，如图所示：

但这样拆开来计算的Attention使用Concat进行合并效果并不太好，所以最后需要再采用一个额外的W o W^o W o矩阵，对Attention再进行一次线性变换，如图所示：

到这里也能看出来， head数并不是越多越好。而为什么要用MultiHead Attention，Transformer给出的解释为： Multi-head attention允许模型共同关注来自不同位置的不同表示子空间的信息。反正就是用了比不用好。

; 2.2. Pytorch实现MultiHead Attention

该代码参考项目annotated-transformer。

首先定义一个通用的Attention函数：

def attention(query, key, value):
"""
    计算Attention的结果。
    这里其实传入的是Q,K,V，而Q,K,V的计算是放在模型中的，请参考后续的MultiHeadedAttention类。

    这里的Q,K,V有两种Shape，如果是Self-Attention，Shape为(batch, 词数, d_model)，
                           例如(1, 7, 128)，即batch_size为1，一句7个单词，每个单词128维

                           但如果是Multi-Head Attention，则Shape为(batch, head数, 词数，d_model/head数)，
                           例如(1, 8, 7, 16)，即Batch_size为1，8个head，一句7个单词，128/8=16。
                           这样其实也能看出来，所谓的MultiHead其实就是将128拆开了。

                           在Transformer中，由于使用的是MultiHead Attention，所以Q,K,V的Shape只会是第二种。

"""

    d_k = query.size(-1)

    scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k)

    p_attn = scores.softmax(dim=-1)

    return torch.matmul(p_attn, value)

class MultiHeadedAttention(nn.Module):
    def __init__(self, h, d_model):
"""
        h: head的数量
"""
        super(MultiHeadedAttention, self).__init__()
        assert d_model % h == 0

        self.d_k = d_model // h
        self.h = h

        self.linears = [
            nn.Linear(d_model, d_model),
            nn.Linear(d_model, d_model),
            nn.Linear(d_model, d_model),
            nn.Linear(d_model, d_model),
        ]

    def forward(self, x):

        nbatches = x.size(0)

"""
        1. 求出Q, K, V，这里是求MultiHead的Q,K,V，所以Shape为(batch, head数, 词数，d_model/head数)
            1.1 首先，通过定义的W^q,W^k,W^v求出SelfAttention的Q,K,V，此时Q,K,V的Shape为(batch, 词数, d_model)
                对应代码为 linear(x)
            1.2 分成多头，即将Shape由(batch, 词数, d_model)变为(batch, 词数, head数，d_model/head数)。
                对应代码为 view(nbatches, -1, self.h, self.d_k)
            1.3 最终交换"词数"和"head数"这两个维度，将head数放在前面，最终shape变为(batch, head数, 词数，d_model/head数)。
                对应代码为 transpose(1, 2)
"""
        query, key, value = [
            linear(x).view(nbatches, -1, self.h, self.d_k).transpose(1, 2)
            for linear, x in zip(self.linears, (x, x, x))
        ]

"""
        2. 求出Q,K,V后，通过attention函数计算出Attention结果，
           这里x的shape为(batch, head数, 词数，d_model/head数)
           self.attn的shape为(batch, head数, 词数，词数)
"""
        x = attention(
            query, key, value
        )

"""
        3. 将多个head再合并起来，即将x的shape由(batch, head数, 词数，d_model/head数)
           再变为 (batch, 词数，d_model)
           3.1 首先，交换"head数"和"词数"，这两个维度，结果为(batch, 词数, head数, d_model/head数)
               对应代码为：x.transpose(1, 2).contiguous()
           3.2 然后将"head数"和"d_model/head数"这两个维度合并，结果为(batch, 词数，d_model)
"""
        x = (
            x.transpose(1, 2)
                .contiguous()
                .view(nbatches, -1, self.h * self.d_k)
        )

        return self.linears[-1](x)

接下来尝试使用一下：


model = MultiHeadedAttention(8, 512)

x = torch.rand(2, 7, 512)

print(model(x).size())

输出为：

torch.Size([2, 7, 512])

三. Masked Attention

3.1 为什么要使用Mask掩码

在Transformer中的Decoder中有一个Masked MultiHead Attention。本节来对其进行一个详细的讲解。

首先我们来复习一下Attention的公式：

O n × d v = Attention ( Q n × d k , K n × d k , V n × d v ) = softmax ⁡ ( Q n × d k K d k × n T d k ) V n × d v = A n × n ′ V n × d v \begin{aligned} O_{n\times d_v} = \text { Attention }(Q_{n\times d_k}, K_{n\times d_k}, V_{n\times d_v})&=\operatorname{softmax}\left(\frac{Q_{n\times d_k} K^{T}{d_k\times n}}{\sqrt{d_k}}\right) V{n\times d_v} \\ & = A’{n\times n} V{n\times d_v} \end{aligned}O n ×d v =Attention (Q n ×d k ,K n ×d k ,V n ×d v )=softmax (d k Q n ×d k K d k ×n T )V n ×d v =A n ×n ′V n ×d v

其中：

O n × d v = [ o 1 o 2 ⋮ o n ] , A n × n ′ = [ α 1 , 1 ′ α 2 , 1 ′ ⋯ α n , 1 ′ α 1 , 2 ′ α 2 , 2 ′ ⋯ α n , 2 ′ ⋮ ⋮ ⋮ α 1 , n ′ α 2 , n ′ ⋯ α n , n ′ ] , V n × d v = [ v 1 v 2 ⋮ v n ] O_{n\times d_v}= \begin{bmatrix} o_1\ o_2\ \vdots \ o_n\ \end{bmatrix},~~~~A’{n\times n} = \begin{bmatrix} \alpha’{1,1} & \alpha’{2,1} & \cdots &\alpha’{n,1} \ \alpha’{1,2} & \alpha’{2,2} & \cdots &\alpha’{n,2} \ \vdots & \vdots & &\vdots \ \alpha’{1,n} & \alpha’{2,n} & \cdots &\alpha’{n,n} \ \end{bmatrix}, ~~~~V_{n\times d_v}= \begin{bmatrix} v_1\ v_2\ \vdots \ v_n\ \end{bmatrix}O n ×d v =⎣⎡o 1 o 2 ⋮o n ⎦⎤,A n ×n ′=⎣⎡α1 ,1 ′α1 ,2 ′⋮α1 ,n ′α2 ,1 ′α2 ,2 ′⋮α2 ,n ′⋯⋯⋯αn ,1 ′αn ,2 ′⋮αn ,n ′⎦⎤,V n ×d v =⎣⎡v 1 v 2 ⋮v n ⎦⎤

假设 ( v 1 , v 2 , . . . v n ) (v_1, v_2, … v_n)(v 1 ,v 2 ,…v n ) 对应着 ( 机 , 器 , 学 , 习 , 真 , 好 , 玩 ) (机, 器, 学, 习, 真, 好, 玩)(机,器,学,习,真,好,玩)。那么 ( o 1 , o 2 , . . . , o n ) (o_1, o_2, …, o_n)(o 1 ,o 2 ,…,o n ) 就对应着 ( 机 ′ , 器 ′ , 学 ′ , 习 ′ , 真 ′ , 好 ′ , 玩 ′ ) (机’, 器’, 学’, 习’, 真’, 好’, 玩’)(机′,器′,学′,习′,真′,好′,玩′)。其中机 ′ 机’机′ 包含着 v 1 v_1 v 1 到 v n v_n v n 的所有注意力信息。而计算机 ′ 机’机′ 时的 ( 机 , 器 , . . . ) (机, 器, …)(机,器,…) 这些字的权重就是 A ′ A’A ′ 的第一行的 ( α 1 , 1 ′ , α 2 , 1 ′ , . . . ) (\alpha’{1,1}, \alpha’{2,1}, …)(α1 ,1 ′,α2 ,1 ′,…)。

如果上面的回忆起来了，那么接下来看一下Transformer的用法，假设我们是要用Transformer翻译”Machine learning is fun”这句话。

首先，我们会将”Machine learning is fun” 送给Encoder，输出一个名叫Memory的Tensor，如图所示：

之后我们会将该Memory作为Decoder的一个输入，使用Decoder预测。Decoder并不是一下子就能把”机器学习真好玩”说出来，而是一个词一个词说（或一个字一个字，这取决于你的分词方式），如图所示：

紧接着，我们会再次调用Decoder，这次是传入”

当Transformer输出 <eos></eos>时，预测就结束了。

到这里我们就会发现，对于Decoder来说是一个字一个字预测的，所以假设我们Decoder的输入是”机器学习”时，”习”字只能看到前面的”机器学”三个字，所以此时对于”习”字只有”机器学习”四个字的注意力信息。

但是，例如最后一步传的是”

我们不妨来分析一下：

一开始我们只传入了”机”（忽略bos），此时使用attention机制，将”机”字编码为了 [ 0.13 , 0.73 , . . . ] [0.13, 0.73, …][0.13 ,0.73 ,…]

第二次，我们传入了”机器”，此时使用attention机制，如果我们不将”器”字盖住的话，那”机”字的编码就会发生变化，它就不再是是[ 0.13 , 0.73 , . . . ] [0.13, 0.73, …][0.13 ,0.73 ,…]了，也许就变成了[ 0.95 , 0.81 , . . . ] [0.95, 0.81, …][0.95 ,0.81 ,…]。

这就会导致第一次”机”字的编码是[ 0.13 , 0.73 , . . . ] [0.13, 0.73, …][0.13 ,0.73 ,…]，第二次却变成了[ 0.95 , 0.81 , . . . ] [0.95, 0.81, …][0.95 ,0.81 ,…]，这样就可能会让网络有问题。所以我们为了不让”机”字的编码产生变化，所以我们要使用mask，掩盖住”机”字后面的字，也就是即使他能attention后面的字，也不让他attention。

许多文章的解释是Mask是为了防止Transformer在训练时泄露后面的它不应该看到的信息，为什么会这么说呢？这个在3.4进行详细的解释。

; 3.2 如何进行mask掩码

要进行掩码，只需要对scores动手就行了，也就是 A n × n ′ A’_{n\times n}A n ×n ′ 。直接上例子：

第一次，我们只有 v 1 v_1 v 1 变量，所以是：

[ o 1 ] = [ α 1 , 1 ′ ] ⋅ [ v 1 ] \begin{bmatrix} o_1\ \end{bmatrix}=\begin{bmatrix} \alpha’_{1,1} \end{bmatrix} \cdot \begin{bmatrix} v_1\ \end{bmatrix}[o 1 ]=[α1 ,1 ′]⋅[v 1 ]

第二次，我们有 v 1 , v 2 v_1, v_2 v 1 ,v 2 两个变量：

[ o 1 o 2 ] = [ α 1 , 1 ′ α 2 , 1 ′ α 1 , 2 ′ α 2 , 2 ′ ] [ v 1 v 2 ] \begin{bmatrix} o_1\ o_2 \end{bmatrix} = \begin{bmatrix} \alpha’{1,1} & \alpha’{2,1} \ \alpha’{1,2} & \alpha’{2,2} \end{bmatrix} \begin{bmatrix} v_1\ v_2\ \end{bmatrix}[o 1 o 2 ]=[α1 ,1 ′α1 ,2 ′α2 ,1 ′α2 ,2 ′][v 1 v 2 ]

此时如果我们不对 A 2 × 2 ′ A’{2\times 2}A 2 ×2 ′ 进行掩码的话，o 1 o_1 o 1 的值就会发生变化（第一次是 α 1 , 1 ′ v 1 \alpha’{1,1}v_1 α1 ,1 ′v 1 ，第二次却变成了α 1 , 1 ′ v 1 + α 2 , 1 ′ v 2 \alpha’{1,1}v_1+\alpha’{2,1}v_2 α1 ,1 ′v 1 +α2 ,1 ′v 2 ）。那这样看，我们只需要将 α 2 , 1 ′ \alpha’_{2,1}α2 ,1 ′ 盖住即可，这样就能保证两次的 o 1 o_1 o 1 一致了。

所以第二次实际就为：

[ o 1 o 2 ] = [ α 1 , 1 ′ 0 α 1 , 2 ′ α 2 , 2 ′ ] [ v 1 v 2 ] \begin{bmatrix} o_1\ o_2 \end{bmatrix} = \begin{bmatrix} \alpha’{1,1} & 0 \ \alpha’{1,2} & \alpha’_{2,2} \end{bmatrix} \begin{bmatrix} v_1\ v_2\ \end{bmatrix}[o 1 o 2 ]=[α1 ,1 ′α1 ,2 ′0 α2 ,2 ′][v 1 v 2 ]

依次类推，如果我们执行到第n n n次时，就应该变成：

[ o 1 o 2 ⋮ o n ] = [ α 1 , 1 ′ 0 ⋯ 0 α 1 , 2 ′ α 2 , 2 ′ ⋯ 0 ⋮ ⋮ ⋮ α 1 , n ′ α 2 , n ′ ⋯ α n , n ′ ] [ v 1 v 2 ⋮ v n ] \begin{bmatrix} o_1\ o_2\ \vdots \ o_n\ \end{bmatrix} = \begin{bmatrix} \alpha’{1,1} & 0 & \cdots & 0 \ \alpha’{1,2} & \alpha’{2,2} & \cdots & 0 \ \vdots & \vdots & &\vdots \ \alpha’{1,n} & \alpha’{2,n} & \cdots &\alpha’{n,n} \ \end{bmatrix} \begin{bmatrix} v_1\ v_2\ \vdots \ v_n\ \end{bmatrix}⎣⎡o 1 o 2 ⋮o n ⎦⎤=⎣⎡α1 ,1 ′α1 ,2 ′⋮α1 ,n ′0 α2 ,2 ′⋮α2 ,n ′⋯⋯⋯0 0 ⋮αn ,n ′⎦⎤⎣⎡v 1 v 2 ⋮v n ⎦⎤

3.3 为什么是负无穷而不是0

按照上面的说法，mask掩码是0，但为什么源码中的掩码是 − 1 e 9 -1e9 −1 e 9 （负无穷）。Attention部分源码如下：

if mask is not None:
    scores = scores.masked_fill(mask == 0, -1e9)

p_attn = scores.softmax(dim=-1)

你仔细看，我们上面说的A n × n ′ A’_{n\times n}A n ×n ′ 是什么，是softmax之后的。而源码中呢，源码是在softmax之前进行掩码，所以才是负无穷，因为将负无穷softmax后就会变成0了。

3.4. 训练时的掩码

通常我们在网上看Masked Attention相关的文章时，会说mask的目的是为了防止网络看到不该看到的内容。本节主要来解释一下这句话。

首先，我们需要了解一下Transformer的训练过程。

在Transformer推理时，我们是一个词一个词的输出，但在训练时这样做效率太低了，所以我们会将target一次性给到Transformer（当然，你也可以按照推理过程做），如图所示：

从图上可以看出，Transformer的训练过程和推理过程主要有以下几点异同：

源输入src相同：对于Transformer的inputs部分(src参数)一样，都是要被翻译的句子。
目标输入tgt不同：在Transformer推理时，tgt是从 <bos></bos>开始，然后每次加入上一次的输出（第二次输入为 <bos> 我</bos>）。但在训练时是一次将”完整”的结果给到Transformer， 这样其实和一个一个给结果上一致。这里还有一个细节，就是tgt比src少了一位，src是7个token，而tgt是6个token。这是因为我们在最后一次推理时，只会传入前n-1个token。举个例子：假设我们要预测 <bos> 我 爱 你 <eos></eos></bos>（这里忽略pad），我们最后一次的输入tgt是 <bos> 我 爱 你</bos>（没有 <eos></eos>），因此我们的输入tgt一定不会出现目标的最后一个token，所以一般tgt处理时会将目标句子删掉最后一个token。
输出数量变多：在训练时，transformer会一次输出多个概率分布。例如上图， 我就的等价于是tgt为 <bos></bos>时的输出， 爱就等价于tgt为 <bos> 我</bos>时的输出，依次类推。当然在训练时，得到输出概率分布后就可以计算loss了，并不需要将概率分布再转成对应的文字。注意这里也有个细节，我们的输出数量是6，对应到token就是 我 爱 你 <eos> <pad> <pad></pad></pad></eos>，这里少的是 <bos></bos>，因为 <bos></bos>不需要预测。计算loss时，我们也是要和的这几个token进行计算，所以我们的label不包含 <bos></bos>。代码中通常命名为 tgt_y。

其实总结一下就一句话： Transformer推理时是一个一个词预测，而训练时会把所有的结果一次性给到Transformer，但效果等同于一个一个词给，而之所以可以达到该效果，就是因为对tgt进行了掩码，防止其看到后面的信息，也就是不要让前面的字具备后面字的上下文信息。

可能看了这句总结还是很难理解，所以我们接下来来做个实验，我们的实验内容为：首先模拟Transformer的推理过程，然后再模拟Transformer的训练过程，看看训练时一次性给到所有的tgt和推理时一个一个给的结果是否一致。

这里我们要用到Pytorch中的 nn.Transformer，用法可参考这篇文章。

首先我们来定义模型：


embedding = nn.Embedding(10, 8)

transformer = nn.Transformer(d_model=8, batch_first=True).eval()

接下来定义我们的src和tgt：


src = torch.LongTensor([[0, 1, 2, 3, 4]])

tgt = torch.LongTensor([[4, 3, 2, 1, 0]])

然后我们将 [4]送给Transformer进行预测，模拟推理时的第一步：

transformer(embedding(src), embedding(tgt[:, :1]),

            tgt_mask=nn.Transformer.generate_square_subsequent_mask(1))

tensor([[[ 1.4053, -0.4680,  0.8110,  0.1218,  0.9668, -1.4539, -1.4427,
           0.0598]]], grad_fn=<nativelayernormbackward0>)
</nativelayernormbackward0>

然后我们将 [4, 3]送给Transformer，模拟推理时的第二步：

transformer(embedding(src), embedding(tgt[:, :2]), tgt_mask=nn.Transformer.generate_square_subsequent_mask(2))

tensor([[[ 1.4053, -0.4680,  0.8110,  0.1218,  0.9668, -1.4539, -1.4427,
           0.0598],
         [ 1.2726, -0.3516,  0.6584,  0.3297,  1.1161, -1.4204, -1.5652,
          -0.0396]]], grad_fn=<nativelayernormbackward0>)
</nativelayernormbackward0>

这个时候你有没有发现，输出的第一个向量和上面那个一模一样。

最后我们再将tgt一次性送给transformer，模拟训练过程：

transformer(embedding(src), embedding(tgt), tgt_mask=nn.Transformer.generate_square_subsequent_mask(5))

tensor([[[ 1.4053, -0.4680,  0.8110,  0.1218,  0.9668, -1.4539, -1.4427,
           0.0598],
         [ 1.2726, -0.3516,  0.6584,  0.3297,  1.1161, -1.4204, -1.5652,
          -0.0396],
         [ 1.4799, -0.3575,  0.8310,  0.1642,  0.8811, -1.3140, -1.5643,
          -0.1204],
         [ 1.4359, -0.6524,  0.8377,  0.1742,  1.0521, -1.3222, -1.3799,
          -0.1454],
         [ 1.3465, -0.3771,  0.9107,  0.1636,  0.8627, -1.5061, -1.4732,
           0.0729]]], grad_fn=<nativelayernormbackward0>)
</nativelayernormbackward0>

看到没，前两个tensor和模拟推理时的输出结果一模一样。所以 使用mask时，我们可以保证前面的词不会具备后面词的信息，这样就可以保证Transformer的输出不会因为传入词的多少而改变，从而我们就可以做到在训练时一次将tgt全部给到Transformer，却不会出现问题。这也就是人们常说的，防止网络训练时看到不该看到的内容。

可以尝试思考下为什么输出不会变，原因其实就是因为神经网络的本质就是不断的进行矩阵相乘，例如：X W 1 W 2 W 3 ⋯ W n → O XW_1W_2W_3\cdots W_n \rightarrow O X W 1 W 2 W 3 ⋯W n →O，X X X 为输入， O O O 为输出。在这之中，X X X 的第二个行向量本身就不会让你的第一个行向量的结果改变。在Transformer中多个行向量会互相影响是因为Attention机制，因为里面存在有X X X自身的运算，类似于 X ⋅ X X\cdot X X ⋅X，但我们通过mask可以保证 X ⋅ M a s k _ X X\cdot Mask_X X ⋅M a s k _X 的第二个行向量不要影响到第一个行向量。这里就不展开讲解了，可以尝试用纸笔算一下。

参考资料

Pytorch中 nn.Transformer的使用详解与Transformer的黑盒讲解： https://blog.csdn.net/zhaohongfei_358/article/details/126019181

Original: https://blog.csdn.net/zhaohongfei_358/article/details/125858248
Author: iioSnail
Title: MultiHead-Attention和Masked-Attention的机制和原理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/647816/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python3.9版本的pytorch下载与安装

文章目录前言一、下载步骤 * 1.下载anaconda 2.pytorch配置 3.下载pytorch的安装包二.开发环境配置（jupyter/pycharm) * 1. j…

人工智能 2023年7月30日
0068
数据科学必备Pandas实操数据各种拼接操作汇总

大家好，我是Mr数据杨。想象一下，三国时期的魏国，郭嘉要整理一份三国各地粮草的统计表，这就需要用到的第一个操作”merge”。这就如同郭嘉整合各路将领报回的…

人工智能 2023年7月8日
0069
（msf使用）msfconsole-meterpreter

⭐【msf】 msfconsole meterpreter 对于这款强大渗透测试框架，详情介绍可看这里：metasploit 使用教程对于msfconsole， Kali Lin…

人工智能 2023年6月6日
0093
差分进化算法（DE）简介及Python实现

一、概述差分进化算法(Differential Evolution，DE)由Storn和Price于1995年首次提出，主要用于求解实数优化问题。1996年在日本名古屋举行的第一…

人工智能 2023年6月19日
0082
R语言逻辑操作符：&、|、！&&、||

R语言逻辑操作符：&、|、！&&、|| 逻辑操作符下表显示了R语言支持的逻辑运算符。它只适用于逻辑、数字或复杂类型的向量。所有大于1的数字都被认为是逻辑值…

人工智能 2023年7月17日
00100
jupyter不是内部或外部命令,也不是可运行程序的解决方案

我是在跟着李沐老师安装的时候发现了这问题具体的解决办法如下：如果确认已经安装了jupyter，那么这部分是因为没有将可以找到jupyter的路径添加到系统变量中，具体的做法如…

人工智能 2023年7月4日
0066
评价类问题解决方法及模型汇总

评价类问题的基本范畴对题中所给目标按照一定的标准进行分类将题中数据运用数学模型进行处理，并得到唯一指标结果进行比较或排序探究某一综合问题的不同方面并计算验证其总体实现程度评…

人工智能 2023年7月15日
0073
2022泰迪杯自动提取csv表格文件中的数据，保存到符合YOLOv5格式的txt文件中，并修改标签值的代码实现

（1）目的：根据官方给的csv表格数据，自动生成yolov5所需的txt标签文件，并且把原先的标签：labels = [‘6’, ‘7&#…

人工智能 2023年7月15日
0092
python到底是不是数据分析最好的语言

目前，机器学习-数据分析-可谓业界最为火热的一项技术。越来越多的机器学习/数据分析算法被应用在电商、搜索、金融、游戏，医疗等领域中的数据分析、挖掘、推荐上。从日常使用的相机，每…

人工智能 2023年7月15日
00107
Oracle EBS 如何提交定时请求(一)-指定某个时间点

在某个项目中，某个业务功能的登记请求需求经历如下几项流程：1、新物料编码生成2、调用API创建创建主组织物料和物料分配3、调用API分配物料类别4、成本计算：调用API导入待定成本…

人工智能 2023年6月30日
00101
从零开始搭建SpringBoot项目，并且用Mybatis进行数据查询（包含所用数据库）

核心内容：这是一篇从零开始搭建SpringBoot，加上配置文件如何配置Mybatis的文章。每一步我都用图片加文字都有注释，我也上传了对应所用的数据库。适用人群：刚接触Spri…

人工智能 2023年6月28日
00103
《计算传播学导论》读书笔记：第五章网络传播与传播网络

目录第五章网络传播与传播网络第一节引言第二节网络传播中热点研究问题一、用户传播能力度量与意见领袖发现二、传播最大化三、信息流行度预测四、用户传播行为预测五、传…

人工智能 2023年5月30日
0074
使用tesserocr二值化识别知网登录验证码

随机获取了知网登录界面的三个图片验证码，测试 tesserocr 识别验证码的准确度编写代码，先测试pic1 import tesserocr # 导&am…

人工智能 2023年6月22日
00113
【SlowFast复现】SlowFast Networks for Video Recognition复现代码使用自己的视频进行demo检测

目录一，准备 * 1.1代码 1.2 环境准备 1.3 搭建镜像 1.4 配置slowfast环境 1.5 ava.json 1.6 SLOWFAST_32x2_R101_50_…

人工智能 2023年7月21日
0049
SyntaxError: future feature annotations is not defined

FCN源码出现错误SyntaxError: future feature annotations is not defined，出现错误如下图所示：然后我在网上找错误是因为pyth…

人工智能 2023年7月5日
00116
传统图像处理之皮肤区域检测

能够从别人的角度来看待这个世界，是一种极其珍贵的体验。 Original: https://blog.csdn.net/qq_14845119/article/details/12…

人工智能 2023年6月22日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31