高效回顾深度学习DL、CV、NLP

2023年5月30日下午1:24 • 人工智能 • 阅读 138

深度学习（deep learning）是机器学习的一个分支，是伴随着大数据与云计算技术的崛起而快速发展起来的，并在计算机视觉、语言等感知领域迅速取得成功。DL源于对人工神经网络的研究，起源算法是感知机（perceptron）。深度学习网络通过神经元从输入数据中提取特征，并通过组合低层特征形成更加抽象的高层特征（表示），以发现数据的分布式特征，从而达到人们对数据进行分类、回归的目的。

CNN是一种多层神经网络，擅长处理图像，特别是大图像的ML问题，它通过一系列方法使数据量庞大的图像识别问题不断降维最终将其训练。CNN包含卷积计算单元，通过不断滑动卷积核的位置，对相应数据区域进行加权求和，常见的卷积计算单元有一位卷积CNN1D、二维卷积CNN2D，通常CV领域用CNN2D，NLP领域用CNN1D。CNN最早最经典的网络是LeNet，包含数据输入层、卷积计算层、激活层、池化层和全连接层。数据在进入网络前要预处理，一般为去均值、归一化、PCA/白化等。卷积层完成特征抽取，池化层降低数据维度，抽取最关键或者综合地特征信息，有平均池化和最大池化。卷积层和池化层通过配合组成多个卷积组，并逐层提取特征，最终通过若干个全连接层完成分类。全连接层指层中每个节点都会连接它下一层的所有节点，它对提取的特征进行线性组合以得到输出，本身不具备特征提取能力，而是利用现有的高阶特征完成学习目标。激活层主要用于为网络层增加非线性变换，一般是非线性函数，对卷积层的输出进行非线性映射，进而给CNN非线性映射学习能力，进行表达更复杂的信息特征。

RNN中每一个循环单元除了要接收该位置的信息，还要接收将上一个循环单元的输出作为输入，计算对应当前时刻的预测概率并将传递给下一时刻的信息作为输出。这种方式使RNN保持了长距离额上下文信息，天然符合序列任务，很适用于NLP。在训练过程中，由于使用了反向传播算法（本质就是链式规则，大大简化了求梯度的过程，因为梯度下降过程中需要大量的梯度运算），梯度值在不同的时刻会以乘法的形式进行累积，最终会出现梯度爆炸或梯度消失的问题（可以采用梯度裁剪方法缓解）。针对这些问题，人们提出LSTM（Long Short Term Memory）和GRU（Gate Recurrent Unit)等结构。LSTM在RNN基础上增加了细胞状态（cell state），来直接传递相邻时刻之间的信息。由于细胞状态下反向传播的梯度不会消失，因此缓解了梯度消失问题，同时LSTM还引入了采用Sigmoid激活的门控机制（遗忘门、输入门与输出门），来分别控制上一时刻的细胞状态、输入信息及输出信息的进一步传递，从而实现长短期记忆。GRU对LSTM进行了简化，将细胞状态和隐藏状态合并，将遗忘门与输入门合二为一，降低了计算复杂度，由于LSTM和GRU的门控单元是信息经过多次Sigmoid激活（导数小于1），所以缓解了梯度爆炸问题。RNN还提供了多对一和多对多的任务结构。但是RNN保持的长距离信息有时不是我们想要的，如何选择性地保留信息是进一步优化的关键。

编码器-解码器框架（Encoder-Decoder） 也被称为Seq2Seq模型，其中编码器负责对输入序列进行编码，计算特征张量；解码器接收特征张量，输出目标序列。两者通常都使用RNN。为了选择性保留信息， 注意力机制（Attention） 应运而生。它首先将编码器的全部隐藏状态（bs，len，dim）与t时刻输入解码器的词向量（bs，dim）做矩阵乘法，并在进行SoftMax归一化后，得到注意力权重（bs，len）。然后，将注意力权重与编码器的全部隐藏状态（bs，len，dim）再做矩阵乘法，得到上下文向量（bs，dim）。最后，该向量与t时刻输入解码器的词向量进行拼接，再被输入解码器的RNN进行训练。通过注意力机制，解码器可以选择性地获得编码器的隐藏状态信息，提高训练效率。使用稠密向量计算注意力权重的称为软注意力机制，使用独热编码向量的称为硬注意力机制。

计算机视觉即利用计算机来模拟人的视觉，是计算机的”看”，官方定义是： 基于感知图像做出对客观对象和场景有用的决策。CV处理的对象是图像和视频，本质就是图像，因为视频就是图像组成的。CV的主要任务有5种： 图像分类、目标检测、目标跟踪、语义分割、实例分割。现代的CV方法基本都由深度神经网络组成，尤其是卷积神经网络。大名鼎鼎的ImageNet数据集是CV的重要推动者，改变了AI领域人们对数据集的认识。以往CV一般采用梯度方向直方图（HOG）、尺度不变特征变换（SIFT）等传统的特征提取与浅层模型组合的方法。如今在AI的浪潮下，CV逐渐转向以CNN为代表的 端到端DL模型。

一般的视频处理过程是先分帧得到图片，对图片进行处理（灰度处理、高清分辨率重建等），再将处理后的图片合成视频。小常识，图片中每个像素的颜色有红绿蓝三个颜色变量来调节（RGB），当R=G=B时图片变成灰度图片，灰度图像显示从最暗的黑色到最亮的白色的灰度，一般有256阶（因为RBG分别由8位数表示，所以R=G=B有2的8次方种组合），最简单的灰度处理方法就是RGB三值都取（R+G+B）/3。超分辨率处理算法传统使用双线性插值，即利用目标像素周围的四个点来做预测，且离目标位置越近的点的权重越大，为了更加精确，预测模型会很复杂，上万个模型参数必须依靠ML方法来优化，常用的有SRCNN、FSRCNN、ESPCN。

自然语言处理主要研究实验人和计算机之间用自然语言进行有效通信的各种理论和方法，涉及语言学、计算机科学、逻辑学等等，主要任务包括自然语言理解NLU和自然语言生成NLG。

字和词是人类语言的基本单位，为了让计算机理解人类语言，就必须考虑如何在计算机系统中表示字和词。通常，将字和词映射为一组反映其语义特征的实数向量，称为词向量，有独热表示和分布表示。独热编码相当于给每个字词分配一个唯一的id，这种稀疏编码不能反映字词背后蕴含的语义信息，而且占用大量内存。分布表示将字词表示为一个定长的稠密向量，由于稠密向量之间可以进行距离计算（相似度计算），因此可以反映字词背后的语义信息。当然，稠密向量不是随意设置的，需要从句子、文档中不断学习得到，因此还需要对句子进行建模，即语言模型。

语言模型是对句子进行建模，并求解句子的概率分布。
传统语言模型包括词袋模型和n-gram模型。词袋模型中数值只反映字词出现的频数，与字词的顺序无关，通常字词的频率反映了其在句子中的重要性。n-gram模型能更好地反映语义。某个单词的概率是由其前面所有出现的单词决定的，马尔可夫假设某个时刻的状态之和其之前的（n-1）个状态有关，这将大大简化计算。n-gram模型通常采用极大似然估计来计算，只需要统计每个n-gram在训练集中的频数即可。
神经语言模型通过神经网络训练得到词的分布，通常称为词嵌入。首先网络通过SoftMax层输出每个位置的全词表分布，然后取对应位置最大的概率输出，并采用交叉熵作为损失函数训练。其中常用负采样技术，即先不进行全词表上的参数更新，而只对正样本随机选取的负样本进行采样，然后根据这些采样负样本和正样本计算损失函数，从而更新正样本的参数。经典的神经语言模型有Skip-Gram模型和CBOW模型。Skip-Gram模型通过中心词预测上下文窗口中的词，它接受将处理为单词索引的句子作为输入，经过Embedding层将索引转换为对应的词向量。假设中心词的上下文范围为C窗口大小，则分别计算中心词隐层张量与C个上下文词对应的损失，最终求和作为该中心词的损失，并反向传播回对应的词向量，从而进行词向量的学习与更新。CBOW模型与Skip-Gram模型相反，它通过上下文中全部词预测中心词。计算上下文求和的隐层张量与中心词对应的㲳，并反向传播回对应的C个上下文词向量，从而进行词向量的学习与更新。谷歌发布了提供Skip-Gram和CBOW训练的word2vec工具，可以高效计算静态词向量，挖掘词之间的关系。

Original: https://blog.csdn.net/weixin_45116099/article/details/126204259
Author: 全栈O-Jay
Title: 高效回顾深度学习DL、CV、NLP

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/542833/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

非负矩阵分解NMF简介

本文整理NMF相关知识。简介非负矩阵分解(Nonnegative Matrix Factorization)，简称NMF，是由Lee和Seung于1999年在自然杂志上提出的一…

人工智能 2023年7月28日
0050
Linux:文件目录类指令(内含：文件目录所有用法总结摘要+所有用法案例)

1.总结/摘要文件目录： pwd:显示当前工作目录的绝对路径 ls -a:显示当前目录所有的文件和目录，包含隐藏的 ls -l:以列表的方式显示信息。 cd:切换到指定目录(cd…

人工智能 2023年6月29日
0056
小目标检测思路

小目标小，所以占用图像的像素就少，特征就少检测框小，漏检率高解决思路： 1）数据增强。复制小目标，经过旋转缩放等，粘贴到该图像其它地方 2）利用小目标上下文信息。如检测人脸，…

人工智能 2023年7月9日
0063
pytorch GPU内存管理

1、PyTorch 提供了 memory_allocated() 和 max_memory_allocated() 用于监视 tensors 占用的内存； memory_cache…

人工智能 2023年7月22日
0089
3D点云深度学习-浅谈点云分割

先说一点题外话读研究生三年，我开始研究图像检测一年，但我还不懂，然后实验室都开始做点云，然后我切换到点云方向两年。我没有取得太大的成就，因为我觉得我才刚开始学习了两年。我的大部分…

人工智能 2023年5月23日
0075
PySide6精简教程

目录一、PySide6概述二、安装PySide6 三、设计界面四、响应UI操作五、打包部署一、PySide6概述近几年，受益于人工智能的崛起，Python语言几乎以压倒…

人工智能 2023年7月30日
0075
比赛开启：CCKS2022技术评测任务七“化学元素知识图谱构建及应用

*任务描述：随着AI技术的发展和普及，药物研发也逐渐进入到AI时代，擅长处理大数据的AI深度学习技术，就成为近年来大家关注的焦点。化合物的性质预测的主要目的在于及时发现理化性质不…

人工智能 2023年6月1日
0073
Pandas 表连接（concat，merge,append）

Pandas 表连接（concat，merge，append） ## 1.pd.concat([left,right],axis=1) ## 2.pd.merge(left,rig…

人工智能 2023年7月8日
0050
目标检测——常用评估指标含义及代码

一、简介目标检测是一个分类和回归都有的一个任务。通过混淆矩阵(TP, TN, FP, FN)，可以计算出 Precision ( P ), Recall ( R ), Accu…

人工智能 2023年7月10日
0056
opencv图像窗口

图像窗口函数 opencv可以生成一个窗口用于显示，需要窗口显示，就需要窗口创建函数。窗口创建 cv.namedWindow（）用于创建一个窗口，该函数会创建一个窗口变量，用于…

人工智能 2023年6月22日
0063
“泰迪杯”超市Spark数据处理和数据分析项目实战Dataframe

数据和代码 2019 年”泰迪杯”数据分析职业技能大赛超市销售数据分析一、背景近年来，随着新零售业的快速发展，消费者购买商品时有了更多的对比和选择，导致超…

人工智能 2023年6月19日
0088
python 读csv 数据丢失_通过pandas的read_csv（）读取数据时丢失“秒”信息

我试图读取一个简单的数据，其中几乎只有两列：id和timestamp 因为我的时间戳有秒，所以我想保存这些信息。所以我读了很多文章，比如：还有更多。。。。在以下是我在阅读完这里…

人工智能 2023年7月8日
00129
[深度学习] Python人脸识别库face_recognition使用教程

Python人脸识别库face_recognition使用教程 face_recognition号称是世界上最简单的开源人脸识别库，可以通过Python或命令行识别和操作人脸。fa…

人工智能 2023年6月17日
00109
机器学习中的数学——常用概率分布（十）：贝塔分布（Beta分布）

分类目录：《机器学习中的数学》总目录相关文章：· 常用概率分布（一）：伯努利分布（Bernoulli分布）· 常用概率分布（二）：范畴分布（Multinoulli分布）· 常用概率…

人工智能 2023年6月16日
00119
【数学模型】层次分析

Hello大家好，今年数学建模国赛将于9月中旬举行，是时候提前做一些准备了。本次模型非常简单，只是介绍比较得详细，我下次注意，争取限制下字数。文末准备了层次分析-python模…

人工智能 2023年7月26日
0048
【语音编码】基于matlab PCM编解码【含Matlab源码 555期】

⛄一、获取代码方式获取代码方式1：完整代码已上传我的资源：【语音编码】基于matlab PCM编解码【含Matlab源码 555期】点击上面蓝色字体，直接付费下载，即可。获取代…

人工智能 2023年5月25日
0065

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

高效回顾深度学习DL、CV、NLP

大家都在看