[论文阅读]DARTS

2023年6月4日上午12:50 • 人工智能 • 阅读 80

DARTS

来源

ICLR2019。作者单位CMU（Google brain），DeepMind。

解决的问题

主要解决的是NAS（神经网络架构搜索）的可扩展性的问题。其实主要解决的就是神经网络搜索计算量要求大、效果并不一定很好的问题。

论文发表时的主流解法及存在的问题

主流解法存在的主要问题就是算力要求极高，且可扩展性不强。

主要有强化学习方法、进化算法等。

一些操作包括：设定特殊的搜索空间、对每个独立的架构进行权重或表现估计、多个结构之间的权重共享/继承。

方法

总结来说，就是将离散空间的搜索问题松弛之后转换为连续问题，使用梯度下降法处理。这种变为连续的方法并不是首创，但是之前的变为连续的方式基本上都是微调模型中的某个特定方面，本方法是调整一整个模型的架构。以下为搜索过程详细介绍。

搜索空间

搜索的目标是结构中的一个cell，对CNN来说需要堆叠这个cell形成最后的网络，对RNN来说则是递归使用这个cell。

在搜索过程中，一个cell可以表示成一个有向无环图。假设每个cell含有N个节点，其中每个节点(x^{(i)})表示一个隐含表示，每一条从i节点到j结点的边(o^{(i,j)})表示一种操作（例如卷积等），每个节点值由之前节点与连接决定。举例：

上图中a表示确定一个cell中含有四个节点，需要进行连接，第二张图列出了所有可能的连接方式，第三张图中进行梯度下降之后选出了最有可能的d输出。

松弛与优化

O是待选的操作集合（例如卷积，最大池化，zero操作），每个操作都可以看成是对结点的一个函数。则两个节点之间的选择可以松弛如下：

[o^{(i,j)}(x)=\sum_{o \in O}\frac{exp(\alpha_o^{(i,j)})}{\sum_{o’ \in O }exp(\alpha_{o’}^{(i,j)})}o(x) ]

其中需要学习的就是(\alpha)向量。由于最后使用这个向量来选择操作，所以下述就将这个向量称为结构。

在优化过程中一共有两个需要优化的：结构(\alpha)和每个结构对应的内部参数权重w。这就导致了一个二层优化问题如下图所示：

近似结构梯度

本部分详细数学推导都可以见博客：【论文笔记】DARTS公式推导 – 知乎 (zhihu.com)

由于上述的二层优化比较难进行，因此实际过程中进行如下简化：

[\nabla_{\alpha}L_{val}(w^*(\alpha),\alpha)\approx \\nabla_{\alpha}L_{val}(w-\epsilon \nabla {w}L{train}(w,\alpha),\alpha) ]

对上述式子整理一下可以得到如下式子：

[\begin{aligned} & \nabla_{\alpha} \mathcal{L}{v a l}\left(\omega-\xi \nabla{\omega} \mathcal{L}{t r a i n}(\omega, \alpha), \alpha\right) \ =&\nabla{\alpha} \mathcal{L}{v a l}\left(\omega^{\prime}, \alpha\right)-\xi \nabla{\alpha, \omega}^{2} \mathcal{L}{t r a i n}(\omega, \alpha) \cdot \nabla{\omega^{\prime}} \mathcal{L}_{v a l}\left(\omega^{\prime}, \alpha\right) \end{aligned} ]

再进行一个有限差分之后可以得到如下估计

简单来说就是做了一个一阶的泰勒展开。

作者提出可以直接把后面的二阶导数扔掉，但是实验证明估计效果不如不扔。

生成最优模型

假设通过之前说的这些流程，架构参数已经训练的挺不错了。那么，接下来就要提取真正的模型了，因为直至目前，架构依然是计算了所有的操作，而所有操作依然是连续组合而不是离散的。但是，和分类问题一样，我们可以取出每条边上权重最大的 (k) 个操作（在CNN中DARTS取 2个最大的操作，并 忽略0操作）。

优点&创新点

优点

在图像和自然语言处理任务上性能较优
对计算资源的需求显著减少（3个量级）
学习出的模型具有一定的迁移能力

创新点

离散问题连续化，使用梯度下降处理问题

实验数据

CV数据集：CIFAR-10，ImageNet

NLP数据集：PTB，WikiText-2

对比实验结果与分析

CIFAR-10：

PTB：

迁移到ImageNet：

简单来说，时间大大减少，但是性能略有提升。

个人感受

DARTS虽然并不完美（也没有哪个模型是真的完美的），但是它提出的这种方法确实很优秀。个人感觉可以修改的点就是其中的一些假设：

小数据集上训练出的模型可以迁移到大规模数据集
zero操作没有影响
在验证集上效果最好的模型，在测试集上效果也最好
每个cell的输出都是中间节点的输出经过操作之后得到。

Original: https://www.cnblogs.com/Zhengsh123/p/16120291.html
Author: zsh1234
Title: [论文阅读]DARTS

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/566051/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

xhs-web校验流程分析

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月26日
0064
EasyExcel知识【Java程序进行读写生成Excel操作】

💂 个人主页: 爱吃豆的土豆 🌈欢迎加入社区，福利多多哦！土豆社区 🤟数据库专栏更新完毕：数据库知识 🤟JDBC专栏更新完毕： JDBC知识 🤟Mybatis专栏更新完毕： My…

人工智能 2023年7月29日
00115
Android 错把setLayerType当成硬件加速

一次硬件加速的讨论，setLayerType只能关闭硬件加速，和layer的作用！！！硬件加速默认开启，layerType默认为none 硬件加速在硬件加速关闭的时候，Canv…

人工智能 2023年6月27日
0074
程序分析与优化-7 静态单赋值（SSA）

本章是系列文章的第七章，终于来到了鼎鼎大名的SSA，SSA是编译器领域最伟大的发明之一，也是影响最广的发明。本文中的所有内容来自学习DCC888的学习笔记或者自己理解的整理，如需…

人工智能 2023年6月4日
00106
论文阅读笔记：Tacotron和Tacotron2

提示：阅读论文时，对相关思路、结构、优缺点进行梳理，提炼并记录内容，论文及相关引文注明出处。 [En] Tips: when reading the paper, carry on…

人工智能 2023年5月27日
0090
关于pyecharts各个全局配置项设置示例——个人内容整理与分享

坚持更新文章是我从计算机行业向一个作家转行的第一步，玩笑开完了，下面开始编写本次文章。由于在使用pyecharts时我们有很多对图表的配置项设置需要用到全局配置项和系列配置项，因…

人工智能 2023年6月19日
00516
深度学习框架的社区活跃度和支持度如何

问题背景深度学习是机器学习中的一个子领域，其通过模拟人脑神经网络的结构和功能，进行数据的学习和处理。深度学习框架是实现深度学习算法的工具，提供了丰富的函数和工具来简化复杂的模型构…

人工智能 2024年1月1日
0016
ubuntu18.04配置ORB-SLAM3（包含ROS）完整版教程

ORB_SLAM3安装教程 ORB_SLAM3安装准备 * 1、C++11 or C++0x Compiler 2、Pangolin ==出现的问题== 3、OpenCV安装 4、…

人工智能 2023年6月1日
0082
Day31——分发饼干、摆动序列、最大子数组和（贪心）+第一天复习！

忙碌。目录前言二、摆动序列力扣三、最大子数组和第一天复习：总结前言当生活遇到瓶颈的时候，我们不能只是等待暴风雨过去，而是要在暴风雨中学会好好地享受生活。一、分发…

人工智能 2023年6月29日
0076
python处理考勤数据_利用Python实现对考勤打卡数据处理的总结

利用Python实现对考勤打卡数据处理的总结一、背景交代二、说明三、 8种方法1. 查看文件是否存在2. 导入excel文件，并把数据保存为dataframe格式3. 计算程序运行…

人工智能 2023年7月7日
0043
机器学习课设Part1—天气识别（DenseNet121和ResNet50）

数据集的划分本次数据集全部存在同一个文件夹下，命名格式如cloud (233).jpeg，最终分为cloud、sun、cloudy三类，仅需划分为70%的训练集和30%的测试集，…

人工智能 2023年5月23日
0099
【计算机视觉40例】案例32：定位人脸

【导读】本文是专栏《计算机视觉40 例简介》的第32 个案例《定位人脸》。该专栏简要介绍李立宗主编《计算机视觉40 例——从入门到深度学习（OpenCV-Python ）》一书的…

人工智能 2023年5月26日
0076
跑yolov5又出啥问题了（1）p，r，map全部为0

1.今天在跑的时候遇到了一个比较尴尬的问题在训练时，p，r，map全部为0包括最终结果也是没有precision，recall和map。查询了一圈没有结果考虑的原因很多（以下原因…

人工智能 2023年6月25日
0065
【论文笔记】《Learning Entity and Relation Embeddings for Knowledge Graph Completion》

学习实体和关系嵌入在完成知识图谱中的应用 * – 1 题目 – 2 摘要 – 3 问题定义 – 4 方法及原理 – + …

人工智能 2023年6月1日
0067
2021高教社杯E题

### 回答1：这个问题_没有明确的指导性，需要更多的上下文信息。可以先从以下几个方面入手：1. _大学生数学建模竞赛_的概况、历史和意义；2.预测 _2021_年 _竞赛…

人工智能 2023年6月2日
0075
超1200张！《Nature》高清论文插图集下载

想要绘制一幅好看又不花哨、精致又不突兀的论文插图，最需要的是什么呢？思路！而思路又从何处来？一种简单的办法是，向高手借鉴。所谓” 君子生非异也，善假于物也&#…

人工智能 2023年6月21日
0099

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30