原理 代码解读,贝叶斯优化( 二 )


在过去的几年中,专用的NAS方法在提高准确性,降低计算成本和减小体系结构大小方面表现出了显着的进步,并且最终可以在神经网络(非普通机器学习)体系结构设计上超过人类的性能 。NAS最重要的三个组件搜索空间 。该组件描述了要考虑的一组可能的神经网络体系结构 。这些搜索空间是为特定于应用程序而设计的,例如,用于计算机视觉任务的卷积网络空间或用于语言建模任务的循环网络空间 。
因此,NAS方法不是完全自动化的,因为这些搜索空间的设计从根本上依赖于人类设计的架构作为起点 。即使这样,仍然存在许多体系结构决策 。实际上,在这些搜索空间中考虑的可能架构的数量通常超过10 ^ 10 。优化方法 。该组件确定如何探索搜索空间以找到良好的体系结构 。这里最基本的方法是随机搜索,同时还引入了各种自适应方法,例如,强化学习,进化搜索,基于梯度的优化和贝叶斯优化 。
尽管这些自适应方法在确定要评估的体系结构的方式方面有所不同,但它们都试图将搜索偏向性能更佳的体系结构 。毫不奇怪,所有这些方法都具有在传统超参数优化任务中引入的对应方法 。评估方法 。该组件衡量通过优化方法考虑的每种体系结构的质量 。最简单但在计算上最昂贵的选择是完全训练体系结构 。人们可以选择利用局部训练,其本质类似于类似于ASHA的超参数优化中常用的提前停止方法 。
还引入了特定于NAS的评估方法(例如网络形态,权重共享和超网络)来利用神经网络的结构来提供更便宜的启发式质量评估 。部分训练方法通常比全面训练便宜一个数量级,而NAS特定的评估方法比全面训练便宜2-3个数量级 。是否目前已可以用NAS方法?还没!明确地说,探索各种体系结构并执行广泛的超参数优化仍然是任何深度学习应用程序工作流程的关键组成部分 。

推荐阅读