Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 389|回復: 0

虽然梯度通常可以有效地计算但

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 2024-5-8 14:45:27 | 顯示全部樓層 |閱讀模式

由于其庞大的规模计算和存储矩阵的成本过高。在文献中通常通过对矩阵例如对角矩阵和算法例如单独剪枝权重做出限制性假设来应对这一挑战。使用剪枝问题的有效重新表述使用二次损失的避免显式计算矩阵同时仍然使用该矩阵中的所有信息。这是通过利用经验费希尔信息矩阵的低秩结构来实现的。这种重新表述可以被视为稀疏线性回归问题其中每个回归系数对应于神经网络中的特定权重。获得此回归问题的解决方案后设置为零的系数将对应于应修剪的权重。我们的回归数据矩阵是其中是批次子样本大小是原始网络中的权重数量。通常<<因此使用此数据矩阵进行存储和操作比使用操作的常见修剪方法更具可扩展性。将需要昂贵的矩阵的二次损失近似重新表述为线性回归问题。的数据矩阵在中是线性的这使得重构比原始二次近似更具可扩展性。

可扩展的优化算法在以下稀疏性约束下将剪枝简化为线性回归问题至多个回归系数可以为非零。为了解决这个问题我们考虑对著名的迭代硬阈值算法进行修改。执  行梯度下降其中每 格鲁吉亚电话号码列表 次更新后执行以下后处理步骤之外的所有回归系数即幅度最大的个系数被设置为零。通常会为问题提供良好的解决方案并且它会迭代探索不同的剪枝候选对象并联合优化权重。由于问题的规模具有恒定学习率的标准可能会遇到收敛速度非常慢的问题。为了更快地收敛我们开发了一种新的线搜索方法该方法利用问题结构来找到合适的学习率即导致损失足够大降低的学习率。我们还采用了多种计算方案来提高的效率和二阶近似的质量从而产生了一个改进的版本我们称之为。实验我们将的运行时间和准确性与使用不同架构的几种最先进的修剪方法包括和进行比较。运行时间比执行联合优化的同类方法更具可扩展性而不是单独修剪权重。例如在剪枝时的加速比可以达到倍以上。剪枝后精度下面我们将和与幅度剪枝和组合脑外科医生的性能进行比较剪枝的模型权重。





总体而言我们看到和取得了良好的改进。上各种方法的后剪枝精度。报告了修剪模型权重的结果。上各种方法的后剪枝精度。报告了修剪模型权重的结果。接下来我们报告修剪更大网络的结果在此网络上图中列出的一些方法无法扩展。这里我们与幅度剪枝和进行比较。下图显示在各种稀疏度水平下实现了更好的测试精度。测试使用不同方法获得的修剪网络的准确性。结论局限性和未来的工作我们提出了一种基于优化的方法用于修剪预训练的神经网络。通过有效地使用二阶信息并借鉴组合优化和高维统计的思想提供可扩展性和有竞争力的性能。专为非结构化修剪而设计可以去除任何重量。理论上非结构化剪枝可以显着降低计算要求。然而在实践中实现这些减少需要支持稀疏计算的特殊软件可能还有硬件。相比之下结构化修剪去除神经元等整个结构可能会提供在通用软件和硬件上更容易实现的改进。将扩展到结构化修剪将会很有趣。致谢这项工作是谷歌和麻省理工学院之间研究合作的一部分。感谢和在准备这篇文章和论文时提供的帮助。还要感谢在这篇文章中创建了图形。

回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|小黑屋|DiscuzX

GMT+8, 2024-11-15 15:05 , Processed in 0.027838 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回復 返回頂部 返回列表