wordpress用户链接焦作整站优化

张小明 2025/12/25 18:47:19
wordpress用户链接,焦作整站优化,域名 备案 网站,网站管理助手4.0教程1. Momentum 梯度下降法1.1梯度下降中的“震荡”现象我们用课程里的图来看一下这个问题#xff1a;Pasted image 20251110104620现在假设这就是我们的网络的损失图像#xff0c;我们通过一次次迭代#xff0c;让损失下降到最低点。这里展开两个问题#xff1a;#xff08;…1. Momentum 梯度下降法1.1梯度下降中的“震荡”现象我们用课程里的图来看一下这个问题Pasted image 20251110104620现在假设这就是我们的网络的损失图像我们通过一次次迭代让损失下降到最低点。这里展开两个问题1为什么迭代过程会让损失上下震荡因为每个批次的样本不可能完全相同不同的特征倾向会指引参数向不同的方向更新。甚至如果一个批次中大多是噪声反而会让参数反向更新增加损失。就像猫狗分类中一个批次可能白猫多一些一个批次可能橘猫多一些而还有一些批次甚至有和狗长得很像的猫这都会影响该次迭代中的学习效果从而影响参数更新而这前后的不同就会让损失“震荡”。2为什么不改变学习率震荡也会越来越小因为在收敛的过程中损失函数变平坦梯度变小更新步长随之减小。同时样本间的梯度差异噪声也随之变小使震荡幅度下降。来看一下参数更新公式参数参数学习率梯度在学习率不变的情况下梯度越来越小了自然更新量就会变小影响损失的变化量也会变小。依旧用下山举例就像越靠近山谷底部地面越平坦即使走偏一步你也走不上多高的坡自然“来回晃动”的幅度越来越小。但这只是理想情况如果学习率设置不当就会出现这中情况你快到谷底了却还在大步流星根本刹不住车一脚又上了另一座山。你走得太慢了甚至可能在谷底附近的浅坑里转圈圈迟迟到不了真正的低点而且说到底震荡现象依然存在只是在收敛中随着整体移动量变小而没那么明显了如何解决这种情况又不影响正常收敛呢1.2 解决震荡的直接方法通过上面一部分我们现在已经知道了出现震荡的本质原因是批次训练中样本的差异导致的单次迭代的结果差异。那么你可能已经猜到了一个解决这个问题的最直接的方法增加批次样本量没错只要我们增加批次样本量模型一次学习更多的样本自然就学到了更多的特征分布出现“噪声集中”的几率也会变少。就像刚刚的猫狗分类里原来模型看完白猫就学白猫然后看橘猫学橘猫之后再看“狗猫”学“狗猫”就像对什么都很好奇的小孩每遇到新的一批样本都要调整自己对猫的认知就是一次震荡。现在我把黑白红蓝猫一次让模型看完模型就知道这些颜色的猫都是猫了就像见识广了的成年人遇到新样本发现其实里面的特征自己之前已经见过了自然不会有那么多的震荡。可是这样就又出现新问题了在本周第一部分里我们就已经论述了选择Mini-batch梯度下降是成本和性能的权衡考虑如果不计其他因素地增加批次样本那不就是批次梯度下降即一次就使用所有样本来训练吗这会带来显存暴涨单步计算量巨增训练速度不一定更快大 batch 收敛容易“卡平坦鞍点”Pasted image 20251110125009因此Batch 不是越大越好而是追求成本与梯度稳定之间的平衡。而这也引出了一个核心动机我们希望在小 batch 的成本下获得“大 batch 才有的稳定梯度效果”。这正是 Momentum 要解决的。1.3 Momentum 梯度下降法我们已经通过气温的例子学习了指数加权平均的概念。回忆一下气温的例子每天的气温都有波动直接看“当天温度”得到的曲线会忽高忽低、不够平滑就像“震荡”。但如果对气温做 EMA今天的气温占 70%昨天占 21%前天占 6%…那得到的温度曲线就会 更平滑、更稳定、更能代表真实趋势。再看看我们现在要解决的震荡问题它的核心在于每次更新只依赖该批次样本计算的梯度。现在的更新方式是不是就相当于“当天温度”那是不是同理只要我们对梯度进行EMA,让一次迭代不只依赖本次样本计算的梯度而是多批次样本梯度的指数加权平均是不是就相当于变相地增加了批次样本量我们再换个角度加深一下理解再次回看这副图先强调一下真实的图像和方向代表的信息要远比图里的复杂的多我们只是简化来帮助理解。Pasted image 20251110133009就像图里画的一样我们抽出其中两次迭代并假定他们所代表的特征。这样如果第二次迭代使用的是EMA梯度那它就得到了更平衡更指向核心特征的信息。就像把每个人自己独特的观点综合考量而每个人都赞同的观点那大概是对的就大力采纳。而这就是Momentum 梯度下降法的核心观点对多次计算的梯度做EMA,用EMA来更新参数。如果梯度方向总是在某个方向上保持一致那我们就应该越走越快。如果梯度方向来回变化就不要轻易被改变。其公式如下记参数为梯度为动量项为动量系数为学习率为则其中相当于累积了之前多次梯度的“指数加权平均”当梯度方向稳定时会越来越大加快下降速度。当梯度方向来回变化时会相互抵消减少震荡。这样我们使用Momentum 梯度下降法,用指数加权平均后的梯度更新参数既增加了核心特征上的收敛速度又缓解了个性化特征带来的震荡现象。2.“人话版”总结概念 原理 比喻梯度下降中的震荡 每个批次样本不同导致每次迭代的梯度方向不一致参数更新“来回晃动”。 就像走山路有时被小石头绊偏走两步又回到原路来回摇摆。学习率不变时震荡减小 随着收敛损失函数变平坦梯度变小更新步长减小自然震荡幅度下降。 越靠近山谷底部地面平坦即使走偏也不会翻到对面山坡。增大批次解决震荡直接方法 一次学习更多样本梯度更稳定噪声影响减小。 小孩学猫时只看一种颜色的猫会不断调整认知一次看多种颜色的猫就稳了。Momentum 梯度下降法 对多次迭代的梯度做指数加权平均EMA用EMA更新参数稳定方向加速震荡方向抵消。 就像综合多个人的意见大多数人一致的方向就加速采纳意见分歧的方向就减缓。Momentum 梯度下降法公式EMA累积前几次梯度相当于“记住过去的方向”走路更稳、更快。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

孝感网站开发的公司南京网站设公司

1.简介PyPTO(发音:pai p-t-o)是 CANN 推出的一款面向 AI 加速器的高性能编程框架,旨在简化算子开发流程,同时保持高性能计算能力。该框架采用创新的 PTO(Parallel Tensor/Tile Operation)编程范…

张小明 2025/12/25 18:46:48 网站建设

网站开发案例图片网站音乐播放器代码

虚拟显示器革命:解锁多屏工作流的终极方案 【免费下载链接】parsec-vdd ✨ Virtual super display, upto 4K 2160p240hz 😎 项目地址: https://gitcode.com/gh_mirrors/pa/parsec-vdd 在现代数字工作环境中,屏幕空间已经成为生产力的关…

张小明 2025/12/25 18:45:43 网站建设

关于做展厅的网站邯郸网站设计哪家好

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个电商MVP测试平台,核心功能:1.极简商品展示页(3个主推品)2.邮件收集表单3.A/B测试框架4.基础转化漏斗分析5.社交媒体分享组件…

张小明 2025/12/25 18:45:10 网站建设

网站域名空间怎么提交有哪个网站做正品港货

NGA论坛浏览体验革命:告别繁杂,拥抱清爽 【免费下载链接】NGA-BBS-Script NGA论坛增强脚本,给你完全不一样的浏览体验 项目地址: https://gitcode.com/gh_mirrors/ng/NGA-BBS-Script 还在为NGA论坛上那些碍眼的头像和花哨的表情而烦恼…

张小明 2025/12/25 18:44:05 网站建设

广州腾虎网络网站建设免费网站建设培训学校

Apache Iceberg终极性能评测:打破传统数据湖查询瓶颈 【免费下载链接】iceberg Apache Iceberg 项目地址: https://gitcode.com/gh_mirrors/iceberg4/iceberg 你是否正在为大数据平台查询性能瓶颈而困扰?当数据量突破TB级别,传统Parqu…

张小明 2025/12/25 18:43:33 网站建设

小程序网站app定制开发项目建设情况

第一章:视觉驱动自动化测试新纪元在软件测试领域,传统基于控件ID或XPath的自动化方案在面对动态UI、跨平台应用或无法获取元素属性的场景时常常失效。视觉驱动自动化测试应运而生,它通过图像识别技术直接与屏幕内容交互,突破了对底…

张小明 2025/12/25 18:43:00 网站建设