欢迎您访问爱游戏体育永久网址【363050.COM】
全国咨询热线: @BETHASH6

爱游戏资讯

爱游戏

aiyouxi

爱游戏- 爱游戏体育- AYX体育官方网站别再卷数据了LLM也怕「过劳死」!CMU等揭秘灾难性过度训练

作者:小编2025-05-09 20:00:40

  爱游戏(AYX)是全球最大的在线综合性娱乐平台[永久网址:363050.com]爱游戏体育在赞助和服务覆盖方面遥遥领先于其他同行,每天为您提供近千场精彩体育赛事。 包括爱游戏真人、爱游戏棋牌、爱游戏电竞、爱游戏体育、爱游戏电子、全球各地赛事、动画直播、视频直播等服务。

爱游戏- 爱游戏体育- AYX爱游戏体育官方网站别再卷数据了LLM也怕「过劳死」!CMU等揭秘灾难性过度训练

  【新智元导读】颠覆LLM预训练认知:预训练token数越多,模型越难调!CMU、斯坦福、哈佛、普林斯顿等四大名校提出灾难性过度训练。

  增加更多的预训练数据来扩展语言模型,反而可能会导致后训练阶段的性能下降!

  来自CMU、斯坦福、哈佛、普林斯顿「四大名校」的研究团队,用实验挑战了「预训练规模越大越好」这一传统观点。

  在实验中,研究团队发现使用3T tokens预训练的模型,表现接近于仅用1.5T tokens预训练的模型。预训练token并非越多越好!

  现实世界的证据:展示了灾难性过度训练在现有语言模型和任务中的普遍性,表明更长的预训练时间可能会在指令微调和多模态微调后导致性能下降。

  控制实验:识别出渐进敏感性是灾难性过度训练的关键机制,扩展的预训练增加了模型参数对后续更新的脆弱性。

  理论分析:在线性迁移学习框架中,提供了灾难性过度训练的正式表征,展示了增量特征学习如何导致渐进敏感性和不可避免的性能退化。

  在保持模型参数数量不变的情况下,最新的语言模型,预训练使用的tokens越来越多——

  来看看一些例子:OLMo-1B在3万亿tokens上训练后,再经过指令调优,表现比使用2.3万亿tokens版本得分下降超过2%。

  不妨退后一步,考虑更简单的情况:测试高斯噪声在不同预训练阶段对模型参数的影响。

  微调的表现也类似:在不同的预训练检查点,使用固定的学习率,会看到任务性能和网络数据困惑度最终都会下降。

  1)指令微调(instruction tuning)对模型指令跟随能力的提升效果;

  总体而言,在进行指令调优后,3T tokens预训练的模型表现不如2.3T tokens预训练的模型,其表现接近于仅用1.5T tokens(少了50% tokens)预训练的模型。

  与以往的研究一致,发现延长预训练能够使基础模型的性能持续提高。在我们评估的所有下游任务中,性能不断提升(图2中的虚线)。

  尽管基础模型在提升,但发现在基础模型进行后训练后,出现了意外的性能下降。

  具体来说,在Anthropic-HH数据集上,进行指令跟随微调,经过3T tokens预训练的基础模型在响应率(AlpacaEval分数)上比用2.3T tokens的模型低了多达3%(约少了23%的tokens)。

  在各种OOD任务(如推理和问答)上,也观察到了类似的性能下降,评估基准包括ARC-Easy、ARC-Challenge、HellaSwag和PIQA等。

  图2:延长预训练可能会导致在Anthropic-HH(左)和LLaVA(右)上的微调性能下降。

  然而,预训练使用更多tokens的模型,表现出更强的遗忘现象,并在多个OOD基准测试中出现更大的性能下降。

  在某些数据集(如PIQA)上,性能下降如此严重,以至于延长预训练在后期训练后,反而会对性能产生负面影响(见图2右侧)。

  总体来说,虽然延长预训练总是能提升预训练性能,但这些提升并不总是能转化为后期训练中的表现。

  灾难性过度训练是因为在预训练过程中,模型对参数变化的敏感性逐步增强,导致在微调后更容易「遗忘」之前预训练所获得的能力。

  实验发现,修改预训练模型的参数会导致模型遗忘之前获得的能力,而这种遗忘的程度取决于参数修改的幅度。

  对于相同幅度的修改,经过更长时间预训练的模型表现出更大的遗忘(见图4)。

  当由于后训练修改引起的遗忘超过预训练过程中性能提升时,就会发生灾难性过度训练。

  虽然限制后训练中参数修改的幅度可以缓解这种性能退化,但这也可能限制预训练模型的适应能力和学习能力。

  这揭示了一个内在的权衡关系,这种关系决定了在实践中,防止灾难性过度训练的可行性(见图7)。

  其中,Σ是参数初始化分布的协方差矩阵(即在预训练之前的分布),γ控制扰动的幅度。

  也就是说,追踪基础模型和扰动模型之间困惑度的变化,随着预训练token数量的变化。

  对噪声的逐渐敏感性:对于固定的扰动幅度,基础模型和扰动模型之间的困惑度变化随着预训练token数量的增加单调增加。

  同时,绘制了基础模型的绝对C4困惑度(图3右侧,虚线)。基础模型的困惑度随着预训练token数量的增加而下降。

  图3左图:随着预训练时长增加,高斯参数扰动对模型困惑度的负面影响逐渐加剧。

  在此实验框架下,观察到灾难性过度训练现象的产生,其根源在于模型对噪声的敏感性随预训练进程逐步提升,与基础模型自身性能的单调增长相互作用。

  具体而言,在预训练初期,模型性能的提升速度显著超越其对噪声敏感性的增长,因此即使引入高斯扰动,模型的困惑度仍呈现净下降趋势。

  然而,当预训练进程跨越某一临界点后,模型对噪声的敏感性增长速率反超其性能提升速率,从而导致扰动后困惑度不降反升。这一现象在图3右侧清晰地展现为一个U型困惑度变化曲线中,较大的扰动与预训练的更大且更迅速的恶化相关联。

  因此,敏感性引起的恶化超过基础模型提升的点。对于较大的扰动来说,会加速这一过程,导致拐点出现在较低的token预算下。

  直观解释:更多的预训练tokens能够提升基础模型(如预期),但同时也使基础模型对噪声更敏感。

  逐渐增加的敏感性会导致灾难性过度训练,因为噪声引起的困惑度增加最终会压倒模型的提升。

  对于大幅度的扰动,这种恶化会在较低的token预算下出现,而对于较小幅度的扰动,直到较大的token预算时,可能才会观察到灾难性过度训练。

  首先,类似于在固定幅度的高斯扰动(γ)下量化性能下降的方法,也需要以某种方式对微调进行正则化,以确保在不同的预训练检查点之间的变化程度,保持一致。

  对于每个学习率,研究人员绘制了从预训练模型到微调模型的C4困惑度变化,如图4所示。

  其次,观察到预训练tokens的数量与高斯噪声下的行为趋势相似,但这次是针对微调的。

  微调中的逐渐敏感性:对于固定的学习率,困惑度的变化随着预训练token数量的增加而单调增加。

  图4|微调敏感性演进现象:延长预训练时间会逐步加剧微调过程对模型困惑度的负面影响。

  在敏感性增加超过基础模型提升速率的拐点处,观察到灾难性过度训练。这导致了微调后C4困惑度呈现U型趋势(图5上)。

  与高斯扰动设置类似,由于较大的学习率会加速降解的增加,因此使用较大学习率训练的模型在较低的token预算下会出现拐点,并且降解更为明显。

  虽然较小的学习率通常会导致C4困惑度的降解较小,但微调模型的ID困惑度呈现不同的趋势:较大的学习率,直到某个临界点,会导致较低的ID困惑度,尽管有时也会在ID困惑度上呈现U型趋势(图5下)。

  我们将在第3.4.2节探讨,何时调整学习率以最小化ID困惑度能缓解随着预训练延长而出现的C4困惑度降解,何时又不能。

  更多的预训练tokens将提升基础模型的质量,同时也会导致模型在微调时的降解更严重。

  超过某个临界点后,预训练更多tokens会导致最终微调模型的C4困惑度下降,且通常也会影响微调任务的领域内ID困惑度。

  图5|固定超参数微调下的灾难性过度训练:当使用固定超参数进行微调时,延长预训练可能会导致C4困惑度(上图)和ID困惑度(微调任务;下图)整体增加。

  调优过程可能会导致在不同的预训练检查点上获得不同的最优学习率,从而有可能缓解灾难性过拟合。

  因此,如果一个在更多标记上进行预训练的模型在微调时能够采用更小的学习率来获得良好的领域内表现,它就能补偿敏感度的增加。

  总体来说,实验表明,逐渐增加的敏感性在两种类型的修改下都会表现出来:非结构化的高斯噪声和结构化的微调。

  在固定的扰动幅度或固定的微调学习率下,逐渐增加的敏感性导致灾难性过度训练,因为性能的退化最终超过了延长预训练带来的提升。

  然而,在实践中,最优学习率是在目标领域内任务上进行调优的,其变化可能导致领域内性能或领域外(预训练)指标的降解。

  这突出了在延长预训练中的权衡的重要性,即最优学习率的演变最终决定了这些模型在微调时是否会发生灾难性过度训练。

  图6.超参数调优后的灾难性过度训练:即使在进行超参数调优后,延长预训练仍可能导致C4困惑度(上图)和ID困惑度(微调任务;下图)的最终降解。

  1. 恒定最优学习率:当预训练计算量T较大时,在不同token预算下采用恒定不变的最优学习率会导致域内(ID)和域外(OOD)性能同时下降(图7左)。

  2. 缓慢下降最优学习率:采用缓慢衰减的最优学习率可以提升域内性能,但会导致域外性能下降(图7中)。

  3. 快速下降最优学习率:随着预训练计算量的增加,快速衰减的最优学习率能同时提升域内和域外性能(图7右)。

  图7:随着预训练tokens数T的变化,最优学习率的规模如何影响模型评估,

  在微调时如果使用最优学习率导致灾难性过度训练,采用非最优学习率有时可以缓解降解或延迟拐点的到来。例如,在图7中,调优导致OOD损失最终降解的情况下,选择使用最小的学习率可以延迟拐点的到来。然而,这也会导致较低的ID性能。

  对于高斯扰动和微调设置,我们观察到较大的参数扰动加速并放大了模型性能降解的速度。

  然而,显式的正则化方法来防止大幅度的参数更新,也可能减轻或延迟灾难性过度训练。我们将在第4节探讨一种正则化微调的理论实例。

  研究团队在在简化的预训练和微调二层线性网络的设置中,从理论上分析了灾难性过度训练。

  主要发现表明,延长预训练周期最终必然会导致模型出现逐渐增加的敏感性以及灾难性过度训练。尽管适当的正则化可以延缓这些现象的发生,但这通常会以牺牲下游任务性能为代价(参见定理4.4、4.6和4.7)。