不加缩放因子会对模型训练产生什么影响？

题目摘要

多模态算法工程师面试题：不加缩放因子会对模型训练产生什么影响？重点考察梯度消失的具体表现，对训练动态的理解。可结合从训练现象入手（收敛慢、不稳定），然后解释底层原因（softmax饱和），最后可以提一下实验对比来组织回答。

考察要点

梯度消失的具体表现，对训练动态的理解。

从训练现象入手（收敛慢、不稳定），然后解释底层原因（softmax饱和），最后可以提一下实验对比。

这道题的参考答案包含了详细的分析和要点总结。点击下方按钮查看完整答案。

答案经过精心组织，帮助你建立系统化的知识框架。