在实现Self-Attention时，如果不加√d_k缩放会出现什么问题？

题目摘要

多模态算法工程师面试题：在实现Self-Attention时，如果不加√d_k缩放会出现什么问题？重点考察梯度消失的数学原理、softmax函数的特性、温度参数的作用、实际训练中的表现。可结合这道题考察对训练稳定性的深入理解。建议从现象到原理递进： 1. 先说会出现什么现象 2....

考察要点

梯度消失的数学原理、softmax函数的特性、温度参数的作用、实际训练中的表现。

这道题考察对训练稳定性的深入理解。建议从现象到原理递进： 1. 先说会出现什么现象 2. 解释背后的数学原理 3. 可以提到实际训练中的观察

这道题的参考答案包含了详细的分析和要点总结。点击下方按钮查看完整答案。

答案经过精心组织，帮助你建立系统化的知识框架。