offera.io
1多模态算法工程师
Transformer架构/Self-Attention核心原理/为什么需要缩放因子

Self-Attention中为什么要除以根号d_k?

题目摘要

多模态算法工程师面试题:Self-Attention中为什么要除以根号d_k?重点考察缩放因子的数学必要性,对softmax数值稳定性的理解。可结合先说现象(不除会怎样),再解释原因(点积方差增长),最后点明作用(稳定梯度)。用简单的数学直觉而非复杂推导来组织回答。

  • 岗位方向:多模态算法工程师
  • 所属章节:Transformer架构
  • 当前小节:为什么需要缩放因子
  • 考察重点:缩放因子的数学必要性,对softmax数值稳定性的理解。
  • 作答建议:先说现象(不除会怎样),再解释原因(点积方差增长),最后点明作用(稳定梯度)。用简单的数学直觉而非复杂推导。

考察要点

缩放因子的数学必要性,对softmax数值稳定性的理解。

答题思路

先说现象(不除会怎样),再解释原因(点积方差增长),最后点明作用(稳定梯度)。用简单的数学直觉而非复杂推导。

这道题的参考答案包含了详细的分析和要点总结。点击下方按钮查看完整答案。

答案经过精心组织,帮助你建立系统化的知识框架。