上图也是某种意义上的梯度累加:一般是直接加总或者取平均,这样操作是scale了,其实影响不大,只是确保loss计算时的value不至于太大。batchsize超过64的情况不多(batch … Continue reading 梯度累加(Gradient Accumulation
上图也是某种意义上的梯度累加:一般是直接加总或者取平均,这样操作是scale了,其实影响不大,只是确保loss计算时的value不至于太大。batchsize超过64的情况不多(batch … Continue reading 梯度累加(Gradient Accumulation