2026年新年第一天、DeepSeekは新しい論文を発表した。この論文では、2016年に何恺明によって提案されたResNetの中で残差接続が重要な役割を果たしていることを示した。残差接続は、信号を浅い層から深い層に直接伝達することができる「恒等写像」属性を持っている。
DeepSeekの実験
DeepSeekの実験では、残差接続の新しいバージョンであるHyper-Connections(HC)が提案された。HCでは、残差流の幅をC次元からn×C次元に拡張し、3つの可学習な写像行列を導入して情報の流れを管理する。実験結果では、HCでは残差流内の情報交換を担当するHres行列が最も重要な役割を果たしていることが示された。
工程最適化
DeepSeekのチームは、HCの拡張に伴う内存アクセスのオーバーヘッドを最適化するために、TileLangフレームワークを使用して複数の融合カーネルを実装した。さらに、Sinkhorn-Knoppアルゴリズムの前向きと後向きのカーネルを設計し、チップ上で中間結果を再計算してストレージのオーバーヘッドを避けた。流水線並列化では、DualPipeスケジューリング戦略を拡張し、MLP層の特定のカーネルを高優先度の計算フローで実行して、計算と通信の重なり合いを実現した。
コメント 0
まだコメントはありません
最初のコメントを投稿してみましょう!⚠️ エラーが発生しました