DeepSeekの新しい論文

残差接続の新時代の到来

2026年新年第一天、DeepSeekは新しい論文を発表した。この論文では、2016年に何恺明によって提案されたResNetの中で残差接続が重要な役割を果たしていることを示した。残差接続は、信号を浅い層から深い層に直接伝達することができる「恒等写像」属性を持っている。

DeepSeekの実験

DeepSeekの実験では、残差接続の新しいバージョンであるHyper-Connections(HC)が提案された。HCでは、残差流の幅をC次元からn×C次元に拡張し、3つの可学習な写像行列を導入して情報の流れを管理する。実験結果では、HCでは残差流内の情報交換を担当するHres行列が最も重要な役割を果たしていることが示された。

工程最適化

DeepSeekのチームは、HCの拡張に伴う内存アクセスのオーバーヘッドを最適化するために、TileLangフレームワークを使用して複数の融合カーネルを実装した。さらに、Sinkhorn-Knoppアルゴリズムの前向きと後向きのカーネルを設計し、チップ上で中間結果を再計算してストレージのオーバーヘッドを避けた。流水線並列化では、DualPipeスケジューリング戦略を拡張し、MLP層の特定のカーネルを高優先度の計算フローで実行して、計算と通信の重なり合いを実現した。

ソース情報

元記事公開日
翻訳・編集
最終更新

本記事は上記ソースを基に翻訳・編集したものです。 内容の正確性については元記事をご確認ください。

コメント 0

0/2000
コメントを読み込み中...
金融の記事一覧へ戻る