中国発AIへの評価を一変させた、コスト効率の高さ
2022年末にOpenAIのChatGPTが登場して以降、生成AIの競争が一気に加速しました。中国国内でも百度(Baidu)など大手企業が独自のチャットボットを開発しましたが、当初は先行する欧米のモデルに太刀打ちできるものではありませんでした。
しかし2024年末にDeepSeekが登場すると、この評価が一変します。DeepSeekはまず2024年11月に推論特化版の予備モデルを発表し、12月に汎用モデルDeepSeek-V3、そして年明け1月には先進的な推論モデルDeepSeek-R1と、立て続けにリリースをしました。
DeepSeek-R1 is here!
⚡ Performance on par with OpenAI-o1
Fully open-source model & technical report
MIT licensed: Distill & commercialize freely! Website & API are live now! Try DeepThink at https://t.co/v1TFy7LHNy today!
1/n pic.twitter.com/7BlpWAPu6y
— DeepSeek (@deepseek_ai) 2025年1月20日
DeepSeek-V3はMoE(※1) と呼ばれるアーキテクチャを採用し、モデルのパラメータ数は実に6710億にも達します。また、一度に処理できる文脈の長さ(コンテキスト長)も最大128,000トークンと十分に大きく、OpenAI社のGPT-4oなど従来の各社フラッグシップモデルと並びます。
見出し
–>
※1 Mixture-of-Expertsの略。複数の専門的なニューラルネットワーク(エキスパート)を組み合わせて、タスクに応じて最適なエキスパートを選択するアーキテクチャ。各エキスパートが特定の入力パターンや問題領域に特化することで、全体として効率的で高性能なモデルを実現する。
DeepSeek-V3は、わずか2カ月の期間と600万ドル以下の計算コストとで訓練できたとされており、数億ドル単位の投資が当たり前だった従来のLLM(大規模言語モデル)開発と一線を画すコスト効率と言えます。
