DeepSeekショック
2025年1月20日、中国のAIラボDeepSeekがオープンソースの推論モデルR1をリリースしました。数時間のうちに、AI業界の根本的な前提、すなわちフロンティアAIには数十億ドルの計算資源投資が必要だという考えが揺らぎ始めました。
DeepSeek R1は512台のHuawei互換H800チップを使い、約29万4000ドルで学習されました。1億ドルでも10億ドルでもなく、29.4万ドルです。この学習コストは後にNatureで査読付きで発表され、マーケティング上の誇張ではないことが確認されました。
このモデルはフロンティアレベルの推論性能を達成しました。複数のベンチマークでGPT-4に匹敵、あるいは上回る結果を示しました。新しいアプローチとして、西洋のラボが頼っていた高価な教師ありファインチューニングフェーズを省略し、推論のための純粋な強化学習を採用しました。この手法(DeepSeekがオープンに公開した)は「RLによる推論」と呼ばれ、慎重なアルゴリズムのイノベーションがブルートフォースの計算資源を代替できることを示しました。
市場の反応は即座でした。NVIDIAは1日で時価総額が6000億ドル以上下落し、これは米国株式市場史上最大の1日の下落となりました。ロジックはシンプルです。フロンティアAIに大規模なGPUクラスタが不要であれば、NVIDIAの最も高価なチップへの需要は予測よりも低くなる可能性があります。
ビルダーにとって、DeepSeekショックはより実践的な意味を持ちました。競争力のあるAIのコスト下限が桁違いに下がったのです。中国の研究ラボが29.4万ドルでフロンティアモデルを学習できるなら、AI搭載プロダクトへの参入障壁は崩壊します。フロンティアAIにアクセスするために1億ドルを調達する必要はなくなりました。必要なのは、良いアイデア、良いデータ、良いエンジニアリングです。
DeepSeek R1はMITライセンスで公開されており、誰でも商用利用、改変、デプロイが制限なく可能です。入力トークンコストは100万トークンあたり0.07ドルで、同等のクローズドモデルの代替手段と比較して約27倍安価です。
オープンモデルが勝つ場所
オープンモデルとクローズドモデルのベンチマーク収束は、ほぼ誰もが予測したよりも速く実現しました。StanfordのAI Index Report 2025がそれを記録しています。オープンモデルはMMLU、MATH-500、AIME、GPQA Diamondでクローズドモデルに匹敵、あるいは上回っています。
5つの独立したオープンウェイトモデルファミリーが、同じ12か月間にフロンティア品質に到達しました。
| モデルファミリー | 出身 | 主な成果 |
|---|---|---|
| DeepSeek (R1, V3) | 中国 (DeepSeek) | 学習コスト29.4万ドルでフロンティア推論 |
| Qwen (2.5, QwQ) | 中国 (Alibaba) | 強力な多言語性能、オープンウェイト |
| Llama (4 Scout, Maverick, Behemoth) | 米国 (Meta) | 最大のオープンモデルエコシステム、3段階 |
| Mistral (Large, Medium) | フランス (Mistral AI) | 欧州の代替、高い効率性 |
| GLM (4 series) | 中国 (Zhipu AI) | 中国語ベンチマークで競争力 |
エンタープライズの導入状況がその普及を物語っています。エンタープライズにおけるオープンソースAIの導入率は23%から67%に急増し、2年足らずでほぼ3倍になりました。企業はクローズドモデルの代替と比較して70〜90%のコスト削減を報告しています。オープンソースAI市場全体で前年比340%の成長を記録しました。
オープンモデルの優位性は一時的なものではなく、構造的なものです。
コスト。 DeepSeek R1の入力トークンは100万あたり0.07ドルです。GPT-5.2の1.75ドル/100万(入力)やClaude Opus 4.6の5ドル/100万と比較してください。大量の推論ワークロードでは、この差がビジネスの成立と資金の浪費の分かれ目になります。
制御。 オープンモデルはセルフホスト、ファインチューニング、改変が可能です。データパイプライン、推論インフラ、モデルの挙動を自分でコントロールできます。ベンダーがあなたの同意なく価格を変更したり、モデルを廃止したり、機能を変更したりすることはありません。
プライバシー。 セルフホストのオープンモデルはデータを自社のインフラ上に保持します。医療、金融、政府、そしてデータ居住要件が厳しいあらゆるドメインにおいて、これはしばしば必須条件です。患者データをサードパーティAPIに送信するとHIPAAに違反する可能性がありますが、自社インフラでの推論はその問題がありません。
カスタマイズ。 オープンモデルはドメイン固有のデータでファインチューニングできます。リーガルAI企業が数百万件の法律文書でLlama 4をファインチューニングすれば、一般ベンチマークでGPT-5が「より優れている」としても、法律タスクでGPT-5を上回るモデルを作れます。ドメインファインチューニングは大きなイコライザーです。
ベンダーロックインなし。 複数の競争力のあるオープンモデルファミリーがあるため、単一プロバイダーの価格設定、可用性、ビジネス判断に依存する必要はありません。DeepSeekが価格を上げればLlamaに切り替え、Llamaの次期バージョンが期待外れならQwenに切り替えればよいのです。
クローズドモデルが依然として優位な領域
ベンチマーク収束のナラティブには重要な注意点があります。オープンモデルがクローズドモデルに匹敵するのは「ベンチマーク」上であって、すべての本番タスクではありません。高度なAIアプリケーションにとって最も重要な領域で、差は残っています。
SWE-bench Verified。 AIコーディング能力のゴールドスタンダードです。Claude Opus 4.5が80.9%でリードしています。オープンモデルは大きく後れを取っています。本番環境のAIコーディング(Claude CodeやCursorが依存する類のもの)では、クローズドモデルが実質的に優れています。
Chatbot Arena / LMArena Elo。 人間の好みランキングではGemini 3 Proが1501 Eloでトップです。上位はすべてクローズドモデルです。主観的な品質(どれだけ有用で、ニュアンスがあり、正確な回答か)において、クローズドモデルは優位性を維持しています。
複雑なエージェントタスク。 計画、ツール使用、エラー回復、多数のターンにまたがるコンテキスト管理を必要とするマルチステップワークフロー。クローズドモデルはエージェント的な振る舞いに特化して学習・最適化されているため、これらをより適切に処理します。AnthropicのAgent Teams機能(マルチエージェント協調)はOpus 4.6で最も効果を発揮します。OpenAIのコンピュータ使用機能にはGPT-5クラスのモデルが必要です。
長文コンテキストの信頼性。 Gemini 3 Proは100万トークンのコンテキストウィンドウを良好なリコールで提供しています。Claude Opus 4.6は100万トークンを効果的に処理します。オープンモデルもコンテキストウィンドウを拡大していますが、極端な長さでは性能低下が見られることが多いです。
安全性とアラインメント。 クローズドモデルのプロバイダーはRLHF、Constitutional AI、安全性ファインチューニングに多額の投資をしています。クローズドモデルの安全性挙動は一般的にオープンモデルよりも信頼性が高く一貫しています。オープンモデルは安全性対策を迂回するようにファインチューニングできるためです。不適切な出力が責任問題を生じさせる可能性のある顧客向けアプリケーションでは、これは重要です。
実践的なまとめ:
| 能力 | オープンモデル | クローズドモデル | 勝者 |
|---|---|---|---|
| 標準ベンチマーク(MMLU、MATH) | フロンティア | フロンティア | 引き分け |
| 本番コーディング(SWE-bench) | 良好 | 大幅に優秀 | クローズド |
| 人間の好み(Arena) | 良好 | より優秀 | クローズド |
| 複雑なエージェントワークフロー | 機能的 | 大幅に優秀 | クローズド |
| 長文コンテキスト信頼性 | 改善中 | より信頼性が高い | クローズド |
| 安全性/アラインメント | ばらつきあり | より一貫性がある | クローズド |
| コスト | 10〜70倍安価 | プレミアム | オープン |
| プライバシー/制御 | 完全 | 限定的 | オープン |
| カスタマイズ | 完全 | 限定的 | オープン |
結論は「オープンが優れている」でも「クローズドが優れている」でもありません。オープンモデルは多くのワークロード(特に大量処理やコスト重視のもの)に十分であり、クローズドモデルは最も要求の厳しいタスク(特にコーディング、エージェントワークフロー、安全性が重要なアプリケーション)に必要である、ということです。
インフラの二極化
ハードウェア層が二つに分かれつつあり、この二極化はオープン/クローズドの分断と興味深い形で対応しています。
大きな取引: NVIDIAが2025年末にGroqを200億ドルで買収しました。 GroqのLPU(Language Processing Unit)チップはLlama 3 8Bで毎秒877トークンを処理します。これは最速のGPU代替手段の約2倍、一般的なGPUスループットの10〜30倍の速度です。トークンあたりのコストは30〜50%低くなっています。
Cerebrasも別のカスタムシリコン企業で、特定のワークロードではGPUベースのシステムより20倍高速な推論を提供しています。Together AIとFireworks AIはそれぞれAIインフラ支出全体の約10%を占めています。
市場は2つの明確なセグメントに分かれています。
スピード向けカスタムシリコン。 GroqのLPUとCerebrasのウェハスケールチップは推論スループットに最適化されています。レイテンシが重要なアプリケーションに最適です。リアルタイムチャット、応答速度がユーザー体験に直接影響するエージェントワークフロー、大量の本番推論などです。これらはオープンモデル(任意のハードウェアにデプロイ可能)との相性が良く、クローズドモデル(モデルプロバイダーのインフラから提供される)よりも適しています。
柔軟性向けGPU。 NVIDIAのH100/B200 GPUは、学習、ファインチューニング、柔軟性を必要とする推論タスクのデフォルトであり続けています。あらゆるモデルを実行でき、カスタムアーキテクチャをサポートし、学習と推論のワークロードにスケールできます。GPUクラウド(CoreWeave、Lambda、Nebius)がこのセグメントにサービスを提供しています。
価格の変遷。 クラウドH100の時間単価はピークから64〜75%下落し、2.85〜3.50ドル/時間付近で安定しています。全体的な推論コストの軌跡(Epoch AI調べ)では、固定性能レベルで2か月ごとにコストが半減しています。コスト削減率の中央値は2024年1月以降、年50倍から年200倍に加速しました。
ビルダーにとって、インフラの選択はモデル戦略に直結します。
| 戦略 | 推論インフラ | モデルタイプ | 最適な用途 |
|---|---|---|---|
| 最低レイテンシ | Groq LPU / Cerebras | オープン(セルフホスト) | リアルタイムチャット、エージェントアクション |
| 最低コスト | GPUクラウド(スポット/リザーブド) | オープン(セルフホスト) | バッチ処理、大量タスク |
| 最高品質 | プロバイダーAPI(Anthropic、OpenAI) | クローズド | 複雑な推論、コーディング |
| 最大柔軟性 | マルチプロバイダールーティング | ハイブリッド | 多様なニーズを持つ本番システム |
賢い選択は1つのインフラを選ぶことではありません。レイテンシ、コスト、品質の要件に基づいて異なるタスクを異なるインフラにルーティングする抽象化レイヤーを構築することです。
オープンソースAIの戦略的論理
なぜGoogle、Meta、その他の企業は無料で配布するモデルに数十億ドルを投資するのでしょうか?戦略的論理は企業ごとに異なりますが、パターンは一貫しています。
MetaのLlama戦略。 MetaはLlama 4を3段階(Scout、Maverick、Behemoth)のオープンウェイトモデルとしてリリースしました。その論理は、MetaはAIモデルを販売していないということです。販売しているのは広告です。業界全体がLlamaの上に構築すれば、MetaのAI研究コストはエコシステム全体で償却され、コアの広告ビジネスはAIの進歩の恩恵を受けます。オープンソース化は人材採用にも役立ちます(研究者は世界中で使われるモデルに取り組みたいと考えます)。そしてMetaのインフラ投資を強化するエコシステムを創出します。
Llamaの普及は前例のない現象を生みました。各国がLlamaを「ソブリンAI」イニシアティブに使用しているのです。米国の商用AIプロバイダーに依存したくない国々は、自国のインフラにLlamaをデプロイできます。この地政学的な側面がMetaのオープンソース戦略をさらに強固なものにしています。
Googleのヘッジ戦略。 Googleはクローズドモデル(Gemini、2026年の設備投資1850億ドル)とオープンへの貢献の両方を維持しています。Gemini 2.5 ProはLMArenaのリーダーボードでトップです。しかしGoogleはオープンリサーチにも貢献し、小規模なオープンモデルもリリースしています。戦略としては、Geminiでプレミアムセグメントを獲得しつつ、オープンソースエコシステムがGoogleのクラウドビジネスに不利な方向に進まないようにすることです。
中国の必要性に駆動されたオープンネス。 DeepSeek、Qwen、GLMがオープンなのは、中国のAIラボが異なる競争環境にあることが一因です。米国の輸出規制により最先端のNVIDIAチップへのアクセスが制限されています(DeepSeekが輸出準拠バリアントであるH800を使用した理由です)。モデルのオープンソース化はグローバルな影響力を構築し、国際的な研究貢献を呼び込み、中国のAIを米国の商用プロバイダーの実行可能な代替として位置づけます。
Mistralの欧州ポジショニング。 Mistralはパリの本社とオープンモデルを活用し、設計段階からEU AI Actの要件に準拠する「欧州のAI代替」としてのポジショニングを確立しています。データ主権と規制遵守を懸念する欧州の企業にとって、フランス製のオープンウェイトモデルは戦略的に魅力的です。
総合的な効果として、オープンソースAIは多様な動機を持つ企業によって資金提供されており、1社が投資を減らしても他社が継続することが保証されています。これにより、オープンソースAIエコシステムは個々の企業の財務状況から見えるよりも耐久性があります。
規制上の影響
AIの規制環境は管轄区域によって劇的に異なり、この相違がオープン対クローズドモデルの戦略に直接影響します。
EU AI Act。 世界で最も包括的なAI規制です。2024年8月に法制化されました。禁止された慣行は2025年2月に発効しました。汎用AI規則は2025年8月に発効しました。高リスクシステム規則は2026年8月を目標としています(2027年12月まで延長の可能性あり)。各加盟国は2026年8月までにAI規制サンドボックスを設置する必要があります。罰金は全世界の年間売上高の最大7%に達します。
モデル選定において、EU AI Actが重要なのは、汎用AIプロバイダーが学習プロセスの文書化、リスク評価、透明性要件への準拠を求められるためです。セルフホストのオープンモデルを使用すれば、コンプライアンス文書の管理がしやすくなる可能性があります。クローズドモデルを使用する場合、プロバイダーのコンプライアンス姿勢に依存することになります。
米国。 EUとは大きく異なります。大統領令14179(2025年1月)は「米国のAIリーダーシップへの障壁の除去」を強調しました。2025年12月の大統領令では、より厳格な州規制に優先する「最小限の負担」の国家フレームワークを求めました。包括的な連邦AI法は存在しません。米国のアプローチは規範的なコンプライアンスよりも業界の自主規制とイノベーションを重視しています。
中国。 改正サイバーセキュリティ法(2026年1月施行)はAIを明示的に扱い、セキュリティ審査とデータローカライゼーション要件を設けています。生成AI、ディープフェイク、アルゴリズムレコメンデーションには別々の規制トラックが存在します。中国の要件は米国のルールとは異なり、特にデータ処理に関してはより規範的であることが多いです。
スタートアップへの影響。 ほとんどのスタートアップは規制の閾値を直接トリガーしません(EU AI Actの汎用AI規則は基盤モデルのプロバイダーを対象としており、ユーザーではありません)。しかし、これらの規制は以下を再形成しています。
- ベンダー契約: エンタープライズ顧客はデータ処理、モデルの透明性、責任に関するAI固有の契約補遺をますます要求するようになっています
- プロダクトアーキテクチャ: ログ、監査証跡、人間による監視メカニズム、データ来歴の追跡が必要条件になりつつあり、あれば良いという段階ではありません
- 国際市場アクセス: 米国のクローズドモデルのみを使用する米国のスタートアップは、データ主権を懸念するEU顧客へのサービス提供に障壁を感じるかもしれません。EUインフラ上でのオープンモデルデプロイオプションの提供がこれに対応します
モデル戦略において、規制は柔軟性の方向に推進します。規制対象のワークロードにはオンプレミスでオープンモデルをデプロイし、機密性の低いタスクには最高品質のためにクローズドモデルを使用できる企業が、すべての管轄区域で最も有利な立場にあります。
意思決定フレームワーク
オープン対クローズドを抽象的に議論するのではなく、あなたの具体的な状況に基づいて判断するための実践的なフレームワークを紹介します。
オープンモデルを選ぶべき場合:
推論量が多い場合。 1日に数百万件のリクエストを処理している場合、オープンモデルとクローズドモデルの10〜70倍のコスト差は、実現可能なユニットエコノミクスと不可能なユニットエコノミクスの差になります。100万トークンあたり0.07ドル(DeepSeek R1)対5ドル(Claude Opus 4.6)では、Opusで月額15万ドルかかるワークロードがDeepSeekなら2100ドルです。
データが機密の場合。 医療、金融、政府、法律。セルフホストのオープンモデルはデータを自社のインフラに保持し、HIPAA、SOC 2、GDPR、業界固有の規制への準拠を簡素化します。
ドメイン固有の性能が必要な場合。 ユースケースが狭く明確に定義されている場合(医療コーディング、法律文書分析、財務レポート生成)、ドメインデータでオープンモデルをファインチューニングすれば、汎用のクローズドモデルを上回る可能性が高いです。モデルはすべてに優れている必要はなく、あなたの特定のタスクに卓越している必要があります。
レイテンシが重要な場合。 カスタムシリコン(Groq LPU、Cerebras)上にオープンモデルをデプロイすれば、APIベースのクローズドモデルでは不可能な100ミリ秒未満の応答時間を実現できます。リアルタイムアプリケーション(トレーディング、ライブカスタマーサポート、インタラクティブエージェント)では、これが重要です。
インフラの独立性が必要な場合。 ビジネスがAIに依存している場合、単一ベンダーのAPI(いつでも価格設定、レート制限、可用性を変更できる)に依存することは戦略的リスクです。自社インフラ上のオープンモデルがコントロールを提供します。
クローズドモデルを選ぶべき場合:
タスクの複雑性が高い場合。 マルチステップ推論、複雑なコード生成、長文コンテキスト分析、高度なエージェントワークフロー。クローズドモデルは最も難しいタスクで有意な品質の優位性を維持しています。品質の差がプロダクトの価値提案に直接影響する場合、プレミアムを支払う価値があります。
MLインフラの専門知識がない場合。 オープンモデルのセルフホスト、ファインチューニング、最適化にはMLエンジニアリングのスキルが必要で、すべてのチームがそれを持っているわけではありません。チームが3人でMLエンジニアがいない場合、API経由でClaudeやGPTを使用するのが合理的な選択です。コストプレミアムの対価として運用のシンプルさが手に入ります。
安全性が重要な場合。 顧客向けチャットボット、医療アドバイス、金融推奨。堅牢な安全性学習とアラインメントを備えたクローズドモデルは、オープンモデルよりも予測可能です(オープンモデルは安全性対策を迂回するようにファインチューニングできる一方、エッジケースで予期しない挙動を示す可能性もあります)。
マルチモーダルや最先端の機能が必要な場合。 最新の機能(コンピュータ使用、高度なビジョン、リアルタイム音声)は通常、クローズドモデルに最初に登場します。プロダクトがフロンティアの機能に依存している場合、クローズドモデルはオープンの代替が追いつく数か月前にアクセスを提供します。
ハイブリッドパス(ほとんどの場合に推奨)
ほとんどの本番システムは両方を使用すべきです。
| ワークロード | モデル選択 | 理由 |
|---|---|---|
| 大量テキスト処理 | オープン(DeepSeek/Llama) | コスト重視、大量処理 |
| 顧客向けチャット | クローズド(Claude/GPT) | 品質と安全性が重要 |
| ドメイン固有タスク | ファインチューニング済みオープンモデル | 最良のドメイン性能 |
| 複雑なコーディングタスク | クローズド(Claude Code) | 大幅な品質の優位性 |
| リアルタイムエージェントアクション | オープン on Groq/Cerebras | レイテンシ重視 |
| 社内ツール | オープン(セルフホスト) | コスト + プライバシー |
重要なアーキテクチャ要件は、タスクタイプ、必要な品質、レイテンシ要件、コスト制約に基づいてリクエストをルーティングする抽象化レイヤーを構築することです。これにより、必要な場所でクローズドモデルの品質を、それ以外のすべてでオープンモデルのコスト効率を得ることができます。
ハイブリッドアーキテクチャの構築
本番環境でハイブリッドのオープン/クローズドモデルアーキテクチャを実際に実装する方法を紹介します。
1. タスク分類の定義
モデルを選択する前に、アプリケーション内のすべてのAIワークロードを分類してください。
- Tier 1(品質重視): 出力品質が収益やユーザーの信頼に直接影響するタスク。コストに関係なく、利用可能な最良のモデルを使用します。
- Tier 2(十分な品質): 適切な性能で十分なタスク。はるかに低コストのオープンモデルを使用します。
- Tier 3(大量処理): コストが支配的な大量タスク。最低品質閾値を満たす最も安価なモデルを使用します。
2. ルーターレイヤーの構築
モデルルーターは以下を考慮すべきです。
- タスクタイプ: コーディングタスクはClaudeへ。要約はオープンモデルへ。分類はファインチューニング済みモデルへルーティング。
- レイテンシ要件: リアルタイムのインタラクションは高速推論(Groq)へ。バッチ処理はコスト最適化されたGPUクラウドへルーティング。
- 品質閾値: フロンティア品質を要するタスクはクローズドモデルへ。「十分な品質」で済むタスクはオープンモデルへルーティング。
- フォールバックロジック: プライマリモデルが利用不可または低速の場合、代替にフォールバック。単一障害点を作らないでください。
3. 評価への投資
ハイブリッドアーキテクチャの最も難しい部分は構築することではなく、どのモデルがどのタスクで最も良い性能を発揮するかを把握することです。これには以下が必要です。
- 自社データでのベンチマーク: 標準ベンチマークでは、あなたの特定のユースケースにどのモデルが最適かはわかりません。実際のワークロードの代表的なサンプルで評価を実行してください。
- 本番環境でのA/Bテスト: トラフィックの一部を異なるモデルにルーティングし、結果の品質(ユーザー満足度、タスク完了率、エラー率)を測定します。
- コスト対品質のモニタリング: 各モデルとタスクの組み合わせについて、品質単位あたりのコストを追跡します。モデルの更新や価格変更に伴い、最適なルーティングも変わります。
4. モデル更新の計画
オープンモデルもクローズドモデルも頻繁に更新されます。アーキテクチャは以下を処理できる必要があります。
- モデルバージョンの固定: 本番環境で新しいモデルバージョンに自動的にアップグレードしないでください。まずテストを行います。
- 段階的ロールアウト: モデルを切り替える際は、トラフィックを徐々に増やし、品質メトリクスを監視します。
- ロールバック機能: 新しいモデルバージョンが特定のタスクで品質を低下させた場合、迅速にロールバックします。
5. データパイプラインの管理
ファインチューニングしたオープンモデルは、学習データパイプラインの質に左右されます。
- インタラクションデータの収集: すべてのユーザーインタラクションは、ドメイン固有のファインチューニングのための潜在的な学習データです。
- データ品質の維持: ゴミを入れればゴミが出ます。データのクリーニング、ラベリング、キュレーションに投資してください。
- 定期的な再学習: ドメインが進化するにつれて(新しい法的判例、新しい医療ガイドライン、新しい金融商品)、ファインチューニングしたモデルにも更新された学習データが必要です。
- プライバシー・バイ・デザイン: ユーザーデータで学習する前に、データパイプラインが適用される規制に準拠していることを確認してください。
よくある質問
オープンソースAIは本当に「オープンソース」なのですか?
複雑な問題です。ほとんどの「オープン」AIモデルは、真のオープンソースではなく「オープンウェイト」です。モデルの重み(推論やファインチューニングが可能)は公開されますが、完全な学習データ、学習コード、インフラの詳細は公開されません。DeepSeek R1は例外で、学習方法論を公開し、MITライセンスでリリースされています。Open Source Initiativeは「オープンソースAI」の正式な定義の策定に取り組んでいますが、業界での使い方は厳密ではありません。
オープンモデルは本当にGPT-5やClaude Opusに匹敵できますか?
標準ベンチマークでは、はい。最も難しい実践的なタスク(複雑なコーディング、マルチステップ推論、高度なエージェントワークフロー)では、まだです。ベンチマークでの差は縮まっていますが、難しい実世界のタスクのロングテールでは差が残っています。ほとんどの本番ユースケースでは、オープンモデルで十分です。最も難しい10〜20%のタスクでは、クローズドモデルが有意な優位性を維持しています。
オープンモデルのセルフホストにはいくらかかりますか?
モデルサイズとトラフィック量によります。Llama 4 Maverick(中間層モデル)をクラウドGPUインスタンスで推論用に稼働させると、約3〜5ドル/時間のコストがかかります。1日10万リクエストを処理するスタートアップでは約2000〜5000ドル/月であり、クローズドモデルAPIで同等のボリュームの場合の1万〜5万ドル/月と比較されます。セルフホストとAPI利用の損益分岐点は通常、モデルサイズとタスクの複雑さに応じて月5万〜10万リクエスト前後です。
スタートアップはオープンとクローズドのどちらから始めるべきですか?
スピードのためにクローズドモデルから始め、スケールするにつれてコスト重視のワークロードをオープンモデルに移行してください。初期段階では、クローズドモデルのAPIのシンプルさにより、プロダクトマーケットフィットに集中できます。トラフィックが増えてワークロードを理解したら、大量かつ明確に定義されたタスクを選択的にファインチューニング済みオープンモデルに移行し、70〜90%のコスト削減を実現してください。
DeepSeekのセキュリティ上の懸念はどうですか?
DeepSeekの中国発という出自は、特に政府、防衛、重要インフラの一部の組織にとって正当な懸念を引き起こしています。モデルの重み自体は検査可能であり(クローズドモデルAPIとは異なり)、セキュリティ監査が可能です。厳格なサプライチェーン要件を持つ組織にとっては、米国発のオープンモデル(Llama)や欧州の代替(Mistral)が地政学的リスクなしに同様のコストメリットを提供します。
オープンモデルのコーディング能力はどれくらい速く追いついていますか?
速いですが、まだ距離があります。オープンモデルは2025年にコーディングベンチマークで大幅に改善しましたが、SWE-bench Verified(最も本番に近いコーディングベンチマーク)での差は依然として大きいです。Claude Opus 4.5が80.9%でリードしています。最良のオープンモデルは50〜65%の範囲です。本番環境のAIコーディング(Claude Codeを動かすようなもの)では、クローズドモデルが依然として明確な選択です。より単純なコーディングタスク(ボイラープレート、ドキュメント、基本的な関数)では、オープンモデルで十分です。
結論: 二項対立を超えて
オープン対クローズドAIの議論は、本当の戦略的問いを覆い隠す偽の二項対立です。各タスクに適切なモデルを使用するシステムをどう構築するか、それが問われています。
DeepSeekはフロンティアAIに数十億ドルの予算が不要であることを証明しました。エンタープライズの導入データは、オープンモデルがほとんどのワークロードで本番対応であることを証明しています。しかし、SWE-bench、LMArena、実世界のエージェント性能は、クローズドモデルが最も難しく最も価値の高いタスクで優位性を維持していることを証明しています。
勝者はオープン対クローズドの「正しい側」を選んだ企業ではありません。柔軟なアーキテクチャを構築し、評価に投資し、タスク、品質要件、コスト制約の組み合わせに合わせてモデルポートフォリオを最適化した企業です。
今日の意思決定を行うCTOへ:
- 1つのモデルやプロバイダーに賭けないでください。 環境の変化に応じてモデルを交換できる抽象化を構築してください。
- 品質のためにクローズドから始め、コストのためにオープンに移行してください。 プロダクト開発中はクローズドモデルのAPIのシンプルさを活用し、スケール時にコスト重視のワークロードをファインチューニング済みオープンモデルに移行してください。
- 評価インフラに投資してください。 新しいモデルを自社の特定のタスクで迅速にベンチマークする能力は、他のすべてのモデル選定をより良くするメタスキルです。
- 自社ドメインに合わせてファインチューニングしてください。 ほとんどの企業にとって最もROIの高いAI投資は、より高価なモデルではなく、自社の独自データで学習されたファインチューニング済みオープンモデルです。
- 規制の分岐に備えてください。 国際顧客にサービスを提供している場合、セルフホストとAPIベースの両方のモデルオプションを持つことで、EU、米国、その他の規制体制全体で柔軟性が得られます。
6000億ドルの問いは、実際にはオープン対クローズドの問題ではありません。AIインフラが、前例のないスピードで変化し続ける環境に適応できるほど柔軟かどうかです。6か月後には、ベンチマークのリーダー、コスト構造、モデルの能力は異なるものになっているでしょう。あなたのアーキテクチャはそれに備えるべきです。