AIで最も静かな大きな変化(Pワードを使わずに)
2022年と2023年のほとんど、より大きいAIはより大きなトレーニング実行を意味しました。より多くのパラメータ、より多くのデータ、より多くのGPU。事前トレーニング中のスケールが能力を上に引きずり続けると期待されていました。
そして2024年9月、OpenAIはo1をプレビューしました。大きいというよりも遅いと感じられるモデルでした。質問すると、何かを書く前に時々30秒間一時停止していました。フルのo1は2024年12月5日にChatGPT Proと共に$15 / $60 per million tokensで出荷されました(OpenAI, 2024)。より大きなモデルではありません。クエリあたりより多くの計算を費やすモデルでした。
数週間後、OpenAIはo3を発表しました。DeepSeekは2025年1月20日にR1をオープンソース化しました(DeepSeek-AI, 2025)。Anthropicは2025年2月24日にExtended ThinkingをClaude 3.7 Sonnetに統合し、ユーザー調整可能な「思考予算」と可視化された生の推論トレースを追加しました(Anthropic, 2025)。この機能はClaude 4、4.5、4.7に引き継がれました。
技術名は「テスト時計算スケーリング」です。トレーニング中に計算を投資するだけでなく、モデルは推論中に考えるためのより多くの計算を与えられます。Sebastian Raschkaが「Understanding Reasoning LLMs」で述べているように、静かな変化はこれらのモデルがどう訓練されるかではなく、エンターキーを押した後に何が起きるかです。
ナレッジワーカーと学習者にとって、モデルの選択はもはや品質の問題だけではないため、これが重要です。レイテンシーの問題でもあり、コストの問題でもあり、タスク適合の問題でもあります。
推論モデルが実際に異なることをすること
専門用語を取り除くと、推論モデルは単純なことをします。答えを書く前に、自分宛にプライベートな下書きを書きます。その下書きは数百から数千トークンの長さになることがあります。アプローチを探索し、作業を確認し、後戻りし、最終的な応答にコミットします。
GPT-4oのような標準チャットモデルは、トークンを左から右に生成し、それらのトークンが答えです。それがする推論はすべて、そのフォワードパスに収まるものに圧縮されます。「ステップバイステップで考えて」とプロンプトすると、紙の上で少し多くの推論が得られますが、基盤モデルは熟考するために作られていません。
推論モデルは熟考するために作られています。3つの具体的な違いが実際に現れます。
- クエリあたりのトークンが多い。推論出力には、可視の答えよりも5〜20倍多くの隠れトークンが含まれることがよくあります。
- レイテンシーが高い。応答は1〜3秒ではなく10〜60秒かかります。
- 異なる失敗モード。推論モデルが間違っているとき、自信を持って精巧な方法で間違っていることがよくあります。難しい問題で正しいとき、標準モデルが対抗できない方法で正しいです。
Nature誌のDeepSeekの論文(2025)は、最も明確な実証の1つを提供しています。AIME 2024で、ベースモデルは15.6% pass@1を記録しました。正しい推論に報酬を与える強化学習の後、R1は71.0% pass@1と、多数決で86.7%を記録しました。モデルはより多くの数学データを見たわけではありません。推論トークンを使って考えることを学んだのです。
残りの私たちにとっての実用的な質問は、その余分な思考がいつ価値があるかです。
3つのファミリー:o3、Claude Extended Thinking、DeepSeek R1
2026年初頭時点で、3つのプロダクトが推論モデルランドスケープを支配しています。それぞれわずかに異なる角度を取ります。
OpenAI o3はベンチマーク破壊のオプションです。2024年12月に発表され、ARC-AGIで初めて約85%の人間閾値を超え、高計算モードで87.5%、効率ティアで75.7%を記録しました(Chollet, ARC Prize, 2024)。ARC-AGIはパターン記憶に抵抗するために作られており、それまでのモデルは近づいていませんでした。大学院レベルの科学ベンチマークGPQA-Diamondで、o3はo1の76.0%に対して87.7%を記録しました。OpenAIは2025年中にo3価格をおよそ80%削減し、$2 / $8 per million tokensにしました。元のo1レートの約7.5倍安くなりました。
Claude Extended Thinkingは調整可能なオプションです。2025年2月24日にClaude 3.7 Sonnetと共に導入され、クエリごとに「思考予算」を設定できます。生の推論はAPI応答で可視化され、デバッグと監査に便利です。価格はClaude Sonnetの標準$3 / $15 per million tokensのままなので、余分な思考には余分なトークンがかかりますが、プレミアム価格はかかりません。
DeepSeek R1はオープンウェイトのオプションです。2025年1月20日にMITライセンスの下でリリースされ、後にNatureで公開されたR1は、初期段階で監督された推論データなしで、ベースモデルに直接適用された強化学習で訓練されました。AIME 2024でo1-0912に匹敵し、GPQA-Diamondで71.5%に達しました。1.5Bから70Bパラメータの蒸留バリアントにより、強力な推論が単一のGPUで実行可能になりました。R1-0528というアップデートでAIME 2025が87.5%に押し上げられました。
これら3つが空間をカバーします。独自のトップティア(o3)、調整可能で透明(Claude)、オープンウェイト(DeepSeek R1)。
ベンチマークを正直に読む
文脈のない数字は誤解を招きます。主要な推論ベンチマークを比較し、ベースラインとして標準チャットモデルを含めます。
| モデル | GPQA-Diamond | AIME 2024 (pass@1) | ARC-AGI (semi-private) | 典型的なクエリあたりコスト | 返信あたりレイテンシー |
|---|---|---|---|---|---|
| GPT-4o (standard) | 約48% | 約13% | 約5% | 約$0.01 | 1〜3秒 |
| DeepSeek R1 | 71.5% | 71.0% (多数決で86.7%) | 約15% | 約$0.005 (ホステッド) | 15〜40秒 |
| Claude 4.5 Extended Thinking | 約83% | 約80% | 約50% (高予算) | 約$0.05〜$0.30 | 10〜40秒 |
| OpenAI o3 | 87.7% | 約90% | 75.7% (効率) / 87.5% (高) | 約$0.05〜$2.00+ | 20〜60秒 |
ソース:OpenAI o3発表(2024年12月)、ARC Prizeブログ(Chollet, 2024)、DeepSeek-R1(Nature 2025)、Anthropicリリースノート。レイテンシーとコストはプロンプト長と思考予算によって変わります。
これらのような数字を読むときに留意すべきいくつかのこと。
GPQA-Diamondは、ウェブアクセスがあっても非専門家が苦戦するように設計された大学院レベルの科学質問のセットです。高得点は、モデルがPhD候補者のレベルで推論できることを意味します。より優れたライターや要約者という意味ではありません。
AIMEはプレオリンピアード競技です。70%以上のスコアは、モデルがアメリカの高校生のおよそトップ2%が取り組む問題を解けることを意味します。AIMEは予測やスプレッドシートのような日常的な数学に弱く一般化します。
ARC-AGIはFrançois Cholletによって記憶に抵抗するように作られました。タスクは、ルールが例で示される視覚パズルです。推論前のモデルは一桁台でした。o3のジャンプは研究者にとって本当に驚きでした。ただし、ARC-AGIは実用的な有用性のプロキシではありません。1つの特定の形の抽象的一般化を測定します。
これらのベンチマークを支配するモデルが、プロダクトローンチ計画、本の要約、顧客メールに自動的に優れているわけではありません。
推論が助けるとき
推論モデルは、3つの特性を持つタスクで価値を発揮します。複数のステップ、検証可能な答え、間違えるコストの高さです。
マルチステップの数学と定量的推論。複数の条件を持つ税計算。転置された数字が答えを変える財務モデル。単位変換を伴うエンジニアリング計算。DeepSeek R1がAIMEで得た55ポイントのジャンプは、まさにこの種の問題からでした。
非自明なタスクのコード生成とデバッグ。「リストをソートする関数を書く」は推論を必要としません。動作を保ちながら300行のモジュールをリファクタリングする、レースコンディションをデバッグする、論文からアルゴリズムを実装することは必要とします。
法的および規制分析。クロスリファレンスされた条項を持つ契約レビュー。回答が複数のルールの相互作用に依存するコンプライアンス質問。多くの法務チームは今、初回パス分析に推論モデルを使用し、弁護士が出力をレビューします。
複雑なRAGルーティング。検索システムが10のインデックスのどれをクエリするかを決定し、クエリを書き直し、ソース全体を合成する必要がある場合、オーケストレーター役の推論モデルは明らかに優れた計画を生成します。
文献合成。複数の論文を読み、どこで一致し、不一致し、何が欠けているかを特定することは、推論モデルがうまく処理する種類の比較対照です。GlaspのAIチャットを使ってハイライト全体からテーマを引き出した場合、最終合成を推論モデルにエスカレートすることが最大の違いを感じるところです。
ハードな科学または技術的な質問。作業が大学院レベルの化学、物理学、生物学を含む場合、40ポイントのベンチマークギャップは、標準モデルが生成できない実際の答えに変換されます。
ヒューリスティック:同僚に答えを信頼する前にダブルチェックしてもらいたいなら、推論モデルは待つ価値があるでしょう。
推論が害になるとき
推論モデルは興味深い方法で失敗します。そして、驚くほど大きな日常的なタスクの割合で、標準チャットモデルよりもパフォーマンスが低くなります。
単純な事実の想起。正解がモデルがすでに知っている1つの事実の場合、余分な思考トークンはそれを再考する機会を与えます。2025年の研究では、推論モデルが基本的な事実の想起で2.4%から3.8%の精度を失うと報告されています。モデルは正解の代替案を検討し、時々1つにコミットします。
翻訳。良い翻訳はパターンマッチングの問題であって、推論の問題ではありません。推論モデルはGPT-4oよりもうまく翻訳せず、20倍長くかかります。
要約。5,000語を300語に凝縮する場合、ボトルネックは推論の深さではなく、書く品質です。標準チャットモデルは速く、しばしばよりきれいな散文を生成します。AIリサーチワークフローの記事で詳しく説明しています。
分類。サポートチケットのタグ付け、メールのラベル付け、感情スコアリング。推論は精度なしにレイテンシーを追加します。
単純な質問回答。「月面着陸は何年ですか?」は思考の連鎖では改善されません。標準チャットはこれらを0.5秒で処理します。
声を必要とするクリエイティブライティング。推論トレースは分析的です。推論に重点を置いて訓練されたモデルは、詩や感情的なパッセージを尋ねられたときに機械的に感じる答えを生成することがあります。標準チャットモデルは温かく感じます。
より微妙な失敗モードはarXiv 2509.09677「Illusion of Diminishing Returns」で文書化されています。著者らは、長期実行の利益が急激に減少することを発見しています。初期の利益は本物ですが、余分な10,000推論トークンの限界精度は急速に低下します。あるポイントを超えると、より多くの思考は答えをより遅く、より高価にするだけです。
レイテンシーはそれ自体の問題です。ほとんどのユーザーは30秒の沈黙を壊れたシステムと解釈します。プロダクトはしばしば、何かが起きていることをユーザーに安心させるために可視の「thinking」UIを追加します。AIをタイトなフローに埋め込んでいる場合、この摩擦が重要です。
実際に使える判断ルール
実用的なマトリックスです。粗いですが、遭遇するほとんどをカバーします。
| タスクタイプ | 推論モデル | 標準チャットモデル |
|---|---|---|
| マルチステップの数学または証明 | はい、明確に | いいえ |
| 非自明な機能のコード | はい | 単純なスニペットのみ |
| 法的 / 契約分析 | はい | いいえ |
| 複雑なRAGクエリルーティング | はい | いいえ |
| 科学的または技術的なQ&A(PhDレベル) | はい | いいえ |
| 5+ソースを横断する文献合成 | はい(最終パス) | はい(初回パス) |
| 翻訳 | いいえ | はい |
| 要約 | いいえ | はい |
| メールの下書き | いいえ | はい |
| 分類 / タグ付け | いいえ | はい |
| 短い事実Q&A | いいえ | はい |
| 声を必要とするクリエイティブライティング | 通常いいえ | はい |
| タイトなレイテンシーのチャットインターフェース | いいえ | はい |
| ブレインストーミング | 時々 | 通常はい |
ルールは圧縮できます。3つの質問をします。
- **問題はマルチステップか?**複数の論理的な動きを連鎖させる必要があるか?
- **答えは検証可能か?**正しいか間違っているかわかるか?
- **間違えるコストは高いか?**間違いは大きな時間または金銭を無駄にするか?
少なくとも2つがイエスなら、推論モデルを使用します。そうでなければ、レイテンシーを節約します。確信が持てないなら、まず標準モデルを試し、答えが不安定に感じたらエスカレートします。
このパターン、安く始めて必要なときだけエスカレートすることは、AIを扱う上で最も過小評価されているスキルの1つです。AIリサーチワークフローで深く掘り下げました。
読書とリサーチにとっての意味
仕事の一環として読み、学び、研究する場合、推論モデルはワークフロー全体ではなく特定のスロットに適合します。
学習の作業のほとんどは推論ではありません。注意です。どのソースが重要かを選び、何が新しいかに集中し、時間をかけてアイデアの個人的な地図を構築します。どのモデルもあなたのためにそれを行いません。これが、Glaspのウェブハイライターが人間のステップを最初に中心に作られている理由です。重要なものをハイライトし、AIが後で思考パートナーとして入り、代替ではありません。
ほとんどの日常的な読書タスクには、標準チャットモデルが適切なツールです。
- 今読んだ記事を要約する。標準モデル、速くクリーン。
- この論文で理解できなかった概念を説明する。標準モデル。概念がPhDレベルの科学的主張の場合、エスカレートします。
- 今月のハイライトからAI安全性に関するすべての引用を引き出す。標準モデル。
- ノートからフラッシュカードを生成する。標準モデル。
推論モデルは、より小さなジョブのセットで場所を得ます。
- 1つのトピックに関する5人の著者間の不一致を合成する。推論モデル、関連するパッセージをハイライトした後が好ましい。
- この論文の議論を既存のノートにマッピングし、矛盾にフラグを立てる。推論モデル。
- すでに読んだことに基づいてギャップを埋める読書計画を設計する。推論モデル。
- 第一原理から証明または複雑な技術的議論を導出する。推論モデル。
YouTube Summaryフローは良い例です。40分の講演を要約することは、しっかりと標準モデルのタスクです。しかし、講演が技術的で、話者の議論が他の場所で保存した3つの反論に耐えるかを確認したい場合、ハイライトをコンテキストとして推論モデルにエスカレートすることが、そのコストに見合います。
この2層アプローチは、AIと学習への影響とAI思考の罠からのより広い点とつながります。AIは、あなたがしていない思考の代わりをするときではなく、すでにした思考を増幅するときに最も有用です。推論モデルはAIが貢献できる天井を上げます。床は変えません。床は、あなたが素材にどれだけ深く関わったかによって設定されます。
DeepSeek R1のMITライセンスもパターンを破りました。2025年まで、強力な推論は独自でした。今、誰でも自分のハードウェアで70B蒸留リーズナーを実行できます。プライバシー、大規模コストまたはファインチューニングを気にするチームにとって、これは計算を変えます。Open Source vs Closed AI戦略でカバーしました。
よくある質問
私のほとんどの仕事に推論モデルが必要ですか?
おそらく不要です。読書、執筆、要約、一般的なQ&Aには、標準チャットモデルが速く、安く、しばしばより正確です。推論モデルは、複数の論理的ステップと検証可能な答えを持つ問題で場所を得ます。
思考の連鎖プロンプティングと推論モデルの違いは何ですか?
思考の連鎖プロンプティングは、標準モデルにプロンプトで「ステップバイステップで考えて」と伝える技術です。推論モデルは、正しい推論に報酬を与える強化学習を使って、答える前にはるかに長い内部推論トレースを生成するように特別に訓練されています。思考の連鎖プロンプティングだけでも一部の利益を得られますが、プロンプトされたGPT-4oとo3の間のハードなベンチマークでのギャップは依然として大きく、しばしば20〜40ポイントです。
なぜo3はo1よりもはるかに安いのですか?
OpenAIは2025年中にo3価格をおよそ80%削減し、百万入力トークンあたり約$2、百万出力トークンあたり$8で終わりました。削減はモデル蒸留、推論最適化、ハードウェア効率の向上によるものでした。推論モデルは、はるかに多くのトークンを生成するため、標準チャットモデルよりもクエリあたり高価なままですが、トークンあたりの価格ギャップは大幅に縮小しました。
DeepSeek R1は本当にo3と競争力がありますか?
AIME 2024のような数学ベンチマークとGPQA-Diamondでは、R1はo1に近いですが、o3の後です。ARC-AGIでは、o3が明確にリードしています。R1が勝つのは柔軟性です。MITライセンスの下でオープンウェイトで、セルフホストでき、1.5Bから70Bパラメータの蒸留バリアントにより、商品ハードウェアで実用的になります。データ居住性、ファインチューニング、または大規模コストを気にするチームにとって、ベンチマークで数ポイント後ろでもR1の方がよい選択であることがよくあります。
推論モデルが質問を考えすぎているかどうかを知るにはどうすればよいですか?
2つのサイン。まず、尋ねた質問に対してレイテンシーが不合理に感じる、たとえば「この単語はどういう意味?」に45秒。次に、答えが必要以上にヘッジし、質問が不要とした留保を導入する。2025年の研究で文書化された単純な事実の想起での2.4%から3.8%の精度低下は、主にこの考えすぎパターンから来ます。それが見えたら、標準モデルに切り替えてください。
同じワークフローで推論モデルと標準モデルの両方を使えますか?
はい、これはしばしば最良のセットアップです。高速で大量の作業(要約、下書き、分類)には標準モデルを使用し、熟考を必要とする少数のクエリには推論モデルにエスカレートします。Claude 3.7 Sonnetは思考予算スライダーでこれを明示的にし、OpenAIのAPIはGPT-4oとo3の間で自由にルーティングできます。
Glaspは推論モデルを使用しますか?
GlaspのAIチャットは、ハイライト上の高速で会話的な応答に最適化されているため、ほとんどのインタラクションでは標準チャットモデルがデフォルトです。多くのハイライトを横断する合成や複数のソースからの議論の比較など、より深い分析から利益を得る特定のユースケースでは、推論モデルがツールキットの一部です。原則は、あなた自身の仕事で従うべきと提案するのと同じです。モデルを質問に合わせる。
標準チャットモデルは最終的に推論モデルがすることをすべて行うようになりますか?
ギャップは狭まっています。新しい標準モデルは推論訓練からの技術を取り入れ、推論モデルはより速く安くなっています。2027年までに、区別はクエリに基づいてより多くまたはより少ない計算を費やす単一のモデルにぼやけるかもしれません。今のところ、2つのモードは十分に異なっており、別々のツールとして扱うことが有益です。
結論:モデルを質問に合わせる
2024年と2025年の大きなシフトは、AIが以前の意味で賢くなったということではありませんでした。スピードを深さと交換する新しい種類のモデルが現れました。そのトレードオフは本物で測定可能です。推論モデルはハードな数学で精度を倍増させ、同じ午後に単純なQ&Aで3ポイント失うことがあります。
モデル選択は今やクラフトの一部です。ほとんどのものには速く安く。余分な計算が価値を発揮する小さな問題セットには遅く深く。実際に機能するルール:問題がマルチステップで、検証可能で、間違えるのに高くつくかを問う。それらの2つがイエスなら、推論モデルを使用します。そうでなければ、標準チャットモデルを使用します。
推論モデルは思考をオプションにしません。実際に必要なときに、1つの特定の種類の思考をより安く、より信頼できるものにします。それ以外のとき、標準モデルはまだ最良のツールであり、あなた自身の注意が最も重要な部分のままです。それがGlaspが常に推し進めてきたフレームです。AIは、あなたがすでにハイライトし、つないだものを増幅します。正しいモデルを選べば、すべてのクエリからより多くを得ます。間違ったものを選べば、ただ悪い答えを長く待つだけです。