AI

Deep Researchツール徹底比較:OpenAI vs Perplexity vs Gemini vs Claude(2026年ガイド)

主要なAIラボはすべて「Deep Research」エージェントを提供しています。どれも数分でPhDレベルのレポートを生成すると謳っています。4つのツールを数か月間実際に使ってみると、マーケティングの印象よりもはるかに大きな違いがあることがわかりました。

14分で読めます
重要なポイント
    • ハードな推論ではOpenAIが依然としてリード:Deep ResearchはローンチしたHumanity's Last Examで26.6%を記録し(OpenAI, 2025年2月)、現時点でリリース済みエージェントの中で最高スコアです。
  • Perplexityはスピードとアクセスで勝る:Sonar Deep Researchはほとんどの実行を3分以内に完了し、従量課金のリサーチAPI(入力$2/出力$8 per M tokens)を提供している唯一の主要プレイヤーです。
  • GeminiはWorkspaceユーザーにとっての静かな働き手:Gmail、Drive、Docsとのネイティブ統合により、ソース素材がGoogle内にある場合は最適な選択肢です。
  • Claude Researchは時間をかけて深く考える派:Sonnet 4.5またはOpus 4.5で5〜45分かかり、200Kトークンのコンテキスト(ベータで1M)により大規模なジョブでもソースの取りこぼしが少なくなります。
  • 無料枠は本物だが狭い:ChatGPTは月5回、Perplexityは1日5回、Geminiは限定的なDeep Researchアクセスが利用可能です。評価には十分ですが、依存するには足りません。
  • レポートはアウトプットではなく、あなたの理解がアウトプット:Deep ResearchエージェントをGlaspのようなハイライトワークフローと組み合わせることで、20ページのレポートが一度読んだきりのPDFではなく、使える知識に変わります。

Deep Researchの瞬間

2025年2月2日、OpenAIはDeep Researchを発表しました。多くの人が初めて使う、1文のプロンプトから30分の調査を計画し、自らで数十のソースを閲覧し、引用付きのレポートを返すエージェントでした。

業界の反応は印象的でした。6週間以内にPerplexityは独自のDeep Researchをリリースし(2月14日)、Sonar Deep Research APIを開発者向けに開放しました(3月7日)。Googleは2024年12月にGemini Deep Researchを静かにローンチしていましたが、展開を加速し、2025年5月にバックボーンをGemini 2.5 Proにアップグレードしました。Anthropicは2025年5月27日にClaudeのウェブ検索を一般公開し、同じ春の期間にResearch機能をパッケージ化しました。

4つのラボ、1つのプロダクトカテゴリー、1四半期。これは偶然ではありません。2024年はコンテキストウィンドウが200Kトークンを超え、ツール使用が信頼できるものになり、エージェントループが途中で静かに失敗することがなくなった年でした。Deep Researchは、この3つすべてが課金する価値があると感じさせた最初のコンシューマー向けアプリでした。エージェントプロトコルへの広範なシフトとも密接に関連しており、The Agentic Web: Inside the MCP Protocol Warsで詳しく取り上げています。

執筆、学習、市場分析、製品評価を行うなら、使っていないこと自体がすでに不利です。問題は、どれを、いつ使うかです。


「Deep Research」が実際にやっていること

Deep Researchをチャット検索と混同しがちです。質問を入力し、リンク付きの回答を得る。しかし、仕組みは異なります。

チャット検索(ブラウジング付きの通常のChatGPTなど)は、1〜2回のウェブ検索を実行し、上位の結果を数秒で合成します。Deep Researchエージェントは、ジュニアアナリストが午後をかけて行う作業に近いことをします。質問をサブクエスチョンに分解し、数十または数百の検索を実行し、ページを最後まで読み、引用をたどり、学びながら計画を更新し、脚注付きの構造化されたレポートを作成します。

チャット検索に「フィリップス曲線に対する主な批判は何か」と尋ねると、3段落の要約が返ってきます。同じ質問をDeep Researchエージェントにすると、フリードマンの自然失業率仮説、1970年代のスタグフレーションによる崩壊、合理的期待による修正、2008年以降のフラット化議論、2023〜2025年の最新論文までをカバーする15ページのレポートが、それぞれクリック可能なソース付きで返ってきます。

トレードオフは時間です。ツールと深さによって3〜45分かかります。それがポイントです。1つキューに入れて別の作業をし、戻ってくると手動で半日かかるはずのレポートができあがっています。AIエージェントを中心にリサーチ習慣を再構築する方法については、How to Build an AI-Powered Research Workflow in 2026をご覧ください。


直接対決:4ツール比較

ローンチブログと現在の価格ページから検証した数字を用いたマトリックスです。

ツールローンチモデル価格 / 制限HLEスコア
OpenAI Deep Research2025年2月2日カスタムo3無料:5/月、Plus($20/月):25/月、Pro($200/月):250/月、実行5〜30分26.6%
Perplexity Deep Research2025年2月14日(APIは3月7日)Sonar無料:5/日、Pro($20/月):500/月、API $2/$8 per M tokens、3分以内21.1%(SimpleQA 93.9%)
Gemini Deep Research2024年12月、2025年5月にアップグレードGemini 2.5/3 ProAI Pro($19.99/月):20/日、AI Ultra($249.99/月):200/日、Gmail/Drive/Docs統合公表なし
Claude Researchウェブ検索GA 2025年5月27日、Research 2025年4〜5月Sonnet 4.5 / Opus 4.5、200K ctx(1M beta)Pro($20/月)に含む、実行5〜45分、Google Workspaceコネクター公表なし

1段落のプロフィール。

OpenAI Deep Researchはヘビー級です。実行は遅く(多くの場合15〜25分)、レポートは最も長く、曖昧なトピックでは明らかに推論が深くなります。カスタムo3モデルは、チャットよりもウェブスケールの合成に最適化されています。Plusの月25回という上限が実質的な制約です。ヘビーユーザーは1週間で使い切ります。

Perplexity Deep Researchはスピードチャンピオンです。ほとんどの実行が2〜3分で完了します。レポートは短く百科事典的で、エッセイよりもブリーフィング向きです。4つのうち唯一の本格的なAPIを提供しており、ローンチ時点で入力$2/出力$8 per M tokensです。

Gemini Deep ResearchはGoogle Workspaceユーザーにとって最も統合されています。ウェブと並行してGmail、Drive、Docsから情報を引き出します。AI Proの1日20回という上限は寛大です。レポートには、エージェントが実行する前に編集できる可視化されたリサーチ計画が付いてきます。

Claude Researchは辛抱強いタイプです。実行は30〜45分の範囲に達することが多く、出力にもそれが反映されています。長文で微妙なニュアンスがあり、矛盾する証拠の重み付けが得意です。200Kコンテキストウィンドウ(エンタープライズ向けベータで1M)により、大量のソースセットが切り詰められません。


ベンチマーク:HLEとSimpleQAから実際に何がわかるか

最もよく引用される2つの数字はHumanity's Last ExamとSimpleQAです。有用ですが、過度に読み込まれがちです。

**Humanity's Last Exam (HLE)**は、Scale AIとCenter for AI Safetyが2025年初頭にリリースした3,000問のマルチドメインベンチマークで、数学、科学、人文科学、専門知識を、専門家が答えられる外縁部でカバーしています。OpenAIはDeep Researchのローンチ時点で26.6%を報告しました(OpenAI, 2025年2月2日)。PerplexityはSonar Deep Researchで21.1%を報告しました(Perplexity, 2025年2月14日)。AnthropicとGoogleは、本稿執筆時点でResearchエージェントのHLEスコアを公表していません。

HLEが測定できるのは、本当に難しい質問に対してドメイン横断で合成する能力です。測定できないのは、エージェントがあなたが実際に行う仕事にどれだけ適しているかです。ほとんどのリアルなリサーチはPhDレベルの物理学ではありません。「このトピックの最近の議論を要約して」や「自分のユースケースに合うこの5つの製品を比較して」です。このようなタスクでは、OpenAIとPerplexityのベンチマーク差は、5.5ポイントが示すよりもはるかに小さくなります。

SimpleQAはPerplexityの強みが出る領域です。ベンチマークは短文の事実の正確さをテストし、Sonar Deep Researchは93.9%を記録しました(Perplexity, 2025年2月14日)。「エージェントは事実を幻覚するか」の有用なプロキシであり、出力を引用する際に重要です。

正直に言えば、ベンチマークは難易度の80〜95パーセンタイルの範囲ではツールを確実にランク付けしますが、それ以下では不正確です。最良の選び方は、同じ実際のプロンプトを2〜3ツールの無料枠で実行し、比較することです。ベンチマークは示唆的。あなた自身のテストが決定的。

ベンチマーク信仰がミスリードする理由については、The AI Thinking Trapをご覧ください。


無料枠のリアル

マーケティングページはすべて無料アクセスを強調しています。しかし、実際に仕事で使おうとしたときに「無料」が何を意味するかを見てみましょう。

OpenAI Deep Research(無料:5/月)。評価には十分、依存するには足りない。1プロジェクトで2〜3回(初回パス、フォローアップ、明確化)を消費することが多いです。仕事で使うなら10日目には上限に達します。Plus $20/月で25回が現実的なスタートティアです。

Perplexity Deep Research(無料:5/日)。最も寛大。1日5回は月150回で、ほとんどの人が必要とする以上です。無料枠の出力はProよりも短く、新しいSonarバリアントは使えません。カジュアルな用途なら、実際に使い続けられる無料枠です。

Gemini Deep Research(無料:限定アクセス)。2025年中に限定的な形で展開され、AI Proより頻度が少なく、レポートも短くなっています。AI Pro付きのGoogle Oneサブスクリプションをすでに持っているなら、1日20回の上限が比較の基準です。

Claude Research(Proのみ、$20/月)。Research機能専用の無料枠はありません。無料プランにはチャットとウェブ検索が含まれますが、マルチステップのリサーチはProの背後にあります。ProにはClaudeのフルSonnet 4.5とOpus 4.5アクセスも含まれるため、$20で市場最強の長文コンテキスト読解モデルが手に入ります。

無料枠サマリー実務で使えるか?
OpenAI Deep Research(5/月)評価のみ
Perplexity Deep Research(5/日)はい、軽い用途であれば
Gemini Deep Research(限定)部分的、AI Proの方がよい
Claude Research無料枠なし

1つだけ課金するなら、Perplexity Proは$20で最高の実行数(500/月)を提供します。最もスマートな出力が欲しいなら、ChatGPT Plusの$20でOpenAI Deep Research 25回に加えてPlusバンドルのすべてが手に入ります。Google Workspaceユーザーなら、Gemini AI Proが自然な選択です。Claude Proは、すでにClaudeを読み書きに使っており、統合されたサブスクリプションが欲しい場合に最も理にかなっています。


どのツールをどの用途に使うか

4つすべてで何百ものクエリを実行した結果、明確なパターンが見えてきました。現在のルーティング方法をご紹介します。

学術文献レビュー。Claude Research。エージェントが20本以上の論文をワーキングメモリに保持する必要があるとき、長いコンテキストウィンドウが効きます。Claudeは表面的に似た主張を区別するのが顕著に上手です。実行時間は長くなりますが、文献レビューは時間に敏感ではありません。

市場規模推定と競合インテリジェンス。OpenAI Deep Research。曖昧な戦略的質問(市場が成長した理由、顧客スイッチングを駆動するもの)に対する推論の深さがここで明確に現れます。「この業界を理解するのを手伝って」というプロンプトで最も信頼できるものです。

簡易な事実ブリーフィング。Perplexity Deep Research。ミーティング前に引用付きの2ページの要約が必要なだけなら、Perplexityの3分のターンアラウンドは打ち負かし難いです。SimpleQA風の事実の正確さは本物の強みです。

購入決定と製品比較。PerplexityまたはGemini。両方とも、十分なリアルワールドのレビューデータ(フォーラム、YouTube字幕、スペックシート)を取り込み、有用な並列比較を作成します。Geminiの強みは、自分のGmailの領収書やDriveのメモを取り込めることです。

自分のドキュメントを含むリサーチ。Gemini Deep Research。Workspace統合は堀です。ソース素材の半分がDriveにある(会議メモ、PDF、古いメール)場合、他に比較対象はありません。

開発者統合と大量実行。Perplexity Sonar Deep Research API。適切なレートの本物のAPI価格を持つ唯一のものです。Deep Researchを機能として必要とする製品を構築しているなら、明らかな選択肢です。

矛盾する証拠の合成。Claude。ソースが一致しない場合(例:「食物繊維は憩室炎に本当によいのか」「ポモドーロテクニックは効くのか」)、Claudeは早まって一方を選ぶのではなく、不一致を表面化することに最も前向きです。

意外に思えるかもしれないパターンが1つあります。単独で支配するツールはありません。重要な仕事では、同じプロンプトを2つのエージェントで実行します。2つのサブスクリプションで月$40のコストがかかりますが、単一のツールが生成するよりも明らかに良い出力が得られます。チャット検索とDeep Researchは、競合する製品というよりも、組み合わせるスタックのように感じられ始めています。


失われたピース:リサーチレポートを使える知識に変える

比較記事がほとんど触れない点があります。エージェントが生成するレポートはあなたのリサーチのアウトプットではありません。あなたの理解がアウトプットです。

20ページのClaude Research出力や15ページのOpenAI Deep Researchレポートは、仕事の始まりであって終わりではありません。一度読み、結論をざっと見て、タブを閉じる。それは、実際には学ばなかった何かを要約するためにエージェントに課金したことになります。受動的なAI利用に関する2025年のMIT Media Lab研究(AIと学習への影響の分析で追跡しています)では、ChatGPTのヘビーユーザーが、アクティブラーナーよりも「読んだ」ことを一貫して記憶していないことが示されました。

解決策は、研究者が何世紀にもわたって行ってきたことです。注釈を付けること。重要な主張をハイライトする。検証したいソースにフラグを立てる。レポート間で洞察をリンクする。

ここでGlaspのウェブハイライターがワークフローに適合します。OpenAI、Perplexity、Gemini、またはClaudeでリサーチを実行します。レポートを読める形式のページに貼り付けます。読みながらブラウザで直接ハイライトします。ハイライトはGlaspライブラリに同期され、その月に読んだ他のすべてと一緒に検索可能に整理されます。

実際に機能する具体的なワークフローをいくつか紹介します。

ハイライトしてから再クエリ。レポートを読み、最も重要な10〜15の主張をハイライトします。そのハイライトを同じエージェントに貼り付け、「これらの具体的な点についてさらに掘り下げて」と依頼します。1回限りではなく反復的に。

トピック別にレポートを積み重ねる。同じトピックを2つのツール(たとえばOpenAI + Claude)でリサーチした場合、両方のレポートをGlaspでハイライトすることで、収束点と相違点が見えてきます。不一致が最も興味深い部分であることがよくあります。

テキストと並行してYouTubeを使う。最良のソースがポッドキャストや講演の場合、YouTube Summaryはタイムスタンプ付きのトランスクリプトレベルの要約を提供します。テキストのDeep Researchレポートに3〜4本の注釈付きYouTube講演を組み合わせると、どちらか単独よりも徹底的にトピックをカバーできます。

ハイライトと会話するGlaspのAIチャットは、注釈をソースとして質問に答えられます。「GPTはXについて何と言ったか」と「自分はXについて実際に何を結論づけたか」の違いです。

学んだことを公開する。Glaspのコミュニティには同じトピックをリサーチしている他の人がたくさんいます。ハイライトされたレポートを共有することは、リサーチを終わらせる強制力であり、さらに多くをキューに入れるだけではありません。ステップバイステップのガイドは、How to Annotate Articles the Right Wayをご覧ください。

一度読んだレポートは領収書であって、知識ではありません。ハイライトと注釈のステップが、エージェント出力を実際に知っている何かに変換します。


よくある質問

最も正確なDeep Researchツールはどれですか?

公表されたベンチマークでは、OpenAI Deep ResearchがHumanity's Last Examで26.6%(OpenAI, 2025年2月)、Perplexityの21.1%(Perplexity, 2025年2月)をリードしています。AnthropicとGoogleはResearchエージェントのHLE数値を公開していません。短文の事実の正確さでは、Perplexity SonarがSimpleQAで93.9%を記録し、優秀です。実用では、OpenAI、Claude、Geminiの正確さの差はベンチマークが示唆するほど大きくありません。より大きな違いは深さ対スピードです。

Deep Researchの実行にはどのくらい時間がかかりますか?

Perplexityはほとんどの実行を3分以内に完了します。Geminiは通常5〜15分。OpenAI Deep Researchはクエリの複雑さによって5〜30分かかります。Claude Researchは難しいプロンプトで5〜45分に達することがあります。今すぐ答えが必要ならPerplexity。待てるなら、ClaudeまたはOpenAIの方が通常、より徹底的なレポートを作成します。

本当に無料のDeep Researchツールはありますか?

はい、ただし制限があります。OpenAIは無料ユーザーに月5回のDeep Research実行を提供します。Perplexityは無料枠で1日5回、最も寛大な配分です。GeminiはDeep Researchの無料アクセスが限定されています。Claudeは無料枠でResearchを提供していません。カジュアルな利用ならPerplexity Freeでほとんどのニーズをカバーします。定常的な仕事には、4つのいずれかの$20/月のProプランが現実的な入口です。

Deep ResearchツールをAPI経由で使えますか?

Perplexityは現在、本物のDeep Research APIを持つ唯一の主要プレイヤーです。Sonar Deep Researchは2025年3月7日に入力$2/出力$8 per M tokensでローンチしました。OpenAIはAPI経由でo3へのアクセスを提供していますが、フルのDeep ResearchエージェントループはChatGPTに結びついています。ClaudeとGeminiはResearch機能を独立したAPIとしてまだ提供していませんが、基盤モデル(Sonnet 4.5、Opus 4.5、Gemini 2.5/3 Pro)は利用可能です。

Deep Researchは従来の検索を置き換えますか?

いいえ。Deep Researchは補完であり、置き換えではありません。簡単な事実なら検索の方が速いです。2文の定義なら通常のLLMとのチャット。Deep Researchは、手動で30分以上かかる多面的な質問に構造化された引用付きレポートが欲しいときに勝ちます。ほとんどの人は3つすべてを使います。

Deep Researchレポートの幻覚を止めるにはどうすればよいですか?

実用的な戦術が3つあります。まず、引用された上位3〜5のソースを必ずクリックし、主張がソースにあることを確認します(幻覚は、偽のソースを捏造するよりも、実在のソースを誤って引用することから生じることが多いです)。次に、同じプロンプトを2つ目のツールで実行して比較します。たとえばClaudeとOpenAIの不一致は、どちらかが間違っている場所であることが多いです。第3に、重要な事実クエリではPerplexityを優先します。SimpleQAの93.9%スコアは、短文事実での真のキャリブレーションを反映しているためです。

Deep Researchツールは私のプライベート文書を読めますか?

Gemini Deep Researchは最も深い統合を持ち、Gmail、Drive、Docsへのネイティブアクセス(許可を得て)があります。Claude ResearchはGoogle Workspaceコネクターをサポートしています。OpenAI Deep Researchはセッション中にアップロードしたファイルを読めますが、クラウドストレージとは直接統合されていません。Perplexityは主にウェブに対して動作します。ソース素材が主にGoogle Workspaceにある場合、Geminiが明らかな選択です。

Deep Researchレポートを保存・再利用する最良の方法は?

レポートをPDFまたはMarkdownとしてエクスポートし、読みやすいビューで開き、他の長い記事と同じようにハイライトします。Glaspはまさにこのワークフロー向けに作られています。ハイライトは検索可能、他のハイライトにリンク可能、再訪可能なライブラリに同期されます。ハイライトステップがなければ、ほとんどのDeep Researchレポートは一度読まれて忘れられます。これは教育者が「生成効果」と呼ぶもの、つまり能動的に処理した情報は受動的に受け取る情報よりもはるかによく保持される、という原理に関係しています。


結論:リサーチツールではなく、リサーチスタック

OpenAIのローンチから1年後、カテゴリーは明確になりました。Deep Researchエージェントは勝者総取りの市場ではありません。4人プレイヤーのミックスで、正解は何をリサーチしているか、どれだけ時間があるか、ソース素材がどこにあるかによって決まります。

2026年のほとんどのナレッジワーカーに1つ選ぶなら、Perplexity Proです。$20で月500回は最高のボリューム対価格比で、実行は通常の仕事のリズムに収まる速さで、SimpleQAの正確さは本当に強いです。より重い、または曖昧な仕事には、OpenAI Deep ResearchまたはClaude Researchと組み合わせます。

しかし、ツール選びよりも重要なのは、出力をどうするかです。私が見る最大の間違いは、Deep Researchレポートを完成品として扱うことです。そうではありません。原材料です。実際の知識は、重要な主張をハイライトし、他の読んだものにリンクし、トピックが再び出てきたときに戻ってきたときに構築されます。

それがGlaspが設計されているワークフローです。どんなレポート、どんな記事、どんなYouTubeトランスクリプトでもハイライトできます。実際に重要だと思ったものの検索可能なライブラリを構築します。後で特定のことを思い出したいときにハイライトと会話します。同じリサーチをしている他の人と仕事を共有します。

Deep Researchエージェントはこれからも改善されます。ハイライトレイヤーが上に乗っていないものは、一度読まれて忘れられるレポートを生み出し続けます。2026年のリサーチワークフローを単一のツール中心に構築しないでください。スタック中心に構築し、そのスタックの最後のリンクが自分自身の理解が記録される場所であることを確認してください。

今週、実際のリサーチ質問を4つのうち2つのツールで1つ実行することから始めてください。両方のレポートをハイライトしてください。学んだことを比較してください。それがワークフローです。それ以外はすべて機能リストです。

Start building your knowledge library

Highlight what matters as you read across the web. Save insights from articles, books, and YouTube videos in one place.

Get Started Free