Outils de Deep Research comparés : OpenAI vs Perplexity vs Gemini vs Claude (guide 2026)

Le moment Deep Research

Le 2 février 2025, OpenAI a annoncé Deep Research. C'était le premier agent que la plupart des gens avaient utilisé, capable de prendre un prompt d'une phrase, de planifier une enquête de 30 minutes, de parcourir des dizaines de sources par lui-même et de revenir avec un rapport sourcé.

La réaction de l'industrie a été révélatrice. En six semaines, Perplexity a livré son propre Deep Research (14 février) et a ouvert l'API Sonar Deep Research aux développeurs (7 mars). Google, qui avait lancé Gemini Deep Research discrètement en décembre 2024, a accéléré son déploiement et mis à niveau le moteur vers Gemini 2.5 Pro en mai 2025. Anthropic a rendu la recherche web de Claude généralement disponible le 27 mai 2025, emballant la fonction Research dans la même fenêtre de printemps.

Quatre laboratoires, une catégorie de produit, un trimestre. Ce n'est pas un hasard. 2024 a été l'année où les fenêtres de contexte ont dépassé les 200K tokens, où l'utilisation d'outils est devenue fiable, et où les boucles agentiques ont cessé d'échouer silencieusement en cours de route. La deep research a été la première application grand public à rendre ces trois éléments dignes d'être payés. C'est aussi étroitement lié au virage plus large vers les protocoles d'agents que nous couvrons dans The Agentic Web: Inside the MCP Protocol Wars.

Si vous écrivez, étudiez, analysez des marchés ou évaluez des produits, vous êtes déjà désavantagé si vous n'en utilisez aucun. La question est de savoir lequel, et quand.

Ce que fait réellement un « deep research »

Il est facile de confondre deep research et chat search. Vous tapez une question, vous obtenez une réponse avec des liens. Les mécaniques diffèrent.

Un chat search (comme ChatGPT standard avec navigation) lance une ou deux requêtes web et synthétise les premiers résultats en quelques secondes. Un agent de deep research fait quelque chose de plus proche de ce que fait un analyste junior sur un après-midi. Il décompose votre question en sous-questions, lance des dizaines ou des centaines de recherches, lit des pages entières, suit des citations, met à jour son plan au fur et à mesure qu'il apprend, et produit un rapport structuré avec des notes de bas de page.

Demandez à un chat search « quelles sont les principales critiques de la courbe de Phillips ? » et vous obtiendrez un résumé de trois paragraphes. Posez la même question à un agent de deep research et vous obtiendrez un rapport de 15 pages couvrant l'hypothèse du taux naturel de Friedman, l'effondrement stagflationniste des années 1970, les révisions des anticipations rationnelles, les débats sur l'aplatissement post-2008, et des articles récents de 2023 à 2025, chacun avec une source cliquable.

Le compromis est le temps. Les exécutions prennent entre 3 et 45 minutes selon l'outil et la profondeur. C'est le but. Vous en lancez une, vous passez à autre chose, et vous revenez à un rapport qu'il vous aurait fallu une demi-journée pour assembler manuellement. Pour en savoir plus sur la restructuration des habitudes de recherche autour des agents d'IA, voir How to Build an AI-Powered Research Workflow in 2026.

Face à face : les 4 outils comparés

Voici la matrice, avec des chiffres vérifiés issus des blogs de lancement et des pages tarifaires actuelles.

Outil	Lancement	Modèle	Prix / Limites	Score HLE
OpenAI Deep Research	2 fév. 2025	o3 personnalisé	Gratuit : 5/mois ; Plus (20 $/mois) : 25/mois ; Pro (200 $/mois) : 250/mois ; exécutions de 5 à 30 min	26,6 %
Perplexity Deep Research	14 fév. 2025 (API 7 mars)	Sonar	Gratuit : 5/jour ; Pro (20 $/mois) : 500/mois ; API 2 $/8 $ par M tokens ; moins de 3 min	21,1 % (SimpleQA 93,9 %)
Gemini Deep Research	Déc. 2024, mis à jour mai 2025	Gemini 2.5/3 Pro	AI Pro (19,99 $/mois) : 20/jour ; AI Ultra (249,99 $/mois) : 200/jour ; intégration Gmail/Drive/Docs	non publié
Claude Research	Recherche web GA 27 mai 2025 ; Research avr.-mai 2025	Sonnet 4.5 / Opus 4.5, 200K ctx (1M bêta)	Inclus dans Pro (20 $/mois) ; exécutions de 5 à 45 min ; connecteurs Google Workspace	non publié

Les profils en un paragraphe :

OpenAI Deep Research est le poids lourd. Les exécutions sont plus lentes (souvent 15 à 25 minutes), les rapports sont les plus longs, et le raisonnement est visiblement plus approfondi sur les sujets ambigus. Le modèle o3 personnalisé est réglé pour la synthèse à l'échelle du web, plus que pour le chat. Le plafond de 25 par mois sur Plus est la vraie contrainte. Les gros utilisateurs l'épuisent en une semaine.

Perplexity Deep Research est le champion de la vitesse. La plupart des exécutions se terminent en 2 à 3 minutes. Les rapports sont plus courts et plus encyclopédiques, idéaux pour une note de briefing plutôt qu'un essai. C'est aussi le seul des quatre à disposer d'une véritable API, facturée 2 $ en entrée et 8 $ en sortie par million de tokens au lancement.

Gemini Deep Research est le mieux intégré pour les utilisateurs de Google Workspace. Il puise dans vos Gmail, Drive et Docs en parallèle du web. Le plafond de 20 par jour sur AI Pro est généreux. Les rapports sont accompagnés d'un plan de recherche visible que vous pouvez modifier avant le lancement de l'agent.

Claude Research est le patient. Les exécutions atteignent régulièrement les 30 à 45 minutes, et la sortie le reflète : textes longs, nuancés, bons pour peser les preuves contradictoires. La fenêtre de contexte de 200K (1M en bêta pour les entreprises) évite que de grands ensembles de sources soient tronqués.

Benchmarks : ce que HLE et SimpleQA vous disent vraiment

Les deux chiffres les plus cités sont Humanity's Last Exam et SimpleQA. Ils sont utiles, et ils sont aussi surinterprétés.

Humanity's Last Exam (HLE), publié par Scale AI et le Center for AI Safety début 2025, est un benchmark multidomaine de 3 000 questions couvrant mathématiques, sciences, humanités et savoirs professionnels à la limite de ce que des experts peuvent répondre. OpenAI a déclaré 26,6 % pour Deep Research au lancement (OpenAI, 2 fév. 2025). Perplexity a déclaré 21,1 % pour Sonar Deep Research (Perplexity, 14 fév. 2025). Anthropic et Google n'ont pas publié de scores HLE pour leurs agents de recherche au moment où ces lignes sont écrites.

Ce que HLE mesure bien, c'est la capacité à synthétiser à travers des domaines sur des questions authentiquement difficiles. Ce qu'il ne mesure pas, c'est si l'agent est bon pour le genre de travail que vous faites vraiment. La plupart des recherches réelles ne sont pas de la physique doctorale. C'est « résumer les débats récents sur ce sujet » ou « comparer ces cinq produits pour mon usage ». Sur ces tâches, l'écart de benchmark entre OpenAI et Perplexity est bien plus petit que ce que 5,5 points de pourcentage laisseraient croire.

SimpleQA est la meilleure vitrine de Perplexity. Le benchmark teste l'exactitude factuelle en format court, et Sonar Deep Research a obtenu 93,9 % (Perplexity, 14 fév. 2025). C'est un proxy utile pour « l'agent invente-t-il des faits ? », ce qui compte beaucoup quand vous allez citer la sortie.

La lecture honnête : les benchmarks classent les outils de manière fiable dans la tranche des 80e-95e percentiles de difficulté, et mal en dessous. La meilleure façon de choisir est de faire tourner le même prompt réel sur deux ou trois d'entre eux avec le palier gratuit et de comparer. Les benchmarks sont suggestifs. Votre propre test est décisif.

Pour un argument plus long sur les dangers de l'obsession des benchmarks, voir The AI Thinking Trap.

Le palier gratuit à l'épreuve du réel

Les pages marketing mettent toutes en avant l'accès gratuit. Voici ce que « gratuit » signifie vraiment quand vous essayez d'utiliser ces outils pour du vrai travail.

OpenAI Deep Research (gratuit : 5/mois). De quoi évaluer, pas de quoi s'y fier. Un seul projet consomme souvent 2 à 3 exécutions (première passe, relance, clarification). Vous atteindrez le plafond au jour 10 si vous l'utilisez pour le travail. Plus à 20 $/mois pour 25 exécutions est le palier de départ réaliste.

Perplexity Deep Research (gratuit : 5/jour). Le plus généreux du lot. 5 par jour, c'est 150 par mois, plus que ce dont la plupart des gens ont besoin. La sortie du palier gratuit est plus courte que Pro, et vous n'avez pas les variantes Sonar les plus récentes. Pour un usage occasionnel, c'est le palier gratuit que vous gardez vraiment.

Gemini Deep Research (gratuit : accès limité). Déployé en version restreinte en 2025, avec une fréquence réduite et des rapports plus courts que sur AI Pro. Si vous avez déjà un abonnement Google One avec AI Pro, le plafond de 20 par jour est celui à viser.

Claude Research (Pro uniquement, 20 $/mois). Pas de palier gratuit dédié pour la fonction Research. Le plan gratuit inclut le chat et la recherche web, mais la recherche multi-étapes est derrière Pro. Pro inclut aussi l'accès complet à Sonnet 4.5 et Opus 4.5 de Claude, donc les 20 $ vous achètent le modèle de lecture long-contexte le plus robuste du marché.

Résumé du palier gratuit	Utilisable pour du vrai travail ?
OpenAI Deep Research (5/mois)	Évaluation uniquement
Perplexity Deep Research (5/jour)	Oui, pour un usage léger
Gemini Deep Research (limité)	Partiel, mieux avec AI Pro
Claude Research	Pas de palier gratuit

Si vous ne payez qu'un seul outil, Perplexity Pro offre le meilleur ratio volume-prix (500/mois) à 20 $. Si vous voulez la sortie la plus intelligente, ChatGPT Plus à 20 $ vous donne 25 exécutions OpenAI Deep Research plus tout le reste du bundle Plus. Pour les utilisateurs de Google Workspace, Gemini AI Pro est le choix naturel. Claude Pro fait le plus sens si vous utilisez déjà Claude pour lire et écrire et que vous voulez un seul abonnement intégré.

Quel outil pour quel travail

Après des centaines de requêtes sur les quatre, des schémas clairs émergent. Voici comment je répartirais le travail aujourd'hui.

Revue de littérature académique. Claude Research. La grande fenêtre de contexte compte quand l'agent doit garder 20 articles et plus en mémoire de travail, et Claude est nettement meilleur pour distinguer des affirmations superficiellement similaires. Les exécutions sont plus longues, mais les revues de littérature ne sont pas urgentes.

Dimensionnement de marché et intelligence concurrentielle. OpenAI Deep Research. La profondeur du raisonnement sur des questions stratégiques ambiguës (pourquoi un marché a crû, ce qui pousse les clients à changer) transparaît clairement ici. C'est celui en qui j'ai le plus confiance pour les prompts du type « aide-moi à comprendre ce secteur ».

Briefings factuels rapides. Perplexity Deep Research. Si vous avez juste besoin d'un résumé sourcé de deux pages avant une réunion, le délai de 3 minutes de Perplexity est difficile à battre. L'exactitude factuelle de style SimpleQA est une véritable force.

Décisions d'achat et comparaisons de produits. Perplexity ou Gemini. Les deux puisent suffisamment de données d'avis réels (forums, transcriptions YouTube, fiches techniques) pour produire des comparaisons utiles côte à côte. L'avantage de Gemini est d'intégrer vos propres reçus Gmail et notes Drive.

Recherche sur vos propres documents. Gemini Deep Research. L'intégration Workspace est le fossé défensif. Si vous recherchez un sujet dont la moitié des sources est dans votre Drive (notes de réunion, PDF, vieux e-mails), rien d'autre ne se compare.

Intégrations développeur et exécutions en masse. API Perplexity Sonar Deep Research. C'est la seule avec une tarification API réelle à un tarif raisonnable. Si vous construisez un produit qui a besoin de deep research comme fonctionnalité, c'est le choix évident.

Synthétiser des preuves contradictoires. Claude. Quand les sources sont en désaccord (par exemple, « les fibres sont-elles vraiment bonnes contre la diverticulite ? » ou « la technique Pomodoro fonctionne-t-elle ? »), Claude est le plus enclin à faire émerger le désaccord plutôt que de trancher prématurément.

Un schéma qui pourrait surprendre : aucun outil ne domine. Je fais passer le même prompt à deux agents pour un travail à enjeux élevés. Le coût est de 40 $/mois pour deux abonnements, et le bénéfice est une sortie nettement meilleure que ce que produit un seul outil. Le chat search et la deep research commencent à ressembler moins à des produits concurrents et plus à une pile que vous composez.

La pièce manquante : transformer les rapports en connaissance utilisable

Voici ce qu'aucun article de comparaison ne mentionne. Le rapport que produit l'agent n'est pas la sortie de votre recherche. Votre compréhension l'est.

Une sortie de 20 pages de Claude Research ou un rapport de 15 pages d'OpenAI Deep Research est le début du travail, pas la fin. Lisez-le une fois, parcourez la conclusion, fermez l'onglet, et vous avez payé un agent pour résumer quelque chose que vous n'avez pas vraiment appris. L'étude 2025 du MIT Media Lab sur l'usage passif de l'IA (suivie dans notre analyse de AI's impact on learning) a montré que les gros utilisateurs de ChatGPT retenaient systématiquement moins de ce qu'ils « lisaient » que les apprenants actifs.

La solution, c'est ce que les chercheurs font depuis des siècles : annoter. Surligner les affirmations qui comptent. Marquer les sources à vérifier. Relier les idées entre rapports.

C'est là que le surligneur web de Glasp s'inscrit dans le flux. Lancez votre recherche sur OpenAI, Perplexity, Gemini ou Claude. Collez le rapport dans une page lisible. Surlignez directement dans le navigateur pendant que vous lisez. Vos surlignages se synchronisent dans votre bibliothèque Glasp, recherchables et organisés, aux côtés de tout ce que vous avez lu ce mois-ci.

Quelques flux de travail spécifiques qui fonctionnent :

Surligner, puis re-requêter. Lisez le rapport, surlignez les 10 à 15 affirmations qui comptent le plus. Recollez ces surlignages dans le même agent avec « creuse ces points précis ». Itératif plutôt qu'un seul tir.

Empiler les rapports par sujet. Quand vous recherchez le même sujet sur deux outils (par exemple, OpenAI + Claude), surligner les deux rapports dans Glasp vous permet de voir où ils convergent et divergent. Les désaccords sont souvent les parties les plus intéressantes.

Utiliser YouTube à côté du texte. Quand les meilleures sources sont des podcasts ou des conférences, YouTube Summary vous donne des résumés au niveau de la transcription avec des horodatages. Associer un rapport de deep research textuel à 3 ou 4 conférences YouTube annotées couvre un sujet plus à fond que l'un ou l'autre seul.

Discuter avec vos surlignages. Le chat IA de Glasp peut répondre à des questions en utilisant vos annotations comme source. C'est la différence entre « qu'a dit GPT à propos de X ? » et « qu'ai-je vraiment conclu à propos de X ? ».

Publiez ce que vous avez appris. La communauté sur Glasp est pleine d'autres personnes qui recherchent des sujets similaires. Partager des rapports surlignés est une fonction forçante pour finir la recherche, pas seulement pour en empiler davantage. Pour un guide étape par étape, voir How to Annotate Articles the Right Way.

Un rapport lu une seule fois est un reçu, pas une connaissance. L'étape du surlignage et de l'annotation est ce qui convertit la sortie d'agent en quelque chose que vous savez vraiment.

Questions fréquemment posées

Quel outil de deep research est le plus précis ?

Sur les benchmarks publiés, OpenAI Deep Research est en tête à Humanity's Last Exam avec 26,6 % (OpenAI, fév. 2025) contre 21,1 % pour Perplexity (Perplexity, fév. 2025). Anthropic et Google n'ont pas publié de chiffres HLE pour leurs agents de recherche. Pour l'exactitude factuelle au format court, Perplexity Sonar a obtenu 93,9 % à SimpleQA, ce qui est excellent. En usage pratique, les écarts de précision entre OpenAI, Claude et Gemini sont plus petits que ce que les benchmarks laissent penser. La différence la plus grande est profondeur contre vitesse.

Combien de temps prennent les exécutions de deep research ?

Perplexity termine la plupart des exécutions en moins de 3 minutes. Gemini tourne typiquement en 5 à 15 minutes. OpenAI Deep Research prend 5 à 30 minutes selon la complexité de la requête. Claude Research peut s'étirer de 5 à 45 minutes sur les prompts difficiles. S'il vous faut une réponse maintenant, Perplexity. Si vous pouvez attendre, Claude ou OpenAI produisent généralement des rapports plus fouillés.

Un outil de deep research est-il vraiment gratuit ?

Oui, mais avec des limites. OpenAI donne aux utilisateurs gratuits 5 exécutions de Deep Research par mois. Perplexity donne 5 par jour sur le palier gratuit, ce qui est l'allocation la plus généreuse. Gemini propose un accès gratuit limité à Deep Research. Claude ne propose pas Research sur son palier gratuit. Pour un usage occasionnel, Perplexity gratuit couvre la plupart des besoins. Pour un travail régulier, un plan Pro à 20 $/mois sur l'un des quatre est le point d'entrée réaliste.

Puis-je utiliser les outils de deep research via API ?

Perplexity est actuellement le seul acteur majeur avec une véritable API de Deep Research. Sonar Deep Research a été lancé le 7 mars 2025 à 2 $ par million de tokens en entrée et 8 $ par million de tokens en sortie. OpenAI propose un accès à o3 via l'API, mais la boucle complète de l'agent Deep Research est liée à ChatGPT. Claude et Gemini ne proposent pas encore leurs fonctionnalités Research comme API autonomes, bien que leurs modèles sous-jacents (Sonnet 4.5, Opus 4.5, Gemini 2.5/3 Pro) soient disponibles.

La deep research remplace-t-elle la recherche traditionnelle ?

Non. La deep research est un complément, pas un remplacement. Pour un fait rapide, la recherche reste plus rapide. Pour une définition en deux phrases, discutez avec un LLM classique. La deep research l'emporte quand vous voulez un rapport structuré et sourcé sur une question à multiples facettes qui vous prendrait 30 minutes ou plus à assembler manuellement. La plupart des gens utilisent les trois.

Comment éviter les hallucinations dans les rapports de deep research ?

Trois tactiques pratiques. Premièrement, cliquez toujours sur au moins les 3 à 5 premières sources citées et vérifiez que l'affirmation se trouve bien dans la source (les hallucinations viennent plus souvent d'une mauvaise citation d'une vraie source que de l'invention d'une fausse). Deuxièmement, faites passer le même prompt par un second outil et comparez. Les désaccords entre Claude et OpenAI, par exemple, sont souvent les endroits où l'un d'eux s'est trompé. Troisièmement, privilégiez Perplexity pour les requêtes factuelles à enjeux élevés, car son score SimpleQA de 93,9 % reflète une calibration réelle sur les faits courts.

Les outils de deep research peuvent-ils lire mes documents privés ?

Gemini Deep Research a l'intégration la plus profonde, avec un accès natif à vos Gmail, Drive et Docs (avec permission). Claude Research prend en charge les connecteurs Google Workspace. OpenAI Deep Research peut lire les fichiers que vous téléversez pendant une session mais ne s'intègre pas directement au stockage cloud. Perplexity travaille principalement sur le web. Si votre matériel source est largement dans Google Workspace, Gemini est le choix évident.

Quelle est la meilleure façon de sauvegarder et réutiliser les rapports de deep research ?

Exportez le rapport en PDF ou Markdown, ouvrez-le dans une vue lisible et surlignez-le comme n'importe quel article long. Glasp est construit pour exactement ce flux : les surlignages se synchronisent dans une bibliothèque que vous pouvez rechercher, relier à d'autres surlignages et revisiter. Sans étape de surlignage, la plupart des rapports de deep research sont lus une fois et oubliés. C'est lié à ce que les éducateurs appellent « l'effet de génération » : l'information que vous traitez activement est bien mieux retenue que celle que vous recevez passivement.

Conclusion : la pile de recherche, pas l'outil de recherche

Un an après le lancement d'OpenAI, la catégorie s'est clarifiée. Les agents de deep research ne sont pas un marché du gagnant unique. C'est un mix à quatre joueurs où la bonne réponse dépend de ce que vous recherchez, du temps dont vous disposez, et de l'emplacement de votre matériel source.

Si je devais en choisir un pour la plupart des travailleurs du savoir en 2026, ce serait Perplexity Pro. Cinq cents exécutions par mois à 20 $ offrent le meilleur rapport volume-prix, les exécutions sont assez rapides pour s'insérer dans un rythme de travail normal, et la précision SimpleQA est réellement solide. Pour un travail plus lourd ou plus ambigu, associez-le à OpenAI Deep Research ou Claude Research.

Mais le choix de l'outil compte moins que ce que vous faites de la sortie. La plus grosse erreur que je vois les gens commettre est de traiter un rapport de deep research comme un travail fini. Il ne l'est pas. C'est de la matière première. La connaissance réelle se construit quand vous surlignez les affirmations qui comptent, les reliez à d'autres choses que vous avez lues, et y revenez plus tard quand le sujet se présente.

C'est le flux de travail pour lequel Glasp est conçu. Surlignez n'importe quel rapport, n'importe quel article, n'importe quelle transcription YouTube. Construisez une bibliothèque recherchable de ce que vous avez jugé important. Discutez avec vos surlignages plus tard quand vous avez besoin de vous souvenir d'un élément précis. Partagez votre travail avec d'autres qui font la même recherche.

Les agents de deep research continueront de s'améliorer. Ceux qui n'obtiennent pas aussi une couche de surlignage par-dessus continueront à produire des rapports lus une seule fois et oubliés. Ne construisez pas votre flux de recherche 2026 autour d'un seul outil. Construisez-le autour d'une pile, et assurez-vous que le dernier maillon de cette pile est celui où votre propre compréhension est enregistrée.

Commencez par faire passer une vraie question de recherche dans deux des quatre outils cette semaine. Surlignez les deux rapports. Comparez ce que vous avez appris. C'est le flux de travail. Le reste n'est qu'une liste de fonctionnalités.