Machines pensantes : quand devez-vous vraiment utiliser les modèles de raisonnement (o3, Claude Extended Thinking, DeepSeek R1) ?

Le plus grand changement silencieux de l'IA (sans utiliser le mot en P)

Pendant la majeure partie de 2022 et 2023, une IA plus grande signifiait des entraînements plus grands. Plus de paramètres, plus de données, plus de GPU. L'échelle pendant le pré-entraînement était censée continuer de tirer la capacité vers le haut.

Puis, en septembre 2024, OpenAI a présenté o1 en avant-première, un modèle qui ne semblait pas tant plus gros que plus lent. Posez-lui une question et il marquait une pause, parfois pendant une demi-minute, avant d'écrire quoi que ce soit. Le o1 complet a été livré avec ChatGPT Pro le 5 décembre à 15 $/60 $ par million de tokens (OpenAI, 2024). Ce n'était pas un modèle plus gros. C'était un modèle qui dépensait plus de calcul par requête.

Quelques semaines plus tard, OpenAI a annoncé o3. DeepSeek a ouvert R1 en open source le 20 janvier 2025 (DeepSeek-AI, 2025). Anthropic a intégré Extended Thinking dans Claude 3.7 Sonnet le 24 février 2025, avec un « thinking budget » ajustable par l'utilisateur et des traces de raisonnement brutes visibles (Anthropic, 2025). La fonctionnalité s'est poursuivie dans Claude 4, 4.5 et 4.7.

Le nom technique est « test-time compute scaling ». Au lieu de n'investir du calcul que pendant l'entraînement, le modèle reçoit plus de calcul pour penser pendant l'inférence. Comme le dit Sebastian Raschka dans « Understanding Reasoning LLMs », le changement silencieux n'est pas la façon dont ces modèles sont entraînés mais ce qui se passe une fois que vous appuyez sur entrée.

Pour les travailleurs du savoir et les apprenants, cela compte parce que le choix du modèle n'est plus seulement une question de qualité. C'est aussi une question de latence, une question de coût et une question d'adéquation à la tâche.

Ce qu'un modèle de raisonnement fait réellement différemment

Enlevez le jargon et un modèle de raisonnement fait quelque chose de simple. Avant d'écrire une réponse, il s'écrit un brouillon privé. Ce brouillon peut faire des centaines ou des milliers de tokens. Il explore des approches, vérifie le travail, revient en arrière, puis s'engage sur une réponse finale.

Un modèle de chat standard comme GPT-4o produit des tokens de gauche à droite, et ces tokens sont la réponse. Quel que soit le raisonnement qu'il fait, il est compressé dans ce qui tient dans cette passe avant. Prompt-le avec « pense étape par étape » et vous obtenez un peu plus de raisonnement sur le papier, mais le modèle sous-jacent n'est pas construit pour délibérer.

Un modèle de raisonnement est construit pour délibérer. Trois différences concrètes apparaissent en pratique :

Plus de tokens par requête. Les sorties de raisonnement contiennent souvent cinq à vingt fois plus de tokens cachés que la réponse visible.
Latence plus élevée. Les réponses prennent 10 à 60 secondes au lieu de 1 à 3.
Modes d'échec différents. Quand un modèle de raisonnement se trompe, il se trompe souvent de façon confiante et élaborée. Quand il a raison sur des problèmes difficiles, il a raison d'une manière qu'un modèle standard ne peut égaler.

L'article de DeepSeek dans Nature (2025) donne l'une des démonstrations les plus claires. Sur AIME 2024, leur modèle de base a obtenu 15,6 % pass@1. Après l'apprentissage par renforcement qui récompensait le raisonnement correct, R1 a obtenu 71,0 % pass@1 et 86,7 % avec vote majoritaire. Le modèle n'avait pas vu plus de données mathématiques. Il avait appris à utiliser les tokens d'inférence pour penser.

La question pratique pour nous autres est de savoir quand cette réflexion supplémentaire vaut le coup.

Les trois familles : o3, Claude Extended Thinking, DeepSeek R1

Trois produits dominent le paysage des modèles de raisonnement début 2026. Chacun prend un angle légèrement différent.

OpenAI o3 est l'option qui fracasse les benchmarks. Annoncé en décembre 2024, il a franchi pour la première fois le seuil humain d'environ 85 % sur ARC-AGI, atteignant 87,5 % en mode haut calcul et 75,7 % dans son palier efficacité (Chollet, ARC Prize, 2024). ARC-AGI est construit pour résister à la mémorisation de schémas, et aucun modèle précédent ne s'en était approché. Sur GPQA-Diamond, un benchmark de sciences de niveau doctoral, o3 a obtenu 87,7 % contre 76,0 % pour o1. OpenAI a réduit la tarification de o3 d'environ 80 % pendant 2025, à 2 $/8 $ par million de tokens, environ 7,5 fois moins cher que les tarifs originaux de o1.

Claude Extended Thinking est l'option réglable. Introduit avec Claude 3.7 Sonnet le 24 février 2025, il vous permet de définir un « thinking budget » par requête. Le raisonnement brut est visible dans la réponse API, utile pour le débogage et l'audit. La tarification reste à la tarification standard de Claude Sonnet, 3 $/15 $ par million de tokens, de sorte que la réflexion supplémentaire coûte en tokens supplémentaires mais pas en tarif premium.

DeepSeek R1 est l'option à poids ouverts. Sorti le 20 janvier 2025 sous licence MIT et publié plus tard dans Nature, R1 a été entraîné par apprentissage par renforcement appliqué directement à un modèle de base, sans données de raisonnement supervisées dans la phase initiale. Il a égalé o1-0912 sur AIME 2024 et a atteint 71,5 % sur GPQA-Diamond. Des variantes distillées de 1,5B à 70B paramètres ont rendu le raisonnement robuste exécutable sur un seul GPU. Une mise à jour, R1-0528, a poussé AIME 2025 à 87,5 %.

Ces trois couvrent l'espace : haut de gamme propriétaire (o3), réglable et transparent (Claude), et poids ouverts (DeepSeek R1).

Benchmarks, lus honnêtement

Les chiffres sans contexte sont trompeurs. Voici comment se comparent les grands benchmarks de raisonnement, avec un modèle de chat standard inclus comme référence.

Modèle	GPQA-Diamond	AIME 2024 (pass@1)	ARC-AGI (semi-privé)	Coût typique par requête	Latence par réponse
GPT-4o (standard)	~48 %	~13 %	~5 %	~0,01 $	1 à 3 s
DeepSeek R1	71,5 %	71,0 % (86,7 % avec vote majoritaire)	~15 %	~0,005 $ (hébergé)	15 à 40 s
Claude 4.5 Extended Thinking	~83 %	~80 %	~50 % (budget élevé)	~0,05 $ à 0,30 $	10 à 40 s
OpenAI o3	87,7 %	~90 %	75,7 % (efficace) / 87,5 % (élevé)	~0,05 $ à 2,00 $+	20 à 60 s

Sources : annonce OpenAI o3 (déc. 2024), blog ARC Prize (Chollet, 2024), DeepSeek-R1 (Nature 2025), notes de version Anthropic. La latence et le coût varient selon la longueur du prompt et le thinking budget.

Quelques points à garder à l'esprit en lisant ces chiffres :

GPQA-Diamond est un ensemble de questions de sciences de niveau doctoral conçues pour que les non-experts avec accès au web s'en sortent mal. Un score élevé signifie que le modèle peut raisonner au niveau d'un doctorant. Il ne signifie pas qu'il est un meilleur rédacteur ou résumeur.

AIME est une compétition pré-olympiade. Des scores au-dessus de 70 % signifient que le modèle peut résoudre des problèmes que s'attaquent grosso modo les 2 % meilleurs lycéens américains. AIME se généralise faiblement aux maths du quotidien comme la prévision ou les feuilles de calcul.

ARC-AGI a été construit par François Chollet pour résister à la mémorisation. Les tâches sont des puzzles visuels où les règles sont montrées par l'exemple. Les modèles pré-raisonnement obtenaient des scores à un chiffre. Le bond de o3 a été réellement surprenant pour les chercheurs. ARC-AGI n'est toutefois pas un proxy de l'utilité pratique. Il mesure une forme spécifique de généralisation abstraite.

Un modèle qui domine ces benchmarks n'est pas automatiquement meilleur pour un plan de lancement produit, un résumé de livre ou un e-mail client.

Quand le raisonnement aide

Les modèles de raisonnement gagnent leur place sur les tâches ayant trois propriétés : étapes multiples, réponses vérifiables et coût élevé d'erreur.

Mathématiques à plusieurs étapes et raisonnement quantitatif. Calculs fiscaux avec conditions multiples. Modèles financiers où un chiffre transposé change la réponse. Calculs d'ingénierie avec conversions d'unités. Le bond de 55 points que DeepSeek R1 a obtenu sur AIME venait exactement de ce type de problème.

Génération et débogage de code pour des tâches non triviales. « Écris une fonction qui trie une liste » n'a pas besoin de raisonnement. Refactoriser un module de 300 lignes tout en préservant le comportement, déboguer une race condition, ou implémenter un algorithme issu d'un article, oui.

Analyse juridique et réglementaire. Revue de contrat avec clauses croisées. Questions de conformité où la réponse dépend de la façon dont plusieurs règles interagissent. Beaucoup d'équipes juridiques utilisent désormais des modèles de raisonnement pour l'analyse de première passe, avec un avocat qui relit la sortie.

Routage complexe de RAG. Quand un système de récupération doit décider lequel de dix index interroger, reformuler la requête et synthétiser entre sources, un modèle de raisonnement dans le rôle d'orchestrateur produit des plans notablement meilleurs.

Synthèse de littérature. Lire plusieurs articles et identifier où ils concordent, divergent, et ce qui manque est le genre de comparaison-contraste que les modèles de raisonnement gèrent bien. Si vous avez utilisé le chat IA de Glasp pour tirer des thèmes à travers des surlignages, escalader vers un modèle de raisonnement pour la synthèse finale est là où vous ressentez la plus grande différence.

Questions scientifiques ou techniques difficiles. Si votre travail implique de la chimie, de la physique ou de la biologie de niveau doctoral, un écart de benchmark de 40 points se traduit par de vraies réponses que le modèle standard ne peut produire.

Heuristique : si vous voudriez qu'un collègue vérifie la réponse avant de lui faire confiance, un modèle de raisonnement vaut probablement l'attente.

Quand le raisonnement nuit

Les modèles de raisonnement échouent de manière intéressante. Et sur une fraction étonnamment grande des tâches quotidiennes, ils sous-performent les modèles de chat standard.

Rappel factuel simple. Quand la bonne réponse est un fait que le modèle connaît déjà, les tokens de réflexion supplémentaires lui donnent plus de chances de se remettre en question. Une étude de 2025 a rapporté que les modèles de raisonnement perdaient 2,4 % à 3,8 % de précision sur le rappel factuel de base. Les modèles considèrent des alternatives à la bonne réponse et s'engagent parfois sur l'une d'elles.

Traduction. Une bonne traduction est un problème de correspondance de schémas, pas un problème de raisonnement. Les modèles de raisonnement ne traduisent pas mieux que GPT-4o, et ils prennent 20 fois plus de temps.

Résumé. Si vous condensez 5 000 mots en 300, le goulet d'étranglement est la qualité d'écriture, pas la profondeur de raisonnement. Les modèles de chat standard sont plus rapides et produisent souvent une prose plus propre. Notre article sur le flux de travail de recherche IA entre plus en détail.

Classification. Étiqueter des tickets de support, labelliser des e-mails, noter le sentiment. Le raisonnement ajoute de la latence sans précision.

Questions-réponses simples. « En quelle année a eu lieu l'alunissage ? » ne s'améliore pas avec la chaîne de pensée. Le chat standard gère cela en une demi-seconde.

Écriture créative qui a besoin de voix. Les traces de raisonnement sont analytiques. Les modèles fortement entraînés au raisonnement produisent parfois des réponses qui semblent mécaniques quand on demande un poème ou un passage émotionnel. Les modèles de chat standard semblent plus chaleureux.

Un mode d'échec plus subtil est documenté dans arXiv 2509.09677, « Illusion of Diminishing Returns ». Les auteurs constatent que les bénéfices d'exécution à long horizon s'amenuisent fortement. Les gains précoces sont réels, mais la précision marginale de 10 000 tokens de raisonnement supplémentaires chute vite. Passé un certain point, plus de réflexion rend juste la réponse plus tardive et plus coûteuse.

La latence est un problème en soi. La plupart des utilisateurs interprètent 30 secondes de silence comme un système cassé. Les produits ajoutent souvent une UI de « réflexion » visible pour rassurer les utilisateurs que quelque chose se passe. Si vous intégrez l'IA dans un flux serré, cette friction compte.

Une règle de décision que vous pouvez vraiment utiliser

Voici une matrice pratique. Grossière, mais elle couvre la plupart de ce que vous rencontrerez.

Type de tâche	Modèle de raisonnement	Modèle de chat standard
Maths à plusieurs étapes ou preuves	Oui, clairement	Non
Code pour des fonctionnalités non triviales	Oui	Seulement pour les snippets simples
Analyse juridique / contractuelle	Oui	Non
Routage complexe de requêtes RAG	Oui	Non
Q&R scientifique ou technique (niveau doctorat)	Oui	Non
Synthèse de littérature sur 5+ sources	Oui (passe finale)	Oui (première passe)
Traduction	Non	Oui
Résumé	Non	Oui
Rédaction d'e-mails	Non	Oui
Classification / étiquetage	Non	Oui
Q&R factuelle courte	Non	Oui
Écriture créative nécessitant une voix	Habituellement non	Oui
Interfaces de chat à latence serrée	Non	Oui
Brainstorming	Parfois	Habituellement oui

La règle peut être compressée. Posez trois questions :

Le problème est-il multi-étapes ? Nécessite-t-il plusieurs mouvements logiques enchaînés ?
La réponse est-elle vérifiable ? Pouvez-vous dire quand c'est juste ou faux ?
Le coût d'erreur est-il élevé ? Une erreur gaspillerait-elle beaucoup de temps ou d'argent ?

Si au moins deux sont oui, utilisez un modèle de raisonnement. Sinon, épargnez la latence. Si vous n'êtes pas sûr, essayez d'abord le modèle standard et escaladez si la réponse semble bancale.

Ce schéma, commencer bon marché et n'escalader qu'au besoin, est l'une des compétences les plus sous-estimées dans le travail avec l'IA. Nous avons creusé dans le flux de travail de recherche IA.

Ce que cela signifie pour la lecture et la recherche

Si vous lisez, apprenez et cherchez dans le cadre de votre travail, les modèles de raisonnement occupent un créneau précis, pas tout le flux de travail.

L'essentiel du travail d'apprentissage n'est pas le raisonnement. C'est l'attention. Vous choisissez quelles sources comptent, vous concentrez sur ce qui est nouveau et construisez une carte personnelle des idées au fil du temps. Aucun modèle ne fait cela pour vous. C'est pourquoi le surligneur web de Glasp est construit autour de l'étape humaine d'abord : vous surlignez ce qui compte, et l'IA intervient plus tard comme partenaire de pensée, pas comme remplaçant.

Pour la plupart des tâches de lecture quotidiennes, un modèle de chat standard est le bon outil :

Résume un article que je viens de lire. Modèle standard, rapide et propre.
Explique un concept que je n'ai pas compris dans cet article. Modèle standard. Si le concept est une affirmation scientifique de niveau doctoral, escaladez.
Tire toutes les citations sur la sécurité de l'IA de mes surlignages de ce mois-ci. Modèle standard.
Génère des flashcards à partir de mes notes. Modèle standard.

Les modèles de raisonnement gagnent leur place dans un ensemble plus restreint de travaux :

Synthétise le désaccord entre cinq auteurs sur un sujet. Modèle de raisonnement, de préférence après que vous avez surligné les passages pertinents.
Fais correspondre l'argument de cet article à mes notes existantes et signale les contradictions. Modèle de raisonnement.
Conçois un plan de lecture qui vise mes lacunes d'après ce que j'ai déjà lu. Modèle de raisonnement.
Déduis une preuve ou traite un argument technique complexe à partir des premiers principes. Modèle de raisonnement.

Le flux YouTube Summary en est un bon exemple. Résumer une conférence de 40 minutes est fermement une tâche pour modèle standard. Mais si la conférence est technique et que vous voulez vérifier si l'argument du conférencier tient face à trois contre-arguments que vous avez sauvegardés ailleurs, c'est là qu'escalader vers un modèle de raisonnement avec vos surlignages comme contexte gagne son coût.

Cette approche à deux niveaux se connecte à un point plus large de l'impact de l'IA sur l'apprentissage et du piège de la pensée IA : l'IA est la plus utile quand elle amplifie une pensée que vous avez déjà faite, pas quand elle se substitue à une pensée que vous n'avez pas faite. Les modèles de raisonnement élèvent le plafond de ce que l'IA peut apporter. Ils ne changent pas le plancher, qui est fixé par la profondeur avec laquelle vous avez engagé votre matériel.

La licence MIT de DeepSeek R1 a aussi brisé un schéma. Jusqu'en 2025, le raisonnement robuste était propriétaire. Maintenant, n'importe qui peut faire tourner un raisonneur distillé 70B sur son propre matériel. Pour les équipes qui se soucient de confidentialité, de coût à grande échelle ou de fine-tuning, cela change le calcul. Nous l'avons couvert dans Open Source vs Closed AI Strategy.

Questions fréquemment posées

Ai-je besoin d'un modèle de raisonnement pour la plupart de mon travail ?

Probablement pas. Pour la lecture, l'écriture, le résumé et les Q&R générales, un modèle de chat standard est plus rapide, moins cher et souvent plus précis. Les modèles de raisonnement gagnent leur place sur les problèmes avec plusieurs étapes logiques et des réponses vérifiables.

Quelle est la différence entre le prompting chain-of-thought et un modèle de raisonnement ?

Le prompting chain-of-thought est une technique où vous dites à un modèle standard de « penser étape par étape » dans le prompt. Un modèle de raisonnement est entraîné spécifiquement pour générer des traces de raisonnement internes bien plus longues avant de répondre, en utilisant l'apprentissage par renforcement qui récompense le raisonnement correct. Vous pouvez obtenir une partie du bénéfice avec le prompting chain-of-thought seul, mais l'écart sur les benchmarks difficiles entre GPT-4o prompté et o3 reste grand, souvent 20 à 40 points de pourcentage.

Pourquoi o3 coûte-t-il tellement moins que o1 ?

OpenAI a réduit la tarification de o3 d'environ 80 % pendant 2025, atterrissant autour de 2 $ par million de tokens en entrée et 8 $ par million en sortie. Les réductions venaient de la distillation de modèles, des optimisations d'inférence et d'une efficacité matérielle accrue. Les modèles de raisonnement restent plus chers par requête que les modèles de chat standard parce qu'ils génèrent bien plus de tokens, mais l'écart par token a significativement diminué.

DeepSeek R1 est-il vraiment compétitif avec o3 ?

Sur les benchmarks mathématiques comme AIME 2024 et GPQA-Diamond, R1 est proche de o1 mais toujours derrière o3. Sur ARC-AGI, o3 garde une nette avance. Là où R1 gagne, c'est en flexibilité. Il est à poids ouverts sous licence MIT, vous pouvez l'auto-héberger, et les variantes distillées de 1,5B à 70B paramètres le rendent pratique sur du matériel courant. Pour les équipes qui se soucient de la résidence des données, du fine-tuning ou du coût à grande échelle, R1 est souvent le meilleur choix même quand il est quelques points de pourcentage derrière sur les benchmarks.

Comment savoir si un modèle de raisonnement sur-réfléchit ma question ?

Deux signes. Premièrement, la latence semble absurde pour la question que vous avez posée, genre 45 secondes pour « que veut dire ce mot ». Deuxièmement, la réponse hésite plus qu'elle ne le devrait et introduit des réserves dont la question n'avait pas besoin. La baisse de précision de 2,4 % à 3,8 % sur le rappel factuel simple documentée par la recherche de 2025 vient majoritairement de ce schéma de sur-réflexion. Si vous le voyez, passez à un modèle standard.

Puis-je utiliser à la fois des modèles de raisonnement et standard dans le même flux de travail ?

Oui, et c'est souvent le meilleur montage. Utilisez un modèle standard pour le travail rapide et à gros volume (résumer, rédiger, classifier) et escaladez vers un modèle de raisonnement pour le petit nombre de requêtes qui nécessitent de la délibération. Claude 3.7 Sonnet a rendu cela explicite avec un curseur de thinking budget, et l'API d'OpenAI vous permet de router librement entre GPT-4o et o3.

Glasp utilise-t-il des modèles de raisonnement ?

Le chat IA de Glasp est optimisé pour des réponses rapides et conversationnelles sur vos surlignages, donc il utilise par défaut des modèles de chat standard pour la plupart des interactions. Pour des cas d'usage spécifiques qui bénéficient d'une analyse plus profonde, comme synthétiser à travers de nombreux surlignages ou comparer des arguments de sources multiples, les modèles de raisonnement font partie de la boîte à outils. Le principe est le même que celui que nous vous suggérerions de suivre dans votre propre travail : adaptez le modèle à la question.

Les modèles de chat standard finiront-ils par faire tout ce que font les modèles de raisonnement ?

L'écart se resserre. Les modèles standard plus récents intègrent des techniques issues de l'entraînement de raisonnement, et les modèles de raisonnement deviennent plus rapides et moins chers. D'ici 2027, la distinction pourrait s'estomper en un seul modèle qui dépense plus ou moins de calcul selon la requête. Pour l'instant, les deux modes sont suffisamment distincts pour que les traiter comme des outils séparés paie.

Conclusion : adaptez le modèle à la question

Le grand basculement de 2024 et 2025 n'était pas que l'IA soit devenue plus intelligente au sens où on l'entendait. Un nouveau type de modèle est apparu qui échange la vitesse contre la profondeur. Ce compromis est réel et mesurable. Un modèle de raisonnement peut doubler votre précision sur les maths difficiles et perdre trois points sur les Q&R simples dans le même après-midi.

Le choix du modèle fait désormais partie du métier. Rapide et bon marché pour la plupart des choses. Lent et profond pour le petit ensemble de problèmes où le calcul supplémentaire gagne sa place. La règle qui fonctionne en pratique : demandez si le problème est multi-étapes, vérifiable et coûteux en cas d'erreur. Si deux de ces éléments sont oui, utilisez un modèle de raisonnement. Sinon, utilisez un modèle de chat standard.

Les modèles de raisonnement ne rendent pas la pensée optionnelle. Ils rendent un type précis de pensée moins cher et plus fiable quand vous en avez réellement besoin. Le reste du temps, un modèle standard reste votre meilleur outil, et votre propre attention reste la partie qui compte le plus. C'est le cadrage vers lequel Glasp a toujours poussé : l'IA amplifie ce que vous avez déjà surligné et connecté. Choisissez le bon modèle, et vous tirez plus de chaque requête. Choisissez le mauvais, et vous attendez simplement plus longtemps pour une réponse plus mauvaise.