Pourquoi la Détection d'Hallucination Est une Compétence du Travailleur du Savoir, Pas d'un Ingénieur
Les équipes de machine learning ont une stack pour cela. Lakera, Galileo, Patronus, Arize et une douzaine d'autres fournisseurs vont scorer, journaliser et alerter sur chaque hallucination que leur modèle produit en production. Il y a des harnais d'évaluation, des budgets red-team, et des ingénieurs MLOps dédiés dont la description de poste inclut le mot "factualité".
Les travailleurs du savoir n'ont rien de tout cela. Un avocat rédigeant un mémo, un chercheur écrivant une revue de littérature, un product manager extrayant un graphique de taille de marché, un étudiant rédigeant un essai. Ils obtiennent le même modèle que les ingénieurs, sans aucun garde-fou. Le résultat atterrit dans leur document, et de là, dans des dépôts judiciaires, des decks de conseil d'administration et des copies notées.
Le groupe Human-Centered AI de Stanford a rendu cela concret en 2024. Leur article Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools par Magesh, Surani, Dahl et collègues a testé des outils IA juridiques commerciaux qui utilisent explicitement la récupération sur la jurisprudence vérifiée. Même avec récupération, les systèmes hallucinaient sur entre 17 % et 33 % des requêtes selon l'outil. Les modèles à usage général sans récupération étaient bien pires, avec des taux d'hallucination signalés entre 58 % et 82 % sur les questions juridiques. Ce sont des outils vendus spécifiquement pour des travaux à enjeux élevés.
Le classement HHEM-2.1 de Vectara, qui note la fidélité de la résumé à travers les modèles de pointe, montre que le paysage grand public est bien meilleur dans les tâches étroites. Le haut du classement 2026 se situe dans la fourchette 1-3 % pour GPT-5, Claude 4.6 et Gemini 2.5 lorsque la tâche est "résume ce document que je viens de te donner". Mais ce benchmark mesure la fidélité à une source fournie. Ce n'est pas la même chose que la factualité sur des questions ouvertes, où le modèle doit se souvenir des choses depuis l'entraînement plutôt que de les lire sur la page devant lui. Sur les requêtes de faits inédits, chaque étude publique met encore l'hallucination à deux chiffres.
L'asymétrie est l'essentiel. Le modèle est excellent pour avoir l'air juste et seulement bon pour avoir raison. Détecter l'écart est une compétence, pas un outil. Cet article est le manuel.
Une Brève Introduction : Trois Choses Que "Hallucination" Signifie Vraiment
Le mot est utilisé de façon vague. Trois choses méritent d'être distinguées.
La fabrication pure est un contenu qui n'était dans aucune source : personnes inventées, études inventées, citations inventées. Le modèle génère une phrase plausible dont les référents n'existent nulle part sur Terre.
Plausible-mais-faux est un contenu qui pointe vers des choses réelles mais les obtient de travers. Un véritable auteur associé à un article qu'il n'a jamais écrit. Un véritable statut cité pour une proposition qu'il n'a jamais faite. Une vraie entreprise assignée à la mauvaise année de fondation. Les référents existent ; les relations non.
Vrai-mais-non-soutenu est le plus délicat. L'affirmation se trouve être vraie, mais le modèle n'a pas de réel ancrage pour cela. Il a deviné et a eu de la chance. Cela compte parce que si vous contestez une affirmation vraie-mais-non-soutenue et demandez des sources, le modèle va halluciner des sources, parce que c'est ce qui manquait au départ.
L'hallucination n'est pas la même chose qu'une mauvaise réponse. Si vous demandez à un modèle ce que font 17 fois 24 et qu'il dit 410, c'est une mauvaise réponse, pas une hallucination. Le modèle a effectué une opération et s'est trompé. L'hallucination, c'est quand le modèle invente du contenu plutôt que de le calculer. L'article OpenAI 2025 Why Language Models Hallucinate cadre cela comme un problème d'incitation à l'entraînement : les modèles sont notés sur la production de réponses, pas sur le fait de dire "je ne sais pas", donc ils apprennent à produire avec confiance du texte en l'absence d'ancrage.
Avec ces distinctions en main, les schémas deviennent plus faciles à repérer.
Schéma 1 : Over-Confident Specificity
Le premier indice est lorsqu'une IA vous donne des informations inhabituellement précises qu'elle n'a aucune raison de connaître.
Vous posez une question générale sur, disons, l'attention dans les modèles transformer, et la réponse revient : "Dans l'article original de 2017 par Vaswani et al., les auteurs ont utilisé 8 têtes d'attention avec une dimension de 64 chacune, et ont rapporté un score BLEU de 28,4 sur la tâche WMT 2014 anglais-vers-allemand". Une partie est juste. Une partie est de la décoration. Le modèle est confiant et précis sur le tout également.
Over-Confident Specificity est le schéma. Le modèle cherche la précision parce que la précision sonne autoritaire, et la récompense d'entraînement favorise les réponses au son autoritaire. La nuance est pénalisée dans les données de préférence humaine, donc les modèles apprennent à s'engager. Le résultat est un paragraphe où les faits porteurs et les faits décoratifs sont présentés sur le même ton de voix.
Le contrôle de 60 secondes consiste à recoller une affirmation spécifique et à demander la source exacte. Pas "où as-tu trouvé ça", que le modèle contournera. Utilisez : "Cite la phrase exacte de la source originale qui soutient cette affirmation, avec le numéro de page". Regardez ce qui se passe. Si le nom de la source du modèle change d'une réponse à l'autre, ou s'il offre un nombre légèrement différent au deuxième passage, vous avez une hallucination. Le vrai rappel est stable à travers les reformulations. La confabulation dérive.
Un deuxième indice : demandez un fait précis que vous connaissez de votre propre lecture. Si le modèle se trompe sur votre fait connu-bon avec une petite marge, chaque autre fait dans ce paragraphe est suspect.
Schéma 2 : Phantom Citation
L'affaire d'hallucination la plus célèbre dans le droit est Mata v. Avianca, Inc., 22-cv-1461 (S.D.N.Y. 2023), dans laquelle l'avocat Steven Schwartz a déposé un mémoire citant six avis judiciaires que ChatGPT avait inventés de toutes pièces. Les noms d'affaires semblaient plausibles. Les citations de reporter étaient correctement formatées. Les juges avaient des noms qui sonnaient réels. Aucune des affaires n'existait. Le juge Castel a sanctionné Schwartz à hauteur de 5 000 $ et l'affaire est devenue un exemple d'entraînement permanent dans les programmes de CLE juridique.
Phantom Citation est le schéma. Les modèles inventent des DOI, ISBN, volumes de revue, plages de pages et titres de livres. Parfois la revue est réelle et l'article est faux. Parfois l'auteur est réel et l'œuvre est fausse. Parfois l'URL se parse mais la page renvoie un 404. Le taux d'hallucination sur les citations académiques spécifiquement est documenté comme étant élevé ; les travaux Princeton GEO et plusieurs suivis ont montré que même les systèmes augmentés par récupération font souvent remonter des citations qui mésattribuent ou citent erronément.
Le contrôle de 60 secondes est brutalement simple. Copiez la citation. Collez-la dans Google Scholar entre guillemets. Si vous n'obtenez pas de correspondance exacte, la citation est fausse. Pour les titres de livres, recherchez le titre exact plus le nom de l'auteur sur Google Books. Pour les URL, cliquez dessus. Une citation que vous n'avez pas vérifiée personnellement en cliquant est une citation que vous n'avez pas.
Un prompt utile à ajouter à n'importe quel chat en mode recherche : "Pour chaque citation que tu me donnes, inclus une URL directe sur laquelle je peux cliquer. Si tu ne peux pas fournir d'URL, marque la citation comme non vérifiée". Cela n'élimine pas les fantômes, parce que le modèle hallucinera parfois aussi des URL, mais cela augmente le coût de la fabrication et rend la vérification plus rapide.
Schéma 3 : Consensus Mirage
Lorsqu'un modèle dit "la recherche montre" ou "des études ont trouvé" ou "les experts s'accordent", il fait une de trois choses. Il résume un consensus réel. Il surestime un consensus réel. Ou il invente un consensus qui n'existe pas sur un sujet où la littérature est mince ou contestée.
Consensus Mirage est le troisième cas. Il a tendance à apparaître sur des questions où la recherche réelle est rare. Nouveaux domaines. Industries de niche. Sujets émergents récemment où il y a six articles, pas six cents. Le modèle continue de chercher "la recherche montre" parce que c'est le registre que les données d'entraînement lui ont appris à utiliser pour toute affirmation factuelle.
Le contrôle de 60 secondes est de demander des noms. "Quels chercheurs ont trouvé cela ? En quelle année ? À quelle institution ?" Si le modèle produit de vrais noms avec de vraies affiliations, vous pouvez vérifier en 30 secondes en cherchant leurs listes de publications. Si le modèle produit des références vagues comme "des chercheurs des meilleures universités ont montré" ou "une étude de 2023 a trouvé", vous n'avez rien à vérifier, et c'est l'indice. La vague en réponse à une demande de spécificité est une signature d'hallucination.
Une sonde plus forte est de demander la vue dissidente. "Quelle est la critique la plus forte de ce consensus ?" Un modèle qui a réellement lu une littérature peut nommer les dissidents. Un modèle qui a confabulé un consensus produira une dissidence structurellement identique au consensus, juste avec la polarité inversée. Cette symétrie est aussi un indice.
Schéma 4 : Plausible-but-Wrong Number
Les nombres sont l'hallucination la plus facile à manquer parce que nous ne les revérifions pas dans nos têtes.
Surveillez les statistiques décalées d'un facteur dix, les dates décalées d'un an ou deux, les tailles de marché décalées de 20 %, les pourcentages inversés (47 % devient 53 %, parce que le modèle a interverti le groupe qu'il décrivait). La plausibilité vient du fait que l'ordre de grandeur approximatif est correct. L'erreur est dans la précision.
Plausible-but-Wrong Number est le schéma. Il est particulièrement courant lorsque le modèle résume un nombre d'une source qu'il a paraphrasée plutôt que citée. Les erreurs d'arrondi se cumulent. Un chiffre qui était "2,3 milliards $" dans l'original devient "2,5 milliards $" dans le résumé parce que le modèle reconstruit plutôt que de copier.
Le contrôle de 60 secondes consiste à demander : "Quelle est la source exacte de ce nombre, y compris la page ou le paragraphe ?" Puis vérifiez la source. La moitié du temps, le nombre dans la source est différent. L'autre moitié, la source elle-même ne dit pas ce que le modèle a prétendu qu'elle disait, ce qui est un schéma entièrement différent.
Pour tout nombre que vous prévoyez de mettre dans un document public, la règle est simple. Si vous ne pouvez pas pointer la source originale et lire le nombre de vos propres yeux, n'utilisez pas le nombre. L'IA est excellente pour trouver le candidat. Elle n'est pas encore assez bonne pour être la citation.
Schéma 5 : Source Name Swap
Le dernier schéma est celui qui attrape les personnes prudentes.
Un modèle attribue une véritable affirmation à la mauvaise source. L'effet Hawthorne est crédité à Frederick Taylor au lieu d'Elton Mayo. Le test du marshmallow est crédité à Daniel Kahneman au lieu de Walter Mischel. Une ligne de The Effective Executive est créditée à The Practice of Management parce que les deux sont de Drucker et que le modèle les a confondus.
Source Name Swap est le schéma, et c'est dangereux parce que l'affirmation sous-jacente est vraie. Vous vérifiez l'affirmation, voyez qu'elle tient, et manquez le fait que l'attribution est fausse. Puis votre document sort avec une citation qu'un véritable lecteur de l'œuvre originale attrapera immédiatement.
Le contrôle de 60 secondes consiste à rechercher la phrase exacte citée, entre guillemets, sur Google ou Google Scholar. Si la phrase apparaît, vous verrez dans quelle œuvre elle apparaît. Si votre modèle l'a attribuée à une autre œuvre, vous avez un Source Name Swap. Si la phrase n'apparaît pas du tout dans aucun texte indexé, vous avez peut-être une Phantom Citation à la place, ou le modèle a paraphrasé sans vous le dire.
Une habitude fiable : lorsque vous demandez une citation à un modèle, demandez-lui de marquer tout ce qui est paraphrasé plutôt que verbatim. Puis traitez la paraphrase de la même façon que vous traiteriez votre propre paraphrase, avec la source épinglée avant qu'elle n'aille où que ce soit publiquement.
Les Cinq Schémas en un Coup d'Œil
| Schéma | À Quoi Cela Ressemble | Exemple | Contrôle de 60 Secondes | Déclencheurs Communs |
|---|---|---|---|---|
| Over-Confident Specificity | Nombres, dates ou noms propres inhabituellement précis intégrés dans un paragraphe confiant | "L'article Vaswani 2017 a utilisé 8 têtes, dim 64, BLEU 28,4 sur WMT'14" avec un nombre faux | Demander la citation source exacte avec numéro de page ; reformuler la question et observer la dérive | Questions techniques où un véritable article existe dans les données d'entraînement |
| Phantom Citation | Citations académiques, titres de livres ou URL d'apparence plausible qui ne se résolvent pas | "Voir Johnson & Lee, 2019, Journal of Cognitive Science, 47(3), 211-228" sans tel article | Coller la citation entre guillemets dans Google Scholar ; cliquer chaque URL | Prompts de recherche, juridiques et académiques |
| Consensus Mirage | "La recherche montre", "les études trouvent", "les experts s'accordent" sur des sujets minces ou contestés | "Les études montrent que le télétravail augmente la productivité de 13 %" sans étude spécifique nommée | Demander noms de chercheurs, année, institution ; demander la dissidence la plus forte | Sujets tendance ou de niche avec littérature rare |
| Plausible-but-Wrong Number | Statistiques décalées d'un facteur, pourcentage inversé, date décalée d'un an ou deux | "Marché de 2,3 milliards $" rapporté comme "2,5 milliards $" | Demander source et page exactes ; vérifier contre l'original | Résumés qui paraphrasent les affirmations numériques |
| Source Name Swap | Véritable affirmation, mauvais auteur ou mauvaise œuvre | Effet Hawthorne attribué à Taylor au lieu de Mayo | Rechercher la phrase exacte entre guillemets sur Google Scholar | Connaissance de domaine adjacent, corpus d'œuvres multi-auteurs |
Imprimez cela. Collez-le sur un mur. La plupart des hallucinations que vous verrez en un an correspondent à l'un de ces cinq.
Le Protocole de Vérification de 60 Secondes
Vérifier chaque phrase d'une sortie IA est une journée entière de travail. Vérifier les affirmations qui comptent prend environ une minute chacune. Voici le protocole.
Étape 1 : Identifier l'affirmation porteuse. Lisez la sortie IA et soulignez les deux ou trois affirmations qui, si fausses, rendraient le document faux. Tout le reste peut attendre. La plupart des paragraphes ont une affirmation porteuse et plusieurs décoratives. Visez votre budget de vérification sur les porteuses.
Étape 2 : La rechercher entre guillemets. Prenez la phrase la plus spécifique de l'affirmation porteuse, mettez-la entre guillemets, et cherchez sur Google ou Google Scholar. Si la phrase apparaît dans une source réelle, vous avez de l'ancrage. Si elle n'apparaît nulle part, vous avez presque certainement une hallucination d'une certaine forme.
Étape 3 : Recouper la source. Ouvrez la source que l'IA a citée. Trouvez la phrase réelle que l'IA paraphrasait. Lisez-la. Confirmez qu'elle dit ce que l'IA a dit qu'elle disait. Environ 30 % du temps, la source existe mais ne soutient pas réellement l'affirmation, ce qui est son propre schéma d'erreur.
Étape 4 : Demander à l'IA d'argumenter contre elle-même. Recollez l'affirmation dans le chat avec ce prompt : "Quelle est la critique la plus forte de cette affirmation ? Que dirait un sceptique attentif ?" Les modèles sont étonnamment bons à cela. La critique fait souvent émerger l'endroit exact où la réponse originale a dépassé. Si le modèle ne peut pas produire de vraie critique, c'est aussi informatif : cela signifie généralement qu'il n'y avait pas de réel ancrage pour argumenter au départ.
Une version pratique pour usage quotidien : copiez l'affirmation de l'IA, ouvrez un nouvel onglet, recherchez la phrase la plus spécifique entre guillemets, et cliquez sur la première source réelle. Cela seul attrape la plupart des Phantom Citations et la plupart des Source Name Swaps. Les autres étapes sont pour le travail à enjeux élevés.
Pour une vue plus approfondie sur pourquoi "laisser l'IA penser pour vous" tourne mal même quand les faits sont vérifiés, voir the AI thinking trap. Le protocole de vérification est le plancher. Le travail de réflexion vous appartient encore.
Un Cadre de Calibration de la Confiance : Vérification Fondée sur les Enjeux
Toutes les sorties IA ne méritent pas le protocole complet. Calibrer l'effort sur les enjeux est la différence entre la paranoïa et la discipline.
Faibles enjeux. Brainstorming, exploration d'un sujet inconnu, rédaction d'un email à un ami, génération d'idées que vous affinerez avec votre propre connaissance. Aucune vérification nécessaire. Le coût d'un fait faux est essentiellement nul, et vous allez réécrire la plupart de toute façon.
Enjeux moyens. Documents internes, brouillons de blog, notes de réunion, decks de diapositives pour un petit public. Appliquez le contrôle de 60 secondes aux une ou deux affirmations porteuses du haut. Vérifiez tout nombre spécifique, toute date spécifique, toute personne nommée. Laissez le reste.
Enjeux élevés. Dépôts juridiques, décisions médicales, conseils financiers, articles publiés, tout ce qui va à un conseil d'administration, un régulateur ou un tribunal. Vérifiez chaque entité nommée. Vérifiez chaque nombre contre une source primaire. Vérifiez chaque citation en cliquant. Lisez le passage original pour chaque citation. Traitez l'IA comme un assistant de recherche dont vous signerez le travail, pas comme un collègue dont vous ferez confiance au travail.
C'est là où Glasp gagne sa place pour le travail sérieux. Lorsque l'IA est ancrée dans vos propres sources surlignées plutôt que de plonger dans ses données d'entraînement, la surface d'hallucination rétrécit drastiquement. Vous avez déjà examiné ces sources lorsque vous les avez surlignées. Le modèle ne devine pas ; il lit du texte que vous avez déjà validé.
Le motif est "surligner d'abord, demander ensuite". Lisez le matériel source. Surlignez les passages qui comptent. Puis posez à Glasp's web highlighter et à la AI chat feature des questions ancrées dans ces highlights. Les réponses de l'IA sont ancrées dans un texte que vous pouvez voir et relire. Les Phantom Citations deviennent impossibles parce que le pool de citations est fermé. Les Source Name Swaps sont attrapés instantanément parce que chaque affirmation renvoie à un highlight que vous avez fait.
Pour en savoir plus sur pourquoi nourrir l'IA de votre propre contexte surpasse le prompt générique, voir context engineering. Pour comparer comment différents modèles de pointe se comportent en matière d'hallucination dans les flux d'apprentissage, voir Claude versus ChatGPT for learning.
Le cadre n'est pas "faire confiance à l'IA" ou "ne pas faire confiance à l'IA". C'est "faire confiance à l'IA exactement autant que les enjeux le permettent, et vérifier en proportion".
Foire Aux Questions
À quelle fréquence les LLM actuels hallucinent-ils ?
Cela dépend entièrement de la tâche. Le classement HHEM-2.1 de Vectara place les meilleurs modèles de pointe dans la fourchette 1-3 % sur la résumé, où le modèle reçoit un document source et est invité à le résumer. Ce benchmark mesure la fidélité à une source fournie.
Les requêtes factuelles ouvertes, où le modèle doit se souvenir de l'entraînement plutôt que de lire d'une source, sont une autre histoire. Des études publiques sur des requêtes juridiques, médicales et académiques ont rapporté des taux allant de 17 % sur les meilleurs systèmes augmentés par récupération à plus de 80 % sur les modèles à usage général sans récupération. L'écart entre "résume ce PDF" et "dis-moi ce que tu sais sur X" est l'écart entre un problème à 2 % et un problème à 30 %.
GPT-5, Claude 4.6 et Gemini 2.5 sont-ils moins enclins aux hallucinations que les modèles plus anciens ?
Oui pour la résumé. Les classements de résumé se sont régulièrement améliorés, et la frontière 2026 est significativement meilleure que la frontière 2023 en fidélité au texte fourni.
Pour les requêtes de faits inédits, les gains sont plus petits et plus difficiles à mesurer. Les modèles hallucinent moins souvent, mais les hallucinations qu'ils produisent sont plus confiantes, plus polies et plus difficiles à repérer en lecture seule. La frontière déplace la barre en votre faveur en moyenne et contre vous dans le pire des cas. Le protocole de vérification compte plus, pas moins, à mesure que les modèles s'améliorent.
Puis-je simplement activer la recherche web pour résoudre cela ?
Partiellement. Les modèles ancrés dans le web hallucinent moins sur les questions où une recherche fraîche renvoie une réponse claire et autoritaire. Ils hallucinent encore sur le formatage des citations, sur l'attribution d'affirmations à des sources qui ne les ont pas réellement faites, et sur la résumé de résultats de recherche de manière inexacte.
L'article Stanford sur le RAG juridique est le point de données pertinent : même les outils vendus spécifiquement comme augmentés par récupération hallucinaient sur 17 % à 33 % des requêtes. La récupération réduit le taux. Elle ne l'élimine pas. Traitez la recherche web comme une atténuation partielle, pas un correctif, et vérifiez quand même sur le travail à enjeux élevés.
Devrais-je faire confiance à l'IA pour des questions médicales, juridiques ou financières ?
Utilisez le cadre des enjeux. L'IA est excellente pour vous orienter sur un sujet, générer des questions à poser à un professionnel, et rédiger une communication que vous ferez ensuite réviser. Elle n'est pas encore digne de confiance comme autorité finale sur toute décision qui affecte votre santé, votre liberté ou votre argent.
Pour les domaines à enjeux élevés spécifiquement : n'utilisez jamais une citation, une statistique ou une affirmation d'une IA sans la vérifier contre une source primaire. Divulguez toujours l'implication de l'IA aux professionnels avec qui vous travaillez. Traitez l'IA comme un stagiaire rapide, pas un expert agréé.
Comment savoir si mon propre brouillon assisté par l'IA contient une hallucination ?
Appliquez le protocole de 60 secondes à chaque affirmation porteuse avant de publier ou d'envoyer. Recherchez les phrases spécifiques entre guillemets. Cliquez sur chaque citation. Vérifiez chaque nombre contre une source primaire. Demandez au modèle de critiquer sa propre sortie et lisez la critique attentivement.
Une bonne passe finale : lisez votre propre brouillon à voix haute, et arrêtez-vous à chaque affirmation que vous ne pouvez pas personnellement garantir de mémoire ou d'une source vérifiée. Ce sont les affirmations qui doivent sortir ou être ré-ancrées avant que le document ne quitte votre bureau.
Conclusion
Les hallucinations ne disparaissent pas. Ce sont une caractéristique structurelle de la façon dont ces modèles sont entraînés, et la frontière améliore le cas moyen plus vite que le pire cas. La compétence dont les travailleurs du savoir ont besoin n'est pas "attendre que l'IA s'améliore". C'est "vérifier bien, calibrer la confiance, et ancrer l'IA dans de vraies sources chaque fois que les enjeux le justifient".
Les cinq schémas de cet article, Over-Confident Specificity, Phantom Citation, Consensus Mirage, Plausible-but-Wrong Number, et Source Name Swap, couvrent la grande majorité de ce qui ne va pas en pratique. Les nommer les rend repérables. Le protocole de 60 secondes les attrape à temps. Le cadre des enjeux maintient le coût de la vérification proportionnel au coût de se tromper.
Pour le travail que vous ne pouvez pas vous permettre de rater, la décision à plus fort levier n'est pas un meilleur prompt. C'est un meilleur ancrage. Surlignez d'abord vos sources avec Glasp, puis posez à l'IA des questions ancrées dans un texte que vous avez déjà examiné. La surface d'hallucination s'effondre. Le travail va plus vite, pas plus lentement, parce que la vérification est intégrée.
Faites confiance à l'IA exactement autant que les enjeux le permettent. Vérifiez en proportion. Ancrez dans vos propres sources chaque fois que possible. Voilà le manuel.