Discuter avec vos notes : comment le RAG personnel transforme vos surlignages en un second cerveau à qui vous pouvez parler

Pourquoi ChatGPT brut ne peut pas vraiment vous aider avec votre propre lecture

Voici une petite expérience. Ouvrez ChatGPT, Claude ou Gemini. Demandez : « Quelles étaient les trois idées les plus importantes dans le livre que j'ai fini le mois dernier ? » Il ne peut pas répondre, non parce que le modèle est bête, mais parce qu'il n'a aucune idée de ce que vous avez lu.

Les chatbots généralistes sont entraînés sur un instantané de l'internet public. Ils connaissent Wikipedia, une grande tranche de textes du web ouvert, une pile de code, et toutes les données sous licence que leurs créateurs ont payées. Ils ne connaissent pas votre bibliothèque Kindle, le PDF que vous avez annoté à 2 heures du matin, ni quelles phrases vous avez surlignées dans un essai de 10 000 mots.

Demandez à un modèle généraliste des nouvelles de votre propre lecture et vous obtiendrez l'une de trois choses : un refus poli, un résumé générique de ce dont le livre parle probablement, ou une fabrication confiante. Aucune n'est utile si votre objectif est de penser avec ce que vous avez lu.

L'écart est structurel. Les paramètres d'un modèle gèlent au moment de l'entraînement. Vos connaissances personnelles grandissent chaque jour. Il vous faut un moyen de donner au modèle accès à votre matériel spécifique au moment où vous posez une question. C'est le travail que fait le RAG personnel.

Ce qu'est le RAG, en français clair

RAG signifie Retrieval-Augmented Generation. Enlevez le jargon et c'est un truc en deux étapes.

Première étape, la récupération. Avant de répondre, le système cherche dans une collection de documents (les vôtres, dans le cas personnel) et extrait les passages les plus pertinents pour votre question. Deuxième étape, la génération. Ces passages sont glissés dans le prompt à côté de votre question, et un modèle de langage écrit une réponse ancrée dans ce qu'il vient de récupérer.

Voici le pipeline sous forme de diagramme narratif :

Source → Chunk → Embed → Vector Store → Retrieve → Augment Prompt → LLM → Answer

Source : vos surlignages, notes, PDF, extraits web, transcriptions de réunions.
Chunk : chaque document est découpé en petits passages, généralement de quelques centaines de tokens chacun.
Embed : chaque chunk est transformé en vecteur (une longue liste de nombres) à l'aide d'un modèle d'embedding comme text-embedding-3-small d'OpenAI, Cohere embed-v3, Voyage, ou les open-source bge et nomic-embed-text.
Vector store : les vecteurs sont enregistrés dans une base de données conçue pour la recherche par similarité. Les options populaires incluent Pinecone, Qdrant, Chroma, LanceDB et pgvector.
Retrieve : quand vous posez une question, votre question est elle aussi encodée en vecteur, et la base renvoie les chunks dont les vecteurs sont les plus proches du vecteur de la requête.
Augment prompt : ces chunks sont cousus dans un modèle du type « À l'aide des passages ci-dessous, réponds à la question de l'utilisateur. »
LLM : un modèle comme GPT-4o, Claude 4.5 ou Llama écrit la réponse finale, généralement avec des citations qui renvoient aux chunks d'origine.

Voilà. Pas de magie, pas d'entraînement spécial, juste de la recherche plus de la génération câblées ensemble.

Vous pouvez échanger des pièces librement. Vous voulez un modèle moins cher ? Changez le LLM. Vous voulez un meilleur rappel ? Changez le modèle d'embedding. Vous voulez de la confidentialité sur l'appareil ? Remplacez par LanceDB et un Llama local. La forme du pipeline reste la même.

L'article de 2020 qui a tout déclenché

Le RAG en tant que technique nommée vient d'un article précis : Lewis et al., « Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks » (arXiv:2005.11401), publié à NeurIPS 2020 par une équipe de Facebook AI Research.

Leur argument était tranchant. Les gros modèles de langage stockent des faits à l'intérieur de leurs paramètres, ce qui rend les faits flous, datés et impossibles à mettre à jour sans réentraînement. L'article proposait d'associer un générateur à un retriever dense qui tirait des passages de soutien d'un index Wikipedia au moment de l'inférence. Le modèle pouvait conditionner sa sortie sur des preuves fraîches au lieu de s'appuyer sur une mémoire figée.

Les résultats étaient frappants. Les modèles augmentés par RAG dépassaient les baselines purement paramétriques sur la question-réponse en domaine ouvert, la vérification de faits et la génération de questions. Plus important, vous pouviez échanger l'index sans réentraîner le modèle, de sorte que la connaissance pouvait être mise à jour du jour au lendemain plutôt que sur des mois.

Ce découplage (la connaissance dans l'index, le raisonnement dans le modèle) est ce qui a fait du RAG une architecture, pas juste une astuce. Chaque outil de RAG personnel aujourd'hui hérite de cette séparation.

Pour en savoir plus sur pourquoi mettre le bon contexte devant une IA change tout, voir notre article sur la gestion de contexte personnel.

Hallucination : le problème que le RAG a été conçu pour résoudre

Les grands modèles de langage hallucinent. Ils produisent un texte confiant et fluide qui sonne vrai mais ne l'est pas. Quiconque a demandé à un chatbot une citation et a reçu un article à l'allure plausible mais fictif l'a ressenti de première main.

Shuster et al. (2021) dans « Retrieval Augmentation Reduces Hallucination in Conversation » (arXiv:2104.07567) a été l'une des premières démonstrations rigoureuses que la récupération corrige une partie du problème. Les modèles de dialogue augmentés par récupération produisaient mesurablement moins de faits fabriqués que les baselines purement paramétriques. Les travaux de suivi de Meta ont fait état d'environ 50 % d'hallucinations en moins sur les tâches de question-réponse à forte intensité de connaissances une fois la récupération ajoutée.

L'intuition est simple. Si le modèle doit répondre à partir d'un passage qu'il vient de récupérer, il est contraint par le texte sous ses yeux. Lui demander d'halluciner revient à demander à quelqu'un de mentir en lisant à partir d'un livre.

Les benchmarks HELM et CRFM de Stanford montrent un schéma cohérent : les systèmes augmentés par récupération surpassent les LLM purement paramétriques sur les tâches où l'ancrage compte (QA en domaine ouvert, QA médicale, recherche légale). L'écart est le plus grand sur l'information de niche ou récente, exactement là où les LLM bruts peinent le plus.

Le tableau ci-dessous capture les différences pratiques du point de vue d'un utilisateur.

Dimension	LLM purement paramétrique	LLM augmenté par RAG
Taux d'hallucination	Plus élevé, surtout sur les sujets de niche	Mesurablement plus bas, Meta rapportant environ 50 % de réduction en QA de connaissances
Fraîcheur	Figée à la date de fin d'entraînement	Aussi fraîche que votre index
Personnalisation	Aucune, même réponse pour chaque utilisateur	Élevée, ancrée dans votre corpus spécifique
Citations	Rarement fiables	Les passages sont directement citables
Coût par requête	Moins de calcul par appel	Léger surcoût de récupération, fenêtre de contexte bien plus petite par appel
Coût de mise à jour	Réentraînement ou fine-tuning complet	Réindexation des documents, secondes à minutes

Si vous avez lu notre article sur la façon dont l'IA remodèle l'apprentissage et la mémoire, vous connaissez déjà les enjeux. Un assistant qui hallucine ne fait pas que vous faire perdre du temps. Il corrode la confiance dans l'outil tout entier.

Ce qui compte comme RAG personnel

L'article original sur le RAG utilisait Wikipedia comme index. Ce n'est pas personnel. C'est juste du RAG sur un corpus public.

Le RAG personnel inverse la source. L'index est votre propre matériel, et généralement le vôtre seul. Ce qui atterrit dans l'index varie selon l'outil :

Surlignages et annotations de livres, articles et vidéos YouTube.
PDF que vous avez téléversés, des articles de recherche aux manuels de produits.
Notes écrites en Markdown, que ce soit dans Obsidian, Notion ou un simple dossier.
E-mails et transcriptions de réunions, pour le sous-ensemble d'outils qui les ingèrent.
Historique de chat avec vos propres assistants IA, qui devient un méta-contexte pour les questions ultérieures.

La caractéristique déterminante n'est pas le type de document. C'est la possession. Vous l'avez organisé, vous avez choisi de le garder, et la couche de récupération ne regarde qu'à l'intérieur de ce que vous avez sauvegardé. Une question comme « qu'ai-je lu sur la capacité d'attention l'année dernière ? » devient répondable parce que le système ne voit littéralement que votre lecture.

La confidentialité compte aussi. Un RAG personnel sur votre propre corpus n'a pas besoin de fuiter vos données vers l'ensemble d'entraînement d'un modèle public. Les outils dignes de confiance, y compris le chat IA de Glasp, gardent votre index isolé et n'utilisent le LLM que pour l'inférence.

Pour une vision plus large de la façon dont une archive personnelle organisée devient un outil de pensée, voir notre deep dive sur la construction d'un second cerveau.

Le paysage des outils de RAG personnel (2026)

Le marché s'est divisé en quelques camps clairs ces deux dernières années. Voici une comparaison pratique des outils vers lesquels les travailleurs du savoir se tournent le plus souvent.

Outil	Source de données	Idéal pour	Modèle de confidentialité	Coût
NotebookLM (Google)	PDF, Google Docs, liens YouTube que vous ajoutez	Projets de recherche ponctuels, Q&R ancrées dans la source	Cloud, infrastructure Google	Palier gratuit généreux
Mem	Notes que vous écrivez ou importez	Chat léger sur notes, capture quotidienne	Cloud	Payant
Reflect	Notes quotidiennes, calendrier, surlignages	Journal plus chat	Cloud, option de chiffrement de bout en bout	Payant
Recall	Articles, YouTube, livres que vous résumez	Flux de lecture axé résumé	Cloud	Payant
Obsidian Smart Connections	Votre coffre Markdown local	Utilisateurs avancés axés confidentialité et local-first	Option d'embeddings locaux	Plugin gratuit, coûts d'API
ChatPDF / Humata	PDF individuels	Q&R sur un seul document	Cloud	Freemium
Glasp AI chat	Surlignages web, surlignages Kindle, PDF, notes YouTube	Second cerveau axé lecture, chat inter-sources	Cloud, votre corpus reste le vôtre	Freemium

Quelques schémas ressortent. NotebookLM excelle dans la recherche centrée sur un projet mais remet à zéro à chaque fois ; ce n'est pas vraiment un second cerveau de long terme. Obsidian Smart Connections est la référence pour les gens en local-first qui vivent déjà dans Markdown. ChatPDF et Humata vont bien pour un seul document mais craquent dès que vous voulez raisonner à travers plusieurs sources.

Le créneau qu'occupe Glasp est celui de la lecture-first. Le corpus se construit de lui-même pendant que vous lisez. Chaque surlignage que vous faites en parcourant le web, en regardant YouTube ou en lisant sur Kindle devient un chunk candidat pour la récupération la prochaine fois que vous discutez. Vous n'avez rien à téléverser manuellement.

Si vous êtes curieux de voir comment la connaissance partagée pourrait étendre votre index personnel, notre article sur du second cerveau au cerveau partagé explore la couche communautaire.

Pourquoi les surlignages sont la source parfaite pour le RAG

La plupart des gens supposent que la meilleure source RAG est « tout ce que j'ai jamais lu ». Ce n'est pas le cas. La meilleure source est le petit sous-ensemble tranché de texte que vous avez déjà décidé de garder.

Voici pourquoi les surlignages sont structurellement meilleurs que des documents bruts pour la récupération.

La densité de signal est déjà maximisée. Quand vous surlignez une phrase, vous votez que ce passage précis porte l'argument. Un PDF brut est à 95 % du tissu conjonctif et à 5 % d'affirmations porteuses. Donnez tout le PDF à un vector store et vous diluez la récupération avec du remplissage. Ne donnez que les surlignages et chaque chunk est déjà un candidat de premier plan.

Les chunks sont pré-dimensionnés par le sens. Un surlignage humain fait généralement une à trois phrases, ce qui se trouve être le point idéal pour les modèles d'embedding. Les chunkers automatiques doivent deviner où commencent et finissent les idées. Vous avez déjà tracé la ligne.

Le contexte se compresse sans perdre de sens. Parce que chaque surlignage est une affirmation autonome, un système de récupération peut tirer trois ou quatre surlignages de différentes sources et le LLM peut encore les coudre en une réponse cohérente. Essayez cela avec trois paragraphes aléatoires issus de trois PDF différents et vous obtiendrez un résultat bien plus pâteux.

Le rappel s'aligne sur la réflexion. Les questions que vous posez à un RAG personnel (qu'ai-je appris sur X, qui est en désaccord avec Y, comment ai-je pensé à Z l'année dernière) sont les mêmes questions auxquelles les surlignages ont été conçus pour répondre. Les deux sont des actes de mémoire délibérée.

C'est pourquoi le surligneur web de Glasp est construit pour rendre le geste de surligner aussi bon marché que possible. Chaque phrase que vous sauvegardez est un vote prépayé sur ce qui mérite d'être récupérable plus tard. Il en va de même pour les surlignages Kindle, qui entrent automatiquement de sorte que la lecture de vos livres rejoigne votre lecture web dans un seul index.

Pour un regard plus rapproché sur comment devrait fonctionner une boucle de lecture IA, voir notre deep dive sur l'assistant de lecture IA.

Construire votre propre RAG personnel (sans code)

Vous n'avez pas besoin de faire tourner un notebook Python ou de dresser une base vectorielle pour avoir un RAG personnel aujourd'hui. Voici quatre chemins pratiques, classés du moins d'effort au plus personnalisable.

Voie 1 : commencer avec le chat IA de Glasp

Si vous surlignez déjà en lisant, vous avez fait l'essentiel du chemin. Installez le surligneur web de Glasp, connectez les surlignages Kindle, et utilisez le chat IA de Glasp pour interroger le corpus. Demandez « qu'ai-je sauvegardé sur la formation d'habitudes l'année dernière ? » et obtenez une réponse ancrée dans vos propres phrases, avec des citations renvoyant à la source.

C'est la voie la plus basse en friction. Votre lecture construit l'index automatiquement.

Voie 2 : NotebookLM pour la recherche centrée sur un projet

Pour un projet précis (une critique de livre, un deep dive, une demande de subvention), NotebookLM est difficile à battre. Déposez les sources qui comptent, posez des questions et passez à autre chose. Un excellent complément à un outil de long terme, pas un remplacement.

Voie 3 : Obsidian Smart Connections pour les utilisateurs avancés en local-first

Si vous gardez vos notes dans Obsidian et que vous valorisez le contrôle local-first, installez le plugin Smart Connections. Vous pouvez faire tourner un modèle d'embedding local comme nomic-embed-text via Ollama et garder votre index sur l'appareil. La voie maximaliste de la confidentialité.

Voie 4 : construire le vôtre avec LangChain ou LlamaIndex

Pour les développeurs qui veulent un contrôle total, la pile open source est mature. LangChain et LlamaIndex fournissent tous deux des pipelines RAG prêts à l'emploi. Associez-les à Pinecone ou Qdrant pour l'échelle cloud, ou à LanceDB et pgvector pour des installations locales. Surdimensionné pour la plupart des individus, utile si vous construisez pour d'autres.

Quelle que soit la voie choisie, la recette est la même : ingérer les sources, chunker et embedder, poser des questions. La magie apparaît la première fois qu'un modèle répond avec un passage que vous avez surligné et oublié il y a six mois. On a moins l'impression d'utiliser un chatbot que de se souvenir de quelque chose qu'on savait autrefois.

Pour une vision d'ensemble de la façon dont la curation personnelle se connecte à l'apprentissage collectif, parcourez la communauté de Glasp.

Questions fréquemment posées

Quelle est la différence entre RAG et fine-tuning ?

Le fine-tuning cuit de nouvelles connaissances dans les paramètres d'un modèle en l'entraînant sur vos données. Le RAG garde les connaissances dans un index externe et les récupère au moment de la requête. Le fine-tuning est coûteux, lent à mettre à jour, et généralement inutile pour un travail de connaissance personnel. Le RAG est bon marché, mettable à jour en quelques secondes, et préserve les citations, ce qui est presque toujours ce que les individus veulent.

Ai-je besoin d'un GPU pour faire tourner un RAG personnel ?

Non. Les modèles d'embedding peuvent tourner sur CPU pour de petits corpus, et les appels LLM peuvent aller vers une API comme OpenAI, Anthropic ou Google. Vous n'avez besoin d'un GPU que si vous voulez faire tourner le LLM lui-même localement par-dessus un grand corpus.

Combien de documents faut-il avant que le RAG personnel devienne utile ?

Une récupération utile démarre étonnamment tôt. Quelques centaines de surlignages ou une dizaine de PDF suffisent généralement pour obtenir des réponses inter-sources que vous ne pourriez pas obtenir de mémoire seule. La valeur croît à peu près logarithmiquement, donc les mille premiers surlignages comptent bien plus que les dix mille suivants.

Le RAG peut-il éliminer complètement les hallucinations ?

Non. La récupération réduit fortement les fabrications (le suivi de Meta sur Shuster et al. rapportait environ 50 % d'hallucinations en moins sur les QR à forte intensité de connaissances), mais le générateur peut encore mal lire ce qu'il récupère. Les bons outils affichent les passages sources à côté de la réponse pour que vous puissiez vérifier.

Mes données sont-elles en sécurité si j'utilise un RAG personnel cloud ?

Cela dépend du fournisseur. Les outils dignes de confiance gardent votre index isolé, n'utilisent le LLM que pour l'inférence (pas l'entraînement), et vous laissent supprimer les données sur demande. Pour des garanties strictes, une configuration local-first comme Obsidian Smart Connections avec des embeddings sur l'appareil est le pari le plus sûr.

Quel modèle d'embedding choisir ?

Pour la plupart des individus, text-embedding-3-small d'OpenAI est le choix par défaut : bon marché, rapide et assez robuste pour des corpus personnels. text-embedding-3-large offre un bond de qualité à un coût plus élevé. Cohere embed-v3 et Voyage sont de solides alternatives commerciales. Les open-source bge-large et nomic-embed-text sont excellents si vous voulez faire tourner les embeddings en local.

En quoi le RAG personnel diffère-t-il de NotebookLM ?

NotebookLM est centré sur un projet : vous chargez un ensemble de sources, posez des questions et passez à autre chose. Les outils de RAG personnel comme le chat IA de Glasp sont centrés sur le corpus : toute votre histoire de lecture est l'index, et il grandit continuellement à mesure que vous surlignez. Beaucoup de gens utilisent les deux ensemble.

Puis-je discuter avec des vidéos YouTube en utilisant le RAG personnel ?

Oui. Les transcriptions YouTube ne sont que du texte, donc elles peuvent être chunkées, encodées et récupérées comme n'importe quelle autre source. Glasp ingère les transcriptions et surlignages YouTube, de sorte qu'une question comme « qu'a dit cette interview sur la capacité d'attention ? » fonctionne à travers les surlignages vidéo et articles dans une seule conversation.

Conclusion : de l'archive à la conversation

Pendant la majeure partie des deux dernières décennies, les outils de connaissance personnelle ont été construits autour du stockage. Sauvegarder l'article. Classer la note. Organiser le dossier. La promesse implicite était qu'un jour vous y reviendriez et reliriez tout. Presque personne ne l'a jamais fait.

Le RAG personnel change la valeur par défaut. Votre archive cesse d'être un cimetière et devient un partenaire de conversation. Vous n'avez pas à vous rappeler où vous avez sauvegardé l'idée. Vous demandez simplement, et l'idée revient avec le passage que vous aviez souligné en pièce jointe.

Ce basculement a un effet cognitif réel. Quand votre lecture passée est réellement récupérable, vous lisez différemment. Vous surlignez avec des questions futures en tête. Vous recommencez à faire confiance à votre propre curation. Le second cerveau cesse d'être une métaphore et devient un outil que vous utilisez en lui parlant.

La technologie est enfin assez bonne. Lewis et al. ont montré l'architecture en 2020. Shuster et al. ont montré le bénéfice sur les hallucinations en 2021. En 2026, construire un RAG personnel sur vos propres surlignages est au maximum un projet de week-end, et une configuration en dix minutes avec un produit sur étagère.

Si vous surlignez depuis des années et que vous vous demandiez si tout cela reviendrait un jour, voici le dividende. Installez le surligneur web de Glasp, connectez vos surlignages Kindle, et ouvrez le chat IA de Glasp. Demandez-lui ce que vous avez lu ces derniers temps. Vous serez probablement surpris de constater à quel point vous saviez déjà.