노트와 대화하기: 개인 RAG가 당신의 하이라이트를 대화할 수 있는 세컨드 브레인으로 만드는 방법

Q: 개인 RAG는 NotebookLM과 어떻게 다른가요?

NotebookLM은 프로젝트 단위입니다. 소스 세트를 로드하고, 질문하고, 넘어갑니다. [Glasp AI chat](https://glasp.co) 같은 개인 RAG 도구는 코퍼스 단위입니다. 전체 독서 이력이 인덱스이며, 하이라이트할 때마다 지속적으로 자랍니다. 많은 사람이 둘을 함께 씁니다.

일반 ChatGPT가 당신의 독서에 실제로 도움을 줄 수 없는 이유

작은 실험을 해봅니다. ChatGPT, Claude, Gemini를 엽니다. "지난달 마친 책에서 가장 중요한 세 가지 아이디어가 뭐였어?"라고 물어봅니다. 답을 할 수 없습니다. 모델이 멍청해서가 아니라, 당신이 무엇을 읽었는지 전혀 알지 못하기 때문입니다.

범용 챗봇은 공개 인터넷의 스냅샷으로 학습됩니다. Wikipedia, 오픈 웹 텍스트의 큰 조각, 코드 더미, 제작자가 비용을 지불한 라이선스 데이터를 압니다. 당신의 Kindle 라이브러리, 새벽 2시에 주석을 단 PDF, 10,000단어 에세이에서 하이라이트한 문장은 알지 못합니다.

자기 독서에 대해 범용 모델에 물으면 셋 중 하나를 얻습니다. 정중한 거절, 그 책이 아마 무엇에 관한 것일지에 대한 일반적 요약, 또는 자신감 있는 조작. 읽은 것으로 사고하는 것이 목표라면 어느 것도 유용하지 않습니다.

격차는 구조적입니다. 모델의 파라미터는 학습 시점에 고정됩니다. 당신의 개인 지식은 매일 자랍니다. 질문하는 순간에 모델이 당신의 구체적인 자료에 접근할 수 있게 해주는 방법이 필요합니다. 그것이 개인 RAG가 하는 일입니다.

RAG를 쉽게 풀어 말하면

RAG는 Retrieval-Augmented Generation의 약자입니다. 전문 용어를 벗겨내면 두 단계짜리 기법입니다.

1단계, 검색. 답하기 전에 시스템은 문서 컬렉션(개인적 경우에는 당신의 것)을 검색하고 질문에 가장 관련 있는 구절을 가져옵니다. 2단계, 생성. 그 구절들이 질문과 함께 프롬프트에 들어가고, 언어 모델은 방금 검색된 것에 근거한 답을 씁니다.

서술형 다이어그램으로 파이프라인을 표현하면 이렇습니다.

Source → Chunk → Embed → Vector Store → Retrieve → Augment Prompt → LLM → Answer

Source: 하이라이트, 노트, PDF, 웹 클리핑, 회의록.
Chunk: 각 문서는 보통 몇백 토큰의 작은 구절로 분할됩니다.
Embed: 각 청크는 OpenAI의 text-embedding-3-small, Cohere embed-v3, Voyage, 오픈 소스 bge와 nomic-embed-text 같은 임베딩 모델을 통해 벡터(긴 숫자 리스트)로 변환됩니다.
Vector store: 벡터는 유사도 검색에 최적화된 데이터베이스에 저장됩니다. 주요 옵션으로 Pinecone, Qdrant, Chroma, LanceDB, pgvector가 있습니다.
Retrieve: 질문할 때 당신의 질문도 임베딩되며, 데이터베이스는 쿼리 벡터에 가장 가까운 벡터를 가진 청크를 반환합니다.
Augment prompt: 그 청크들이 "아래 구절을 사용해 사용자의 질문에 답하세요" 같은 템플릿에 꿰어집니다.
LLM: GPT-4o, Claude 4.5, Llama 같은 모델이 최종 답을 쓰며, 보통 원본 청크를 가리키는 인용이 포함됩니다.

끝입니다. 마법도, 특별한 학습도 없고, 검색과 생성을 연결했을 뿐입니다.

부품을 자유롭게 교체할 수 있습니다. 더 저렴한 모델? LLM을 교체합니다. 더 나은 재현율? 임베딩 모델을 교체합니다. 온디바이스 프라이버시? LanceDB와 로컬 Llama로 교체합니다. 파이프라인의 형태는 동일하게 유지됩니다.

모든 것을 시작한 2020년 논문

명명된 기법으로서의 RAG는 특정 논문에서 나왔습니다. Lewis et al.의 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" (arXiv:2005.11401)로, 2020년 NeurIPS에서 Facebook AI Research 팀이 발표했습니다.

그들의 주장은 날카로웠습니다. 큰 언어 모델은 파라미터 안에 사실을 저장하는데, 이것은 사실을 흐릿하고 오래되고 재학습 없이는 업데이트 불가능하게 만듭니다. 논문은 생성기를 추론 시점에 Wikipedia 인덱스에서 보조 구절을 끌어오는 밀집 검색기와 짝지으라고 제안했습니다. 모델은 고정된 기억에 의존하는 대신 신선한 증거를 조건으로 출력을 생성할 수 있었습니다.

결과는 인상적이었습니다. RAG 증강 모델은 오픈 도메인 QA, 사실 검증, 질문 생성에서 파라미터만 있는 베이스라인을 능가했습니다. 더 중요한 것은, 모델을 재학습하지 않고 인덱스를 교체할 수 있어 지식을 수개월이 아니라 하룻밤에 업데이트할 수 있다는 점이었습니다.

그 분리(인덱스의 지식, 모델의 추론)가 RAG를 트릭이 아닌 아키텍처로 만든 것입니다. 오늘날 모든 개인 RAG 도구는 이 분리를 계승합니다.

올바른 컨텍스트를 AI 앞에 두는 것이 왜 모든 것을 바꾸는지에 대한 더 자세한 내용은 개인 컨텍스트 관리를 참고하세요.

환각: RAG가 해결하려 만들어진 문제

대형 언어 모델은 환각을 일으킵니다. 사실처럼 들리지만 그렇지 않은, 자신감 있고 유창한 텍스트를 생산합니다. 챗봇에 인용을 요청하고 그럴듯하지만 허구인 논문을 받아본 적 있는 사람은 이 문제를 직접 경험했을 것입니다.

Shuster et al. (2021)의 "Retrieval Augmentation Reduces Hallucination in Conversation" (arXiv:2104.07567)은 검색이 문제의 상당 부분을 해결한다는 것을 엄밀히 보여준 초기 사례 중 하나였습니다. 검색으로 증강된 대화 모델은 파라미터만 있는 베이스라인보다 조작된 사실을 측정 가능하게 적게 생산했습니다. Meta의 후속 연구는 검색이 추가되면 지식 집약적 QA 작업에서 약 50% 적은 환각을 보고했습니다.

직관은 단순합니다. 모델이 방금 검색한 구절로부터 답해야 한다면, 앞에 있는 텍스트에 제약됩니다. 환각을 요청하는 것은 책에서 읽으면서 거짓말을 하라고 요청하는 것과 같습니다.

Stanford HELM과 CRFM 벤치마크는 일관된 패턴을 보여줍니다. 근거가 중요한 작업(오픈 도메인 QA, 의료 QA, 법률 조회)에서 검색 증강 시스템은 파라미터만 있는 LLM을 능가합니다. 격차는 일반 LLM이 가장 어려워하는 틈새 또는 최신 정보에서 가장 큽니다.

아래 표는 사용자 관점에서의 실용적 차이를 정리한 것입니다.

차원	파라미터 전용 LLM	RAG 증강 LLM
환각 비율	더 높음, 특히 틈새 주제에서	측정 가능하게 낮음, Meta는 지식 QA에서 ~50% 감소 보고
최신성	학습 컷오프에 고정	인덱스만큼 신선함
개인화	없음, 모든 사용자에게 같은 답	높음, 당신의 구체적 코퍼스에 근거
인용	거의 신뢰할 수 없음	구절을 직접 인용 가능
쿼리당 비용	호출당 연산 더 적음	작은 검색 오버헤드, 호출당 컨텍스트 윈도우는 훨씬 작음
업데이트 비용	전체 재학습 또는 파인튜닝	문서 재인덱싱, 초~분 단위

AI가 학습과 기억을 재편하는 방식을 읽었다면, 판돈이 얼마나 큰지 이미 알 것입니다. 환각하는 어시스턴트는 당신의 시간만 낭비하는 것이 아닙니다. 도구 전체에 대한 신뢰를 부식시킵니다.

개인 RAG의 정의

원래 RAG 논문은 Wikipedia를 인덱스로 사용했습니다. 그것은 개인적이지 않습니다. 공개 코퍼스에 대한 RAG일 뿐입니다.

개인 RAG는 소스를 뒤집습니다. 인덱스는 당신의 자료, 보통 당신만의 것입니다. 인덱스에 들어가는 것은 도구에 따라 다릅니다.

책, 기사, YouTube 영상에서 만든 하이라이트와 주석.
연구 논문부터 제품 매뉴얼까지 업로드한 PDF.
Obsidian, Notion, 또는 평범한 폴더에 Markdown으로 쓴 노트.
수집하는 도구의 일부에 해당되는 이메일과 회의록.
자체 AI 어시스턴트와의 채팅 기록으로, 나중의 질문을 위한 메타 컨텍스트가 됩니다.

정의하는 특징은 문서 유형이 아닙니다. 소유입니다. 당신이 큐레이션했고, 간직하기로 선택했으며, 검색 계층은 당신이 저장한 것 안에서만 찾습니다. "작년에 주의 지속 시간에 대해 뭘 읽었지?" 같은 질문이, 시스템이 말 그대로 당신의 독서만 보기 때문에 답 가능해집니다.

프라이버시도 중요합니다. 자체 코퍼스에 대한 개인 RAG는 공개 모델의 학습 세트에 데이터를 유출할 필요가 없습니다. Glasp AI chat을 포함한 평판 있는 도구는 인덱스를 격리하고 LLM은 추론용으로만 사용합니다.

큐레이션된 개인 아카이브가 어떻게 사고 도구가 되는지에 대한 더 넓은 관점은 세컨드 브레인 구축을 참고하세요.

개인 RAG 도구 지형 (2026)

시장은 지난 2년 동안 몇 개의 명확한 진영으로 나뉘었습니다. 아래는 지식 노동자가 가장 자주 찾는 도구의 실용 비교입니다.

도구	데이터 소스	적합 용도	프라이버시 모델	비용
NotebookLM (Google)	추가한 PDF, Google Docs, YouTube 링크	일회성 리서치 프로젝트, 소스 근거 Q&A	클라우드, Google 인프라	무료 티어 너그러움
Mem	작성하거나 가져온 노트	가벼운 노트 채팅, 일상 캡처	클라우드	유료
Reflect	일일 노트, 캘린더, 하이라이트	저널링 + 채팅	클라우드, 종단 간 암호화 옵션	유료
Recall	요약한 기사, YouTube, 책	요약 우선 독서 워크플로우	클라우드	유료
Obsidian Smart Connections	로컬 Markdown 볼트	프라이버시 우선, 로컬 우선 파워 유저	로컬 임베딩 옵션	무료 플러그인, API 비용
ChatPDF / Humata	개별 PDF	단일 문서 QA	클라우드	프리미엄
Glasp AI chat	웹 하이라이트, Kindle 하이라이트, PDF, YouTube 노트	독서 우선 세컨드 브레인, 교차 소스 채팅	클라우드, 당신의 코퍼스는 당신의 것	프리미엄

몇 가지 패턴이 두드러집니다. NotebookLM은 프로젝트 단위 리서치에 탁월하지만 매번 리셋됩니다. 장기 세컨드 브레인이 아닙니다. Obsidian Smart Connections는 이미 Markdown에 사는 로컬 우선 사람들의 표준입니다. ChatPDF와 Humata는 단일 문서에는 훌륭하지만, 여러 소스에 걸쳐 추론하려고 하면 깨집니다.

Glasp가 차지한 공백은 독서 우선입니다. 코퍼스가 읽는 동안 스스로 쌓입니다. 웹을 브라우징하거나, YouTube를 보거나, Kindle로 읽는 동안 만든 모든 하이라이트는 다음번에 채팅할 때 검색 후보 청크가 됩니다. 수동으로 아무것도 업로드할 필요가 없습니다.

공유 지식이 개인 인덱스를 어떻게 확장할 수 있는지 궁금하다면 세컨드 브레인에서 공유 브레인으로에서 커뮤니티 계층을 다룹니다.

왜 하이라이트가 완벽한 RAG 소스인가

대부분의 사람들은 최고의 RAG 소스가 "내가 읽은 모든 것"이라고 가정합니다. 그렇지 않습니다. 최고의 소스는 이미 간직할 가치가 있다고 결정한 작고 의견이 반영된 텍스트 부분집합입니다.

하이라이트가 검색을 위해 원본 문서보다 구조적으로 더 나은 이유는 다음과 같습니다.

신호 밀도가 이미 극대화되어 있습니다. 문장을 하이라이트할 때, 이 특정 구절이 논증을 담고 있다고 투표하는 것입니다. 원본 PDF는 95%가 연결 조직이고 5%가 핵심 주장입니다. 전체 PDF를 벡터 스토어에 먹이면 필러로 검색을 희석시킵니다. 하이라이트만 먹이면 모든 청크가 이미 최상위 후보입니다.

청크가 의미에 따라 미리 크기가 맞춰져 있습니다. 인간 하이라이트는 보통 1~3문장이고, 이것은 임베딩 모델의 스위트 스팟입니다. 자동 청커는 아이디어가 어디서 시작되고 끝나는지 추측해야 합니다. 당신은 이미 선을 그었습니다.

컨텍스트가 의미를 잃지 않고 압축됩니다. 각 하이라이트가 자기 완결적 주장이기 때문에, 검색 시스템은 서로 다른 소스에서 3~4개의 하이라이트를 끌어올 수 있고 LLM은 여전히 일관된 답으로 엮을 수 있습니다. 세 개의 다른 PDF에서 무작위 문단 세 개로 시도해보면 훨씬 더 뭉개진 결과가 나올 것입니다.

재현이 반성과 일치합니다. 개인 RAG에 묻는 질문들(X에 대해 무엇을 배웠는가, 누가 Y에 동의하지 않는가, 작년에 Z에 대해 어떻게 생각했는가)은 하이라이트가 답하도록 설계된 바로 그 질문들입니다. 둘 다 의도적인 기억 행위입니다.

이것이 Glasp 웹 하이라이터가 하이라이트 제스처를 최대한 값싸게 만드는 데 초점을 맞춘 이유입니다. 저장하는 모든 문장은 나중에 검색 가능해야 할 것에 대한 선불 투표입니다. Kindle 하이라이트에도 같은 것이 적용되어 자동으로 흘러들어 오며, 책 읽기가 웹 읽기와 하나의 인덱스로 합류합니다.

AI 독서 루프가 어떻게 작동해야 하는지에 대한 자세한 설명은 AI 독서 어시스턴트 심층 분석을 참고하세요.

자신의 개인 RAG 구축하기 (노코드)

오늘 개인 RAG를 갖기 위해 Python 노트북을 돌리거나 벡터 데이터베이스를 세울 필요는 없습니다. 노력이 가장 적은 순에서 가장 커스터마이징 가능한 순으로 네 가지 실용 경로가 있습니다.

경로 1: Glasp AI chat으로 시작하기

이미 읽으면서 하이라이트하고 있다면, 거의 다 온 셈입니다. Glasp 웹 하이라이터를 설치하고, Kindle 하이라이트를 연결하고, Glasp AI chat으로 코퍼스를 쿼리하세요. "작년에 습관 형성에 대해 뭘 저장했지?"라고 묻고 자기 문장에 근거한 답을, 소스로 연결되는 인용과 함께 받으세요.

마찰이 가장 적은 경로입니다. 읽기가 자동으로 인덱스를 만듭니다.

경로 2: 프로젝트 단위 리서치에는 NotebookLM

특정 프로젝트(서평, 딥다이브, 보조금 신청)에는 NotebookLM을 이기기 어렵습니다. 중요한 소스를 넣고, 질문하고, 넘어갑니다. 장기 도구를 대체하기보다는 훌륭한 보완재입니다.

경로 3: 로컬 우선 파워 유저를 위한 Obsidian Smart Connections

Obsidian에 노트를 보관하고 로컬 우선 제어를 중시한다면 Smart Connections 플러그인을 설치하세요. Ollama를 통해 nomic-embed-text 같은 로컬 임베딩 모델을 돌리고 인덱스를 기기에 유지할 수 있습니다. 프라이버시 극대주의자의 길입니다.

경로 4: LangChain 또는 LlamaIndex로 직접 만들기

전체 제어를 원하는 개발자를 위해 오픈 소스 스택이 성숙했습니다. LangChain과 LlamaIndex는 모두 배터리 포함 RAG 파이프라인을 제공합니다. 클라우드 규모에는 Pinecone이나 Qdrant와, 로컬 설정에는 LanceDB와 pgvector와 짝지으세요. 대부분의 개인에게는 과잉이지만, 다른 사람을 위해 만드는 경우 유용합니다.

어떤 경로를 택하든 레시피는 같습니다. 소스를 수집하고, 청크와 임베드하고, 질문합니다. 마법은 모델이 6개월 전에 하이라이트하고 잊었던 구절로 답하는 첫 순간에 나타납니다. 챗봇을 쓰는 것보다 한때 알았던 것을 기억하는 것에 더 가깝게 느껴집니다.

개인 큐레이션이 집단 학습과 어떻게 연결되는지에 대한 더 큰 그림은 Glasp 커뮤니티를 탐색해 보세요.

자주 묻는 질문

RAG와 파인튜닝의 차이는 무엇인가요?

파인튜닝은 당신의 데이터로 학습해 새 지식을 모델의 파라미터에 굽습니다. RAG는 지식을 외부 인덱스에 두고 쿼리 시점에 검색합니다. 파인튜닝은 비싸고, 업데이트가 느리며, 개인 지식 작업에는 보통 불필요합니다. RAG는 저렴하고, 초 단위로 업데이트 가능하며, 인용을 보존합니다. 거의 언제나 개인이 원하는 것입니다.

개인 RAG를 돌리려면 GPU가 필요한가요?

아닙니다. 임베딩 모델은 작은 코퍼스에 대해 CPU에서 돌 수 있고, LLM 호출은 OpenAI, Anthropic, Google 같은 API로 보낼 수 있습니다. 큰 코퍼스 위에서 LLM 자체를 로컬로 돌리고 싶을 때만 GPU가 필요합니다.

개인 RAG가 유용해지려면 몇 개의 문서가 필요한가요?

유용한 검색은 놀랄 만큼 일찍 시작됩니다. 수백 개의 하이라이트나 십여 개의 PDF만으로도 기억만으로는 얻을 수 없는 교차 소스 답을 얻을 수 있습니다. 가치는 대략 로그 함수적으로 자라므로, 처음 1,000개의 하이라이트가 다음 10,000개보다 훨씬 더 중요합니다.

RAG가 환각을 완전히 없앨 수 있나요?

아닙니다. 검색은 조작을 날카롭게 줄이지만(Shuster et al.에 대한 Meta의 후속은 지식 집약적 QA에서 약 50% 적은 환각 보고), 생성기는 여전히 검색한 것을 잘못 읽을 수 있습니다. 좋은 도구는 답 옆에 소스 구절을 보여주어 검증할 수 있게 합니다.

클라우드 기반 개인 RAG를 쓰면 데이터가 안전한가요?

벤더에 따라 다릅니다. 평판 있는 도구는 인덱스를 격리하고, LLM은 추론에만 사용하며(학습이 아님), 요청 시 데이터를 삭제하게 합니다. 엄격한 보장을 원한다면, 온디바이스 임베딩을 사용하는 Obsidian Smart Connections 같은 로컬 우선 설정이 가장 안전한 선택입니다.

어떤 임베딩 모델을 골라야 하나요?

대부분의 개인에게 OpenAI의 text-embedding-3-small이 기본값입니다. 저렴하고, 빠르고, 개인 코퍼스에 충분히 강력합니다. text-embedding-3-large는 비용 증가로 품질 향상을 제공합니다. Cohere embed-v3와 Voyage는 강력한 상업 대안입니다. 오픈 소스 bge-large와 nomic-embed-text는 임베딩을 로컬로 돌리고 싶다면 훌륭합니다.

개인 RAG는 NotebookLM과 어떻게 다른가요?

NotebookLM은 프로젝트 단위입니다. 소스 세트를 로드하고, 질문하고, 넘어갑니다. Glasp AI chat 같은 개인 RAG 도구는 코퍼스 단위입니다. 전체 독서 이력이 인덱스이며, 하이라이트할 때마다 지속적으로 자랍니다. 많은 사람이 둘을 함께 씁니다.

개인 RAG로 YouTube 영상과 채팅할 수 있나요?

가능합니다. YouTube 자막은 그냥 텍스트이므로 다른 소스처럼 청크되고, 임베딩되고, 검색될 수 있습니다. Glasp는 YouTube 자막과 하이라이트를 수집하므로, "그 인터뷰에서 주의 지속 시간에 대해 뭐라고 했지?" 같은 질문이 한 대화에서 영상과 기사 하이라이트를 가로질러 작동합니다.

결론: 아카이브에서 대화로

지난 20년의 대부분, 개인 지식 도구는 저장을 중심으로 만들어졌습니다. 기사를 저장합니다. 노트를 정리합니다. 폴더를 구성합니다. 암묵적 약속은 언젠가 돌아와 전부 다시 읽으리라는 것이었습니다. 거의 아무도 그렇게 하지 않았습니다.

개인 RAG는 기본값을 바꿉니다. 아카이브가 무덤이 아니라 대화 상대가 되기 시작합니다. 아이디어를 어디에 저장했는지 기억할 필요가 없습니다. 그냥 묻고, 밑줄 그었던 구절이 붙은 아이디어가 돌아옵니다.

그 전환은 실제 인지적 효과가 있습니다. 과거 독서가 실제로 검색 가능할 때, 다르게 읽게 됩니다. 미래의 질문을 염두에 두고 하이라이트합니다. 자기 큐레이션을 다시 믿기 시작합니다. 세컨드 브레인이 메타포가 아니라, 말을 걸어서 쓰는 도구가 됩니다.

기술은 마침내 충분히 좋아졌습니다. Lewis et al.은 2020년에 아키텍처를 보여줬습니다. Shuster et al.은 2021년에 환각 감소 효과를 보여줬습니다. 2026년에는 자신의 하이라이트 위에 개인 RAG를 만드는 것이 길어야 주말 프로젝트이며, 기성 제품으로는 10분짜리 설정입니다.

수년간 하이라이트해 왔고 그중 어느 것이라도 다시 돌아올지 궁금했다면, 이것이 그 보상입니다. Glasp 웹 하이라이터를 설치하고, Kindle 하이라이트를 연결하고, Glasp AI chat을 여세요. 요즘 무엇을 읽어왔는지 물어보세요. 이미 얼마나 많이 알고 있었는지에 스스로 놀랄 것입니다.