대부분의 사람이 건너뛰는, 배워야 할 기술로서의 논문 읽기
대학원에 대해 이상한 점이 하나 있습니다. 경력 전체가 논문 읽기에 달려 있는데, 이를 가르쳐 주는 사람은 거의 없다는 것입니다. 첫날 읽을 자료 목록을 받고 "문헌에 참여하라"는 말을 들은 뒤, 6개월 후에는 문헌 고찰을 작성해야 합니다. 그 사이의 과정은 독자의 몫으로 남겨집니다.
대부분의 학생은 자신이 아는 유일한 전략에 의존합니다. PDF를 열고 제목부터 시작해서 모든 단어를 순서대로 읽으려고 합니다. 이 방법은 소설에는 통합니다. 연구 논문에는 실패합니다. 세 번째 논문쯤 되면 메모가 뒤섞이고, 열 번째 논문에서는 동기가 무너지며, 스무 번째 논문에서는 학생이 아는 척하거나 조용히 공황 상태에 빠집니다.
문제는 지능이나 노력이 아닙니다. 학술 논문이 선형적으로 읽도록 설계되지 않았다는 것이 문제입니다. 논문은 훑어보고, 선별하고, 그중 일부만 깊이 공부하도록 설계되어 있습니다. 하버드의 Michael Mitzenmacher는 널리 회자되는 글 "How to Read a Research Paper"에서, 경험 많은 연구자들이 첫 번째 패스에서 논문을 처음부터 끝까지 읽는 경우는 거의 없다고 지적합니다. 그들은 그림으로 넘어가고, 관련 연구를 훑어보며, 평가 방식을 확인한 다음에야 그 논문에 더 많은 시간을 들일 가치가 있는지 결정합니다.
이 글은 격려가 아니라 워크플로입니다. S. Keshav의 고전적인 선별 방법에 주석 습관, AI를 활용한 이해, 인용 그래프 구축을 결합합니다. 목표는 이번 학기의 50번째 논문을 다 읽었을 때 이해가 줄어드는 대신 오히려 늘어나게 하는 것입니다.
S. Keshav의 3패스 방법
2007년 Waterloo 대학교의 S. Keshav는 "How to Read a Paper"라는 짧은 가이드를 썼습니다. 두 페이지짜리 이 글은 컴퓨터 과학 분야에서 논문 읽기에 관해 가장 많이 인용되는 조언으로 남아 있습니다. 핵심 아이디어는 단순합니다. 논문을 한 번에 읽지 마세요. 목표와 시간 예산이 다른 최대 세 번의 패스로 읽으세요.
첫 번째 패스는 선별입니다. 5분에서 10분 정도를 써서 그 논문이 더 많은 시간을 들일 가치가 있는지 결정합니다. 두 번째 패스는 이해입니다. 주의 깊게 읽으며 주된 논점을 파악하고, 증거가 주장을 뒷받침하는지 판단합니다. 세 번째 패스는 깊이입니다. 그 논문을 다시 구현하거나 확장할 수도 있는 대상으로 다룹니다.
| 패스 | 시간 예산 | 읽는 부분 | 목표 |
|---|---|---|---|
| 패스 1 | 5~10분 | 제목, 초록, 서론, 섹션 제목, 결론, 참고문헌 훑기 | 관련성이 있는지 판단합니다. 기여를 한 문장으로 말할 수 있나요? |
| 패스 2 | 약 1시간 | 본문, 그림, 표. 증명과 깊은 기술적 유도는 건너뜁니다. | 논점과 증거를 이해합니다. 불명확한 용어와 추적할 인용문헌을 표시합니다. |
| 패스 3 | 4~5시간 | 증명을 포함한 모든 것. 재유도하거나 재구현을 시도합니다. | 가정을 비판합니다. 어디에서 동의하지 않거나, 확장하거나, 접근법을 대체할지 파악합니다. |
유용한 경험칙 하나: 패스 1을 통과한 논문 100편 중 20편쯤이 패스 2를 받을 가치가 있고, 그중 5편쯤이 패스 3을 받을 가치가 있습니다. 대부분의 논문은 패스 3이 전혀 필요 없습니다. 책상 위를 스쳐 지나가는 논문의 10%가 넘게 깊이 읽고 있다면, 아마 잘못된 자료에 너무 오래 머무르고 있는 것입니다.
Columbia의 Purugganan과 Hewitt는 과학 분야에 초점을 맞춘 가이드 "How to Read a Scientific Article"에서 비슷한 구조를 제안하지만, 방법론보다 결론을 먼저 읽으라고 강조합니다. 그 논리는, 결론이 논문이 주장하는 바를 알려주기 때문에 방법론에 이르렀을 때 그 방법론이 어떤 질문에 답하려는 것인지 이미 알고 있다는 점입니다. 작은 재배열이지만, 읽기를 수동적인 흡수에서 능동적인 검증으로 바꿔 놓습니다.
두 아이디어를 결합하세요. 시간 관리에는 Keshav의 패스 구조를 쓰고, 각 패스 안에서는 Purugganan의 순서(초록, 결론, 그림, 방법론, 결과, 논의)를 따르세요.
논문 해부학: 단계별로 무엇을 주석할 것인가
흥미로워 보이는 문장마다 형광펜을 긋다 보면 결국 난장판이 됩니다. 일주일만 지나도 무엇이 노란색이었는지 이유를 기억할 수 없죠. 해결책은 서로 다른 목표를 염두에 두고 섹션별로 주석을 다는 것입니다.
논문에는 대략 여섯 개의 기능적 부분이 있습니다. 각 부분은 서로 다른 역할을 하므로, 각기 다른 종류의 주의를 받아야 합니다.
| 섹션 | 하는 일 | 강조할 것 | 무시할 것 |
|---|---|---|---|
| 초록 | 기여를 판매 | 단 하나의 새로운 주장과 결과의 규모 | 100번쯤 본 동기 문장 |
| 서론 | 공백을 프레이밍 | 공백 진술("기존 연구는... 실패한다")과 구체적인 질문 | 이미 아는 배경지식 |
| 관련 연구 | 위치 설정 | 비교되는 방법의 이름(설명이 아니라) | 무분별한 인용 덤프 |
| 방법론 | 기술적 기여 | 절차가 아니라 가정. 접근법이 작동하려면 무엇이 필요한가? | 나중에 찾아볼 수 있는 표기법 |
| 결과 | 증거 | 베이스라인, 지표, 절제 실험. 기존 연구 대비 차이(델타)는? | 다시 보지 않을 표 |
| 논의 | 정직한 한계 | 한계와 타당성에 대한 위협 | 미래 연구에 대한 막연한 언급 |
가장 덜 활용되는 섹션은 논의입니다. 좋은 논문은 그곳에서 자신의 한계를 고백합니다. 어떤 논문의 논의가 모호하거나 빠져 있다면, 그것은 기록해 둘 만한 신호입니다. "한계 논의 없음"이라는 한 줄 주석이 6개월 뒤에는 서론에서 강조한 어떤 문장보다도 유용합니다.
PDF를 다룰 때는 Glasp의 PDF 하이라이터를 이용하면 별도의 앱 없이 브라우저에서 바로 주석을 달 수 있고, 하이라이트는 읽은 모든 자료에서 검색 가능한 상태로 유지됩니다. arXiv나 저널 사이트에 HTML로 존재하는 논문의 경우, Glasp의 웹 하이라이터가 브라우저에서 같은 방식으로 메모를 캡처합니다. 중요한 것은 도구가 아니라, 모든 난외 메모가 Zotero, Notion, GoodNotes, 종이 출력물에 흩어지는 대신 한곳에 모인다는 사실입니다.
실용적인 규칙 하나: 모든 하이라이트에 한 단어짜리 태그를 붙이세요. "가정", "결과", "공백", "혼란", "나중에 인용". 문헌 고찰을 쓰면서 지난 3개월 동안 표시해 둔 모든 "공백"을 찾고 싶을 때 스스로에게 고마워하게 될 것입니다.
다양한 종류의 읽기에 걸친 주석 습관을 더 깊이 다루려면, how-to-annotate 글에서 태그 분류 체계와 캡처 규칙을 살펴보세요. 그리고 how-to-annotate-pdfs는 PDF 전용 전술을 다룹니다.
대체가 아닌 연구 부조종사로서의 AI
특히 학생들에게는 논문을 ChatGPT에 넘기고 "이거 요약해 줘"라고 묻고 싶은 유혹이 따릅니다. 정말로 이해해야 하는 내용이라면 이 유혹을 이겨내세요. 여러분이 직접 만들지 않은 요약은 여러분의 것이 아닙니다. 학위 논문에서 그 논문을 인용하고, 디펜스 도중에 그 방법에 관한 질문에 답할 수 없다는 사실을 발견하게 될 것입니다.
이제는 AI에 지나치게 의존하는 것이 읽기가 만들어 내야 할 인지적 작업을 해친다는 확실한 증거도 있습니다. Lee et al.(CMU와 Microsoft, 2024)은 "The Impact of Generative AI on Critical Thinking"에서 지식 노동자 319명을 대상으로 한 조사에서, AI 출력에 대한 높은 신뢰는 측정 가능할 정도로 낮은 비판적 참여와 상관관계를 보였고, 반대로 자기 전문성에 대한 높은 신뢰는 더 높은 비판적 참여와 상관관계를 보였다는 점을 발견했습니다. 그들이 관찰한 패턴은, AI가 "작업을 생산하는 일"에서 "AI 작업을 검증하는 일"로 노력을 옮길 수 있는데, 많은 사용자가 그 검증 단계를 수행하지 않는다는 것입니다.
논문 읽기에서 AI의 올바른 사용법은 좁고 구체적입니다. "이 논문을 설명해 줘"가 아니라 "내가 X와 Y를 안다고 가정하고 이 수식을 설명해 줘". "방법론을 요약해 줘"가 아니라 "방법론 섹션을 읽었는데 그들이 dropout 대신 L2 정규화를 택한 이유가 헷갈려. 그 논거가 뭐지?". 모델보다 질문의 품질이 더 중요합니다.
구체적인 워크플로:
- 패스 1은 혼자서. AI 없음. 빠른 선별 근육을 길러야 합니다.
- 패스 2는 AI를 조회 도구로. 낯선 용어, 개념, 수식을 만나면 AI에게 설명을 요청하세요. 문단을 요약해 달라고 하지 마세요.
- 패스 2 이후, AI에게 스틸맨 비판을 요청하세요. "방법론의 하이라이트와 내가 요약한 기여가 여기 있어. 내가 놓치고 있는 가장 강력한 반론은 뭘까?" 이것은 AI를 부정 행위 도구가 아니라 세미나 참가자로 바꿉니다.
- 패스 3, AI 보조 유도. 재구현을 시도한다면 AI는 유도 오류를 잡는 데 정말로 유용합니다. 하지만 여러분이 먼저 직접 유도를 작성해야 합니다.
Glasp의 AI chat은 바로 이 패턴을 위해 설계되었습니다. 대화를 여러분의 하이라이트에 기반시키므로, PDF 전체를 컨텍스트 윈도에 우겨넣고 요행을 바라는 대신 특정한 주석 구절에 대해 질문할 수 있습니다. 논문과 함께 학회 발표나 강연 영상을 다루는 연구자들에게는, YouTube Summary가 영상 전사에 대해 같은 방식의 근거 기반 대화를 제공합니다. 저자들이 그 연구를 설명하는 강연을 따로 올려 놓았을 때 특히 유용하죠.
사고를 포기하지 않으면서 AI를 자신의 연구 습관과 결합하는 방법에 대해서는 ai-research-workflow와 chat-with-your-notes-personal-rag를 참고하세요. 도구를 비교하고 있다면, deep-research-tools-compared가 현세대 연구 에이전트가 할 수 있는 일과 할 수 없는 일을 짚어 줍니다.
인용 흐름(Citation Trail) 구축
논문 한 편은 그래프 안의 하나의 노드입니다. 연구자로서 여러분의 일은 그 노드를 암기하는 것이 아니라 그래프를 구축하는 것입니다.
모든 논문에는 두 종류의 인용 간선이 있습니다. 후방 간선은 그 논문이 인용하는 논문들입니다. 기반이 되는 연구, 선행 기술, 빌려 온 방법들이죠. 전방 간선은 그 논문을 인용하는 논문들입니다. 이를 바탕으로 확장하거나, 반박하거나, 발전시키는 연구입니다. 전방 간선은 논문이 출판되는 시점에는 존재하지 않습니다. 수년에 걸쳐 쌓이며, 가장 흥미로운 대화가 벌어지는 곳인 경우가 많습니다.
후방 추적은 간단합니다. 패스 2를 하는 동안 어떤 인용 문헌이 논증에서 계속 등장한다면, 그것을 대기열에 추가하세요. 보통 어떤 논문에서든 서너 편의 인용이 논증의 기둥 역할을 합니다. 나머지는 완결성을 위해 들어간 것입니다.
전방 추적에는 도구가 필요합니다. Google Scholar의 "Cited by" 링크는 전방 간선을 보여 주지만 잘 정렬해 주지는 않습니다. Semantic Scholar는 더 낫습니다. "influential citations"(영향력 있는 인용) 기능이 있어, 단순히 이름만 언급하는 것이 아니라 원 논문 위에 의미 있게 구축한 논문을 필터링해 줍니다. Connected Papers와 Research Rabbit은 한 논문의 지역적 이웃을 시각화해 주는데, 여러분이 하위 분야에 막 진입해 주요 저자가 누구인지 모를 때 특히 도움이 됩니다.
실용적인 경험칙: 패스 3을 하는 논문이라면 적어도 한 번의 후방 홉과 한 번의 전방 홉을 시도하세요. 가장 중요한 인용 문헌 두세 편을 읽고, 가장 많이 인용된 후속 연구 두세 편을 읽으세요. 이것이 한 편의 논문을 작은 연결 부분 그래프로 바꿔 주며, 그것이 연구 지식의 실제 단위입니다.
같은 논문에서 다른 연구자들이 무엇을 강조했는지 보는 것도 지름길입니다. Glasp의 community 뷰는 글과 논문에 달린 공개 하이라이트를 보여 주며, 여러 독자가 중요하다고 본 문장을 자주 수면 위로 드러냅니다. 분산된 형태의 주석이라 할 수 있고, 막 진입한 분야에서 특히 유용합니다.
대규모 문헌 고찰
3패스 방법은 논문 5~15편에는 훌륭하게 작동합니다. 그 범위를 넘어가면 한계가 드러나기 시작합니다. 조사해야 할 논문이 50편이나 100편이 된다면, "각각 다 읽겠다" 이상의 구조가 필요합니다.
해답은 종합 매트릭스입니다. 각 논문마다 고정된 몇 가지 속성을 기록하세요. 정확한 열은 분야에 따라 다르지만, 합리적인 출발 템플릿은 이렇게 생겼습니다.
| 논문 | 기여 | 방법 | 증거 강도 | 열어 놓은 공백 |
|---|---|---|---|---|
| Smith et al. 2022 | 제약 Y 아래에서 X를 위한 최초의 확장 가능한 알고리즘 | 동적 계획법 + 근사 | 강함(실제 데이터셋, 베이스라인) | 적대적 입력을 다루지 못함 |
| Lee & Park 2023 | X의 이론적 하한 | 정보이론 기반 논증 | 강함(타이트함 증명됨) | 실험적 검증 없음 |
| Ortega et al. 2024 | 의료 데이터에서 X의 실증 연구 | 병원 5곳에서 벤치마킹 | 중간(N이 작고 절제 실험 없음) | 제약 Y를 시험하지 않음 |
| Chen 2024 | X의 변형 Z 제안 | Smith et al.의 수정 | 약함(장난감 데이터셋만) | Z가 확장되는지 불분명 |
마법은 단일 행이 아니라 열에 있습니다. 20편의 논문을 "방법"으로 정렬하면, 그중 15편이 같은 기법의 변형을 사용하고 5편만이 진정으로 다른 시도를 한다는 사실이 갑자기 보입니다. "열어 놓은 공백"으로 정렬하면 패턴이 떠오릅니다. 세 편의 논문이 모두 스트리밍 데이터를 다루지 못한다고 인정한다면, 그것이 연구 기회입니다.
바로 여기서 하이라이트가 규모에서 진가를 발휘합니다. 읽은 모든 논문에 일관된 태그가 달려 있다면, 라이브러리 전체에서 태그로 하이라이트를 필터링할 수 있습니다. "지난 6개월의 모든 '공백' 주석을 보여 줘"가 실행 가능한 질의가 됩니다. 하이라이트를 내보내는 기능을 통해 Markdown, CSV, 또는 노트 앱으로 직접 내보낼 수 있으므로, 이미 읽은 내용에서 매트릭스를 반자동으로 채울 수 있습니다.
이 모든 것을 통해 지속 가능한 개인 참고 시스템을 구축하는 메타 스킬에 대해서는 personal-knowledge-management와 how-to-take-smart-notes가 더 넓은 워크플로를 다룹니다.
익사하지 않고 정리된 상태 유지하기
마지막 문제는 읽기가 아니라 읽은 것을 기억하는 일입니다. 6개월간 활발히 연구를 하고 나면 하이라이트가 수백 개, 반쯤 끝난 매트릭스가 수십 개, 더 이상 알아보지 못하는 폴더 구조가 남습니다. 몇 가지 습관이 붕괴를 막아 줍니다.
프로젝트당 폴더 하나, 모든 프로젝트에 걸친 태그 체계 하나. 폴더는 프로젝트를 분리합니다. 태그는 프로젝트를 가로지릅니다. 논문 A를 위한 문헌 고찰에서의 "공백"과 논문 B를 위한 읽기에서의 "공백"이 같은 의미라면, 6개월 뒤의 검색도 여전히 작동합니다.
모든 패스 2 논문에 대해 24시간 내에 한 문단짜리 요약을 쓰세요. 하이라이트가 아닙니다. 자기 말로 쓴 요약이며, 답해야 할 질문은 이것입니다. 이 논문은 무엇을 주장했나? 증거는 무엇인가? 내 생각의 무엇을 바꿨나? 이것이 자신의 읽기 위에 쌓아 올리는 연구자와 같은 논문을 두 번 다시 읽는 연구자를 가르는 유일한 습관입니다.
매달 통합하세요. 한 달에 한 번, 한 시간 정도를 들여 지난 4주간의 하이라이트와 요약을 검토하세요. 패턴을 찾으세요. 무엇이 계속 떠오르나요? 어떤 모순을 발견했나요? 어떤 논문을 계속 다시 들여다보게 되나요? 여기서 문헌 고찰 초안이 시작됩니다.
책도 논문과 같은 시스템에 두세요. 검토 중인 행동경제학 논문과 함께 Kahneman을 읽거나, 과학철학 독서와 함께 Kuhn을 읽는다면, 사일로로 분리하지 마세요. Kindle 하이라이트가 PDF와 같은 라이브러리로 가져와지므로, 한 문단 요약 습관이 책과 논문, 기사에 일관되게 적용됩니다.
이 중 어느 것도 새 도구를 살 필요가 없습니다. 도구 하나를 골라 꾸준히 쓰면 됩니다. 결정적 요소는 여러분의 하이라이트, 요약, 대화 기록이 6개월 뒤에 검색할 수 있는 곳에 모두 있는가 하는 것입니다. 그렇지 않다면, 자기 자신의 결론을 무한히 재발견하게 될 것입니다.
자주 묻는 질문
일주일에 논문을 몇 편이나 읽어야 하나요?
여기서는 질이 양을 이깁니다. 풀타임 박사 과정 학생에게 합리적인 목표는 패스 1 다섯에서 열 편, 패스 2 두세 편, 패스 3은 2~3주에 한 편 정도입니다. 일주일에 패스 3을 두 편씩 하고 있다면, 여러분은 논문 출판을 앞둔 전문가이거나 시간을 잘못 배분하고 있는 것입니다. 박사 초기에는 분야를 지도화하느라 패스 1 쪽으로 치우칠 것입니다. 나중에는 더 적고 깊은 읽기 쪽으로 치우치게 됩니다.
초록을 먼저 읽어야 하나요, 결론을 먼저 읽어야 하나요?
본문을 건드리기 전에 초록을 먼저, 결론을 두 번째로 읽으세요. 초록은 논문이 주장하는 바를 알려 줍니다. 결론은 저자들이 실제로 보여 주었다고 생각하는 바를 알려 주는데, 때로는 그 범위가 더 좁습니다. 방법론 이전에 둘 다 읽으면, 어느 한쪽을 수동적으로 받아들이는 대신 주장을 증거와 대조해 검증하게 됩니다.
이해가 안 되는 논문을 ChatGPT로 요약해도 되나요?
논문이 이해가 안 된다면 AI 요약이 그 문제를 해결해 주지 않습니다. 검증할 수 없는, 그럴듯하게 들리는 요약만 얻게 될 뿐입니다. 이미 직접 해석해 본 특정 구절에 대한 구체적인 질문에 AI를 사용하세요. "기본적인 선형대수를 안다고 가정하고 수식 7을 설명해 줘"는 좋은 프롬프트입니다. "이 논문을 요약해 줘"는 함정입니다. AI와 비판적 사고에 관한 Lee et al. 2024 연구가 바로 이 패턴을 대규모로 보여 줍니다. AI 신뢰가 높을수록 비판적 참여가 낮아집니다.
어떤 논문이 패스 3 심층 읽기 가치가 있는지 어떻게 결정하나요?
신호 세 가지입니다. 첫째, 그 논문의 방법이 여러분이 구축하거나 확장할 계획인 무언가를 직접적으로 뒷받침하나요? 둘째, 여러분이 관심 있는 다른 논문들이 대부분 그것을 인용하고 있나요? 셋째, 패스 2 이후에도 주의 깊은 재독해로만 답할 수 있는 실제 질문이 남아 있나요? 셋 다 그렇다면, 패스 3 후보입니다. 그저 "흥미롭다"뿐이라면 아닙니다.
논문이 정말 형편없이 쓰여 있다면요?
어떤 논문은 정말 그렇습니다. 초록과 서론이 도저히 이해가 안 된다면, 저자가 그 연구에 대한 강연을 했거나 블로그 글을 올린 적이 있는지 확인하세요. YouTube의 학회 발표는 논문 자체보다 더 명확한 경우가 많은데, 부분적으로는 20분이라는 시간이 응축을 강제하기 때문입니다. 때로는 형편없이 쓰인 논문에 같은 저자들이 생각을 정리할 시간을 가진 뒤에 쓴 좋은 후속 논문이 존재합니다. 그리고 때로는 불투명함이 저자의 문제이지 여러분의 문제가 아니라고 결정하고 건너뛰기도 합니다.
참고문헌 목록에 있는 모든 논문을 읽어야 하나요?
아뇨, 그리고 그러려고 애쓰는 것은 전형적인 미루기 함정입니다. 논문 속 인용의 대부분은 완결성을 위해서이거나 관련은 있지만 필수적이지 않은 맥락을 위한 것입니다. 보통 인용된 논문 중 서너 편에서 다섯 편 정도가 실제로 논증의 기둥 역할을 합니다. 그것들이 후방 추적 후보입니다. 나머지는 읽히지 않은 채 그래프 안에 남아 있어도 됩니다.
마치며
논문 읽기는 훈련할 수 있는 기술이지 신비한 재능이 아닙니다. 3패스 방법은 시간 예산을 제공합니다. 섹션별 주석은 신호 대 잡음비를 제공합니다. 신중하게 사용한 AI는 조회 도구와 세미나 파트너를 제공하지만, 여러분을 대신해 사고하지는 않습니다. 인용 그래프와 종합 매트릭스는 기억만으로는 감당할 수 없는 지점을 넘어 확장할 수 있게 해 줍니다.
메타 포인트는 연구 읽기가 의지력의 묘기가 아니라 시스템이라는 것입니다. 일찍 이 시스템을 구축한 학생들은 더 많은 논문을 읽고, 더 많이 기억하며, 더 나은 문헌 고찰을 씁니다. 그렇지 않은 학생들은 열두 번째 논문에서 지쳐 떨어지고 자기 탓을 합니다.
오늘 실제 논문에서 이 워크플로를 시도해 보고 싶다면, Glasp의 PDF 하이라이터로 아무 PDF나 열어 10분 동안 패스 1을 하고, 하이라이트에 태그를 달고, 그런 다음 Glasp의 AI chat을 이용해 특정 구절에 대한 근거 기반 질문을 시험해 보세요. 그게 전부입니다. 습관은 새로운 생산성 시스템이 아니라 한 편의 논문에서 시작됩니다.