생각하는 기계: 추론 모델(o3, Claude Extended Thinking, DeepSeek R1)을 실제로 언제 써야 할까?

AI의 가장 조용한 큰 변화 (P단어를 쓰지 않고)

2022년과 2023년 대부분의 기간, 더 큰 AI는 더 큰 학습을 의미했습니다. 더 많은 파라미터, 더 많은 데이터, 더 많은 GPU. 사전 학습 동안의 규모가 능력을 계속 끌어올릴 것으로 예상되었습니다.

그러다 2024년 9월, OpenAI가 o1을 프리뷰했습니다. 크다기보다는 느린 느낌의 모델이었습니다. 질문하면 쓰기 시작하기 전에 멈추곤 했습니다. 때로는 30초 동안. 12월 5일 ChatGPT Pro와 함께 출시된 전체 o1은 토큰 100만 개당 $15/$60이었습니다(OpenAI, 2024). 더 큰 모델이 아니었습니다. 쿼리당 더 많은 연산을 쓰는 모델이었습니다.

몇 주 뒤 OpenAI가 o3를 발표했습니다. DeepSeek는 2025년 1월 20일 R1을 오픈 소스로 공개했습니다(DeepSeek-AI, 2025). Anthropic은 2025년 2월 24일 Extended Thinking을 Claude 3.7 Sonnet에 통합했으며, 사용자 조정 가능한 "thinking budget"과 원시 추론 트레이스 가시화를 제공했습니다(Anthropic, 2025). 이 기능은 Claude 4, 4.5, 4.7까지 이어졌습니다.

기술적 이름은 "test-time compute scaling"입니다. 학습 동안에만 연산을 투자하는 대신, 모델에 추론 동안 생각할 추가 연산이 주어집니다. Sebastian Raschka가 "Understanding Reasoning LLMs"에서 표현한 것처럼, 조용한 변화는 이 모델들이 어떻게 학습되는지가 아니라 엔터를 누른 후에 무엇이 일어나는지입니다.

지식 노동자와 학습자에게 이것이 중요한 이유는, 모델 선택이 더 이상 품질 문제만이 아니기 때문입니다. 지연 시간 문제이자, 비용 문제이자, 작업 적합성 문제이기도 합니다.

추론 모델이 실제로 다르게 하는 것

전문 용어를 벗기면 추론 모델은 단순한 일을 합니다. 답을 쓰기 전에 자기 자신에게 사적인 초안을 씁니다. 그 초안은 수백에서 수천 토큰일 수 있습니다. 접근 방식을 탐색하고, 작업을 확인하고, 되돌아가고, 그다음 최종 응답에 전념합니다.

GPT-4o 같은 표준 채팅 모델은 왼쪽에서 오른쪽으로 토큰을 생산하며, 그 토큰들이 답입니다. 어떤 추론을 하든 그 순전파에 맞는 것으로 압축됩니다. "단계별로 생각해봐"로 프롬프트하면 종이 위에서 조금 더 많은 추론을 얻지만, 기반 모델은 숙고하도록 만들어진 것이 아닙니다.

추론 모델은 숙고하도록 만들어져 있습니다. 실제로 세 가지 구체적인 차이가 나타납니다.

쿼리당 더 많은 토큰. 추론 출력은 종종 보이는 답보다 5배에서 20배 더 많은 숨겨진 토큰을 포함합니다.
더 높은 지연 시간. 응답이 1~~3초 대신 10~~60초 걸립니다.
다른 실패 모드. 추론 모델이 틀릴 때는 종종 자신감 있고 정교하게 틀립니다. 어려운 문제에서 맞힐 때는 표준 모델이 맞출 수 없는 방식으로 맞힙니다.

DeepSeek의 Nature(2025) 논문이 가장 명확한 실증 중 하나를 제공합니다. AIME 2024에서 그들의 기반 모델은 15.6% pass@1을 기록했습니다. 올바른 추론을 보상하는 강화 학습 후, R1은 71.0% pass@1과 다수결로 86.7%를 기록했습니다. 모델은 더 많은 수학 데이터를 보지 않았습니다. 추론 토큰을 사용해 생각하는 법을 배운 것입니다.

우리 나머지의 실제 질문은, 언제 그 추가 사고가 가치 있느냐입니다.

세 가족: o3, Claude Extended Thinking, DeepSeek R1

2026년 초 기준 세 제품이 추론 모델 지형을 지배합니다. 각각 조금 다른 각도를 취합니다.

OpenAI o3는 벤치마크 깨기 옵션입니다. 2024년 12월 발표되었으며, 처음으로 ARC-AGI에서 ~85% 인간 임계를 넘었습니다. 고연산 모드에서 87.5%, 효율 티어에서 75.7%를 기록했습니다(Chollet, ARC Prize, 2024). ARC-AGI는 패턴 암기에 저항하도록 만들어졌고, 이전 모델은 근처에도 가지 못했습니다. 대학원 수준 과학 벤치마크인 GPQA-Diamond에서 o3는 87.7%, o1은 76.0%를 기록했습니다. OpenAI는 2025년 동안 o3 가격을 약 80% 인하해 토큰 100만 개당 $2/$8으로, 원래 o1 요율보다 약 7.5배 저렴해졌습니다.

Claude Extended Thinking은 조정 가능한 옵션입니다. 2025년 2월 24일 Claude 3.7 Sonnet과 함께 도입되었으며, 쿼리당 "thinking budget"을 설정할 수 있게 합니다. 원시 추론은 API 응답에서 볼 수 있어 디버깅과 감사에 유용합니다. 가격은 Claude Sonnet의 표준 토큰 100만 개당 $3/$15을 유지하므로, 추가 사고는 추가 토큰을 쓰지만 프리미엄 요율은 아닙니다.

DeepSeek R1은 오픈 웨이트 옵션입니다. 2025년 1월 20일 MIT 라이선스로 공개되었고 나중에 Nature에 게재되었습니다. R1은 기반 모델에 직접 적용된 강화 학습으로, 초기 단계에서 감독된 추론 데이터 없이 학습되었습니다. AIME 2024에서 o1-0912와 매치했고 GPQA-Diamond에서 71.5%를 기록했습니다. 1.5B에서 70B 파라미터까지의 증류 변종이 단일 GPU에서 강력한 추론을 실행 가능하게 했습니다. 업데이트 R1-0528은 AIME 2025를 87.5%로 끌어올렸습니다.

이 셋이 공간을 커버합니다. 독점 최상위(o3), 조정 가능하고 투명(Claude), 오픈 웨이트(DeepSeek R1).

벤치마크, 정직하게 읽기

맥락 없는 숫자는 오도합니다. 주요 추론 벤치마크를 표준 채팅 모델을 베이스라인으로 포함해 비교하면 다음과 같습니다.

모델	GPQA-Diamond	AIME 2024 (pass@1)	ARC-AGI (semi-private)	쿼리당 일반 비용	답변당 지연 시간
GPT-4o (표준)	~48%	~13%	~5%	~$0.01	1~3초
DeepSeek R1	71.5%	71.0% (다수결 86.7%)	~15%	~$0.005 (호스팅)	15~40초
Claude 4.5 Extended Thinking	~83%	~80%	~50% (고예산)	~~$0.05~~$0.30	10~40초
OpenAI o3	87.7%	~90%	75.7% (효율) / 87.5% (고)	~~$0.05~~$2.00+	20~60초

출처: OpenAI o3 발표(2024년 12월), ARC Prize 블로그(Chollet, 2024), DeepSeek-R1(Nature 2025), Anthropic 릴리스 노트. 지연 시간과 비용은 프롬프트 길이와 thinking budget에 따라 달라집니다.

이런 숫자를 읽을 때 염두에 둘 몇 가지가 있습니다.

GPQA-Diamond는 웹 접근이 있는 비전문가도 여전히 잘 못하는 대학원 수준 과학 질문 세트입니다. 높은 점수는 모델이 박사 후보 수준에서 추론할 수 있다는 의미입니다. 더 나은 작가나 요약자라는 뜻은 아닙니다.

AIME은 올림피아드 예선 경연입니다. 70% 이상 점수는 모델이 대략 미국 고등학생 상위 2%가 다루는 문제를 풀 수 있다는 의미입니다. AIME은 예측이나 스프레드시트 같은 일상 수학에 약하게 일반화됩니다.

ARC-AGI는 François Chollet이 암기에 저항하도록 만들었습니다. 작업은 규칙이 예시로 보이는 시각 퍼즐입니다. 추론 이전 모델은 한 자릿수 점수를 기록했습니다. o3의 도약은 연구자들에게 진정으로 놀라웠습니다. 그러나 ARC-AGI가 실용 유용성의 대리 지표는 아닙니다. 한 가지 특정 형식의 추상적 일반화를 측정합니다.

이 벤치마크를 지배하는 모델이 자동으로 제품 출시 계획, 서평, 또는 고객 이메일에 더 나은 것은 아닙니다.

추론이 도움이 되는 때

추론 모델은 세 가지 속성을 가진 작업에서 제값을 합니다. 여러 단계, 검증 가능한 답, 그리고 틀렸을 때의 높은 비용.

다단계 수학과 정량 추론. 여러 조건이 있는 세금 계산. 전치된 숫자가 답을 바꾸는 금융 모델. 단위 변환이 있는 공학 계산. DeepSeek R1이 AIME에서 얻은 55점 도약은 정확히 이런 종류의 문제에서 나왔습니다.

자명하지 않은 작업을 위한 코드 생성과 디버깅. "리스트를 정렬하는 함수를 써봐"는 추론이 필요 없습니다. 동작을 보존하면서 300줄 모듈을 리팩토링하거나, 경쟁 조건을 디버깅하거나, 논문의 알고리즘을 구현하는 것은 필요합니다.

법률과 규제 분석. 상호 참조된 조항이 있는 계약 검토. 여러 규칙이 어떻게 상호작용하느냐에 답이 달린 컴플라이언스 질문. 많은 법무 팀이 이제 첫 번째 패스 분석에 추론 모델을 사용하며, 변호사가 출력을 검토합니다.

복잡한 RAG 라우팅. 검색 시스템이 10개의 인덱스 중 어느 것을 쿼리할지, 쿼리를 재작성할지, 소스를 가로질러 종합할지 결정해야 할 때, 오케스트레이터 역할의 추론 모델은 눈에 띄게 더 나은 계획을 생산합니다.

문헌 종합. 여러 논문을 읽고 어디서 동의하고, 동의하지 않고, 무엇이 빠졌는지 식별하는 것은 추론 모델이 잘 다루는 비교 대조입니다. 하이라이트 간 주제를 끌어내기 위해 Glasp AI chat을 사용해 봤다면, 최종 종합을 위해 추론 모델로 에스컬레이션하는 것에서 가장 큰 차이를 느낄 것입니다.

어려운 과학 또는 기술 질문. 작업이 대학원 수준 화학, 물리학, 생물학을 포함한다면 40점 벤치마크 격차는 표준 모델이 생산할 수 없는 실제 답으로 번역됩니다.

휴리스틱: 신뢰하기 전에 동료에게 답을 재검토해달라고 하고 싶다면, 추론 모델은 아마 기다릴 가치가 있습니다.

추론이 해가 되는 때

추론 모델은 흥미로운 방식으로 실패합니다. 그리고 놀랍게도 많은 일상 작업에서 표준 채팅 모델보다 성능이 떨어집니다.

단순 사실 재현. 올바른 답이 모델이 이미 아는 사실 하나일 때, 추가 사고 토큰은 다시 생각할 기회를 더 줍니다. 2025년 연구는 추론 모델이 기본 사실 재현에서 2.4%에서 3.8%의 정확도를 잃는다고 보고했습니다. 모델은 올바른 답에 대한 대안을 고려하고 때로는 하나에 전념합니다.

번역. 좋은 번역은 패턴 매칭 문제이지 추론 문제가 아닙니다. 추론 모델은 GPT-4o보다 번역이 더 낫지 않으며, 20배 더 오래 걸립니다.

요약. 5,000단어를 300단어로 압축할 때 병목은 추론 깊이가 아니라 쓰기 품질입니다. 표준 채팅 모델이 더 빠르고 종종 더 깨끗한 산문을 생산합니다. AI 리서치 워크플로우 글이 더 자세히 다룹니다.

분류. 지원 티켓 태그 지정, 이메일 라벨링, 감성 점수. 추론은 정확도 없이 지연 시간만 더합니다.

단순 질문 답변. "달 착륙이 몇 년이었지?"는 사고 사슬로 개선되지 않습니다. 표준 채팅은 이것을 반초에 다룹니다.

목소리가 필요한 창의적 글쓰기. 추론 트레이스는 분석적입니다. 추론에 많이 학습된 모델은 시나 감정적 구절을 요청받으면 기계적으로 느껴지는 답을 만들기도 합니다. 표준 채팅 모델이 더 따뜻하게 느껴집니다.

더 미묘한 실패 모드는 arXiv 2509.09677 "Illusion of Diminishing Returns"에 문서화되어 있습니다. 저자들은 장기 실행 이익이 급격히 꺾인다는 것을 발견합니다. 초기 이익은 실재하지만, 추가 10,000개 추론 토큰의 한계 정확도는 빠르게 떨어집니다. 어느 지점을 넘으면, 더 많은 사고는 답을 더 늦고 더 비싸게 만들 뿐입니다.

지연 시간은 그 자체로 문제입니다. 대부분의 사용자는 30초의 침묵을 고장 난 시스템으로 해석합니다. 제품은 종종 무언가가 일어나고 있음을 사용자에게 안심시키는 가시적 "thinking" UI를 추가합니다. 빠듯한 흐름에 AI를 임베드한다면 이 마찰은 중요합니다.

실제로 쓸 수 있는 결정 규칙

실용적인 매트릭스입니다. 거칠지만 부딪힐 것의 대부분을 커버합니다.

작업 유형	추론 모델	표준 채팅 모델
다단계 수학 또는 증명	명백히 Yes	No
자명하지 않은 기능에 대한 코드	Yes	단순 스니펫만
법률 / 계약 분석	Yes	No
복잡한 RAG 쿼리 라우팅	Yes	No
과학 또는 기술 Q&A (박사급)	Yes	No
5개 이상 소스에 걸친 문헌 종합	Yes (최종 패스)	Yes (첫 패스)
번역	No	Yes
요약	No	Yes
이메일 초안	No	Yes
분류 / 태깅	No	Yes
단답 사실 Q&A	No	Yes
목소리가 필요한 창의적 글쓰기	보통 No	Yes
빠듯한 지연 시간의 채팅 인터페이스	No	Yes
브레인스토밍	가끔	보통 Yes

규칙은 압축할 수 있습니다. 세 질문을 합니다.

문제가 다단계인가? 여러 논리적 움직임을 체인으로 연결해야 하는가?
답이 검증 가능한가? 맞는지 틀린지 말할 수 있는가?
틀렸을 때의 비용이 높은가? 실수가 상당한 시간이나 돈을 낭비하는가?

적어도 둘이 yes라면 추론 모델을 사용합니다. 그렇지 않으면 지연 시간을 절약합니다. 확신이 없다면 표준 모델부터 시도하고 답이 흔들리면 에스컬레이션합니다.

싸게 시작하고 필요할 때만 에스컬레이션하는 이 패턴은 AI와 일하는 데 있어 가장 저평가된 기술 중 하나입니다. AI 리서치 워크플로우에서 더 깊이 다뤘습니다.

독서와 리서치에 의미하는 바

읽고, 배우고, 업무의 일환으로 리서치한다면, 추론 모델은 특정 슬롯에 맞지 전체 워크플로우에 맞는 것이 아닙니다.

학습 작업의 대부분은 추론이 아닙니다. 주의입니다. 어떤 소스가 중요한지 고르고, 새로운 것에 초점을 맞추고, 시간이 지나면서 아이디어의 개인 지도를 구축합니다. 어떤 모델도 그것을 대신해주지 않습니다. 이것이 Glasp 웹 하이라이터가 인간 단계를 먼저 중심으로 만들어진 이유입니다. 중요한 것을 하이라이트하고, AI는 대체자가 아닌 사고 파트너로 나중에 들어옵니다.

대부분의 일상 독서 작업에 표준 채팅 모델이 올바른 도구입니다.

방금 읽은 기사를 요약하기. 표준 모델, 빠르고 깨끗하게.
이 논문에서 이해하지 못한 개념을 설명하기. 표준 모델. 개념이 박사급 과학 주장이라면 에스컬레이션.
이번 달 내 하이라이트에서 AI 안전에 관한 인용을 모두 끌어내기. 표준 모델.
내 노트에서 플래시카드 생성. 표준 모델.

추론 모델은 더 작은 일련의 작업에서 자리를 얻습니다.

한 주제에 대한 다섯 저자의 불일치 종합. 추론 모델, 관련 구절을 하이라이트한 후가 바람직합니다.
이 논문의 논증을 기존 노트에 매핑하고 모순을 플래그. 추론 모델.
이미 읽은 것을 기반으로 내 공백을 채우는 독서 계획 설계. 추론 모델.
증명을 도출하거나 복잡한 기술 논증을 제1원리에서 작업. 추론 모델.

YouTube Summary 흐름이 좋은 예입니다. 40분짜리 강연 요약은 확실히 표준 모델 작업입니다. 그러나 강연이 기술적이고 발표자의 논증이 다른 곳에 저장해 둔 세 가지 반론에 비해 견디는지 확인하고 싶다면, 하이라이트를 컨텍스트로 추론 모델로 에스컬레이션하는 것이 비용을 뽑는 지점입니다.

이 2단 접근은 학습에 대한 AI의 영향과 AI 사고의 함정에서의 더 넓은 논점과 연결됩니다. AI는 이미 한 사고를 증폭할 때 가장 유용하며, 하지 않은 사고를 대신할 때가 아닙니다. 추론 모델은 AI가 기여할 수 있는 천장을 올립니다. 바닥을 바꾸지는 않습니다. 바닥은 자료에 얼마나 깊이 관여했느냐로 설정됩니다.

DeepSeek R1의 MIT 라이선스도 패턴을 깼습니다. 2025년까지 강력한 추론은 독점적이었습니다. 이제 누구나 자기 하드웨어에서 70B 증류 추론기를 돌릴 수 있습니다. 프라이버시, 규모의 비용, 또는 파인튜닝을 신경 쓰는 팀에게 이것은 계산을 바꿉니다. 오픈 소스 vs 폐쇄형 AI 전략에서 다뤘습니다.

자주 묻는 질문

내 작업 대부분에 추론 모델이 필요한가요?

아마 아닙니다. 독서, 글쓰기, 요약, 일반 Q&A에는 표준 채팅 모델이 더 빠르고, 더 싸고, 종종 더 정확합니다. 추론 모델은 여러 논리 단계와 검증 가능한 답이 있는 문제에서 자리를 얻습니다.

사고 사슬 프롬프팅과 추론 모델의 차이는 무엇인가요?

사고 사슬 프롬프팅은 프롬프트에서 표준 모델에 "단계별로 생각해봐"라고 지시하는 기법입니다. 추론 모델은 올바른 추론을 보상하는 강화 학습을 사용해 답 전에 훨씬 긴 내부 추론 트레이스를 생성하도록 특별히 학습됩니다. 사고 사슬 프롬프팅만으로도 일부 이점을 얻을 수 있지만, 프롬프트된 GPT-4o와 o3 사이의 어려운 벤치마크 격차는 여전히 크며, 종종 20~40 백분위포인트입니다.

o3가 o1보다 왜 이렇게 싸진가요?

OpenAI는 2025년 동안 o3 가격을 약 80% 인하해, 입력 토큰 100만 개당 $2와 출력 토큰 100만 개당 $8 정도로 끝났습니다. 감소는 모델 증류, 추론 최적화, 향상된 하드웨어 효율성에서 왔습니다. 추론 모델은 훨씬 더 많은 토큰을 생성하기 때문에 쿼리당 표준 채팅 모델보다 여전히 더 비싸지만, 토큰당 가격 격차는 크게 좁혀졌습니다.

DeepSeek R1이 정말 o3와 경쟁할 만한가요?

AIME 2024와 GPQA-Diamond 같은 수학 벤치마크에서 R1은 o1에 가깝지만 여전히 o3 뒤에 있습니다. ARC-AGI에서는 o3가 명확한 우위를 점합니다. R1이 이기는 곳은 유연성입니다. MIT 라이선스 하의 오픈 웨이트이고, 셀프 호스팅할 수 있으며, 1.5B에서 70B 파라미터의 증류 변종이 상용 하드웨어에서 실용적으로 만듭니다. 데이터 레지던시, 파인튜닝, 규모의 비용을 신경 쓰는 팀에게는 벤치마크에서 몇 포인트 뒤져 있어도 R1이 종종 더 나은 선택입니다.

추론 모델이 내 질문을 과하게 생각하는지 어떻게 알 수 있나요?

두 가지 신호가 있습니다. 첫째, 물은 질문에 비해 지연 시간이 터무니없게 느껴집니다. 예를 들어 "이 단어가 뭐야"에 45초가 걸립니다. 둘째, 답이 필요 이상으로 울타리를 치고 질문이 필요로 하지 않은 경고를 도입합니다. 2025년 연구에 문서화된 단순 사실 재현에서의 2.4%에서 3.8% 정확도 하락은 대부분 이 과도 사고 패턴에서 옵니다. 이것을 본다면 표준 모델로 전환하세요.

같은 워크플로우에서 추론과 표준 모델을 모두 쓸 수 있나요?

가능하며, 종종 최고의 설정입니다. 빠르고 대량의 작업(요약, 초안, 분류)에는 표준 모델을 쓰고, 숙고가 필요한 소수의 쿼리에는 추론 모델로 에스컬레이션합니다. Claude 3.7 Sonnet은 이를 thinking budget 슬라이더로 명시적으로 했고, OpenAI의 API는 GPT-4o와 o3 사이를 자유롭게 라우팅하게 합니다.

Glasp는 추론 모델을 쓰나요?

Glasp의 AI chat은 하이라이트에 대한 빠르고 대화형 응답에 최적화되어 있어, 대부분의 상호작용에서 표준 채팅 모델을 기본으로 씁니다. 많은 하이라이트에 걸쳐 종합하거나 여러 소스의 논증을 비교하는 것처럼 깊은 분석이 유익한 특정 사용 사례에는 추론 모델이 툴킷의 일부입니다. 원칙은 당신의 작업에서 따르도록 제안할 원칙과 같습니다. 모델을 질문에 맞추세요.

표준 채팅 모델이 결국 추론 모델이 하는 모든 것을 하게 될까요?

격차가 좁혀지고 있습니다. 새로운 표준 모델은 추론 학습의 기법을 포함하고, 추론 모델은 더 빠르고 저렴해지고 있습니다. 2027년까지 구분이 쿼리에 따라 더 많거나 적은 연산을 쓰는 단일 모델로 흐려질 수 있습니다. 지금은 두 모드가 별도 도구로 취급할 만큼 충분히 구별됩니다.

결론: 모델을 질문에 맞추기

2024년과 2025년의 큰 전환은 우리가 예전에 의미하던 방식으로 AI가 더 똑똑해진 것이 아니었습니다. 속도를 깊이와 거래하는 새로운 종류의 모델이 나타났습니다. 그 트레이드오프는 실재하고 측정 가능합니다. 추론 모델은 같은 오후에 어려운 수학에서 정확도를 두 배로 할 수 있고 단순 Q&A에서 3점을 잃을 수 있습니다.

모델 선택은 이제 공예의 일부입니다. 대부분에 빠르고 저렴하게. 추가 연산이 제값을 하는 작은 문제 세트에 느리고 깊게. 실제로 작동하는 규칙: 문제가 다단계이고, 검증 가능하고, 틀리면 비싼지 물으세요. 그 중 둘이 yes라면 추론 모델을 쓰세요. 그렇지 않으면 표준 채팅 모델을 쓰세요.

추론 모델은 사고를 선택 사항으로 만들지 않습니다. 한 가지 특정 종류의 사고를 실제로 필요할 때 더 저렴하고 신뢰성 있게 만듭니다. 나머지 시간에는 표준 모델이 여전히 최고의 도구이며, 당신 자신의 주의가 여전히 가장 중요한 부분입니다. 그것이 Glasp가 항상 밀어온 프레임입니다. AI는 이미 하이라이트하고 연결한 것을 증폭합니다. 올바른 모델을 고르면 모든 쿼리에서 더 많은 것을 얻습니다. 틀린 것을 고르면 더 나쁜 답을 더 오래 기다릴 뿐입니다.