DeepSeek 충격
2025년 1월 20일, 중국의 AI 연구소 DeepSeek가 오픈소스 추론 모델 R1을 공개했습니다. 불과 몇 시간 만에 AI 산업의 근본적인 가정, 즉 프론티어 AI에는 수십억 달러의 컴퓨팅 투자가 필요하다는 전제가 흔들리기 시작했습니다.
DeepSeek R1은 512대의 Huawei 호환 H800 칩을 사용하여 약 29만 4,000달러에 훈련되었습니다. 1억 달러도 10억 달러도 아닌, 29.4만 달러입니다. 이 훈련 비용은 이후 Nature에서 동료 심사를 거쳐 발표되어 마케팅 과장이 아님이 확인되었습니다.
이 모델은 프론티어 수준의 추론 성능을 달성했습니다. 여러 벤치마크에서 GPT-4에 필적하거나 초과하는 결과를 보였습니다. 서양 연구소들이 의존하던 고비용의 지도학습 미세조정 단계 없이, 추론을 위한 순수 강화학습이라는 새로운 접근 방식을 사용했습니다. DeepSeek가 공개적으로 발표한 이 기법은 "RL을 통한 추론"이라 불리며, 신중한 알고리즘 혁신이 무차별 대입 컴퓨팅을 대체할 수 있음을 보여주었습니다.
시장 반응은 즉각적이었습니다. NVIDIA는 하루 만에 시가총액이 6,000억 달러 이상 하락했으며, 이는 미국 주식 시장 역사상 최대의 일일 하락이었습니다. 논리는 간단합니다. 프론티어 AI에 대규모 GPU 클러스터가 필요하지 않다면, NVIDIA의 가장 비싼 칩에 대한 수요가 예상보다 낮을 수 있습니다.
빌더에게 DeepSeek 충격은 더 실질적인 의미를 가졌습니다. 경쟁력 있는 AI의 비용 하한이 수 자릿수 떨어진 것입니다. 중국의 연구소가 29.4만 달러로 프론티어 모델을 훈련할 수 있다면, AI 기반 제품의 진입 장벽은 무너집니다. 프론티어 AI에 접근하기 위해 1억 달러를 조달할 필요가 없어졌습니다. 필요한 것은 좋은 아이디어, 좋은 데이터, 좋은 엔지니어링입니다.
DeepSeek R1은 MIT 라이선스로 공개되어 누구나 제한 없이 상용, 수정, 배포할 수 있습니다. 입력 토큰 비용은 100만 토큰당 0.07달러로, 동등한 폐쇄형 모델 대안보다 약 27배 저렴합니다.
오픈 모델이 승리하는 영역
오픈 모델과 폐쇄형 모델 간의 벤치마크 수렴은 거의 누구도 예측하지 못한 속도로 진행되었습니다. Stanford의 AI Index Report 2025가 이를 기록했습니다. 오픈 모델은 MMLU, MATH-500, AIME, GPQA Diamond에서 폐쇄형 모델에 필적하거나 능가합니다.
5개의 독립적인 오픈 웨이트 모델 패밀리가 같은 12개월 동안 프론티어 수준에 도달했습니다.
| 모델 패밀리 | 출신 | 주요 성과 |
|---|---|---|
| DeepSeek (R1, V3) | 중국 (DeepSeek) | 훈련 비용 29.4만 달러로 프론티어 추론 |
| Qwen (2.5, QwQ) | 중국 (Alibaba) | 강력한 다국어 성능, 오픈 웨이트 |
| Llama (4 Scout, Maverick, Behemoth) | 미국 (Meta) | 최대 오픈 모델 생태계, 3개 계층 |
| Mistral (Large, Medium) | 프랑스 (Mistral AI) | 유럽의 대안, 뛰어난 효율성 |
| GLM (4 series) | 중국 (Zhipu AI) | 중국어 벤치마크에서 경쟁력 |
기업 도입 현황이 보급 이야기를 말해줍니다. 기업에서의 오픈소스 AI 배포는 23%에서 67%로 급증하여 2년도 안 되어 거의 3배가 되었습니다. 기업들은 폐쇄형 모델 대안 대비 70~90%의 비용 절감을 보고했습니다. 오픈소스 AI 시장 전체가 전년 대비 340% 성장했습니다.
오픈 모델의 장점은 일시적인 것이 아니라 구조적입니다.
비용. DeepSeek R1의 입력 토큰은 100만당 0.07달러입니다. GPT-5.2의 1.75달러/100만(입력)이나 Claude Opus 4.6의 5달러/100만과 비교해 보십시오. 대량 추론 워크로드에서 이 차이는 사업의 성립과 현금 소진의 차이입니다.
제어. 오픈 모델은 자체 호스팅, 미세조정, 수정이 가능합니다. 데이터 파이프라인, 추론 인프라, 모델 동작을 직접 제어할 수 있습니다. 벤더가 귀하의 동의 없이 가격을 변경하거나, 모델을 폐기하거나, 기능을 변경할 수 없습니다.
프라이버시. 자체 호스팅된 오픈 모델은 데이터를 자체 인프라에 유지합니다. 의료, 금융, 정부, 그리고 엄격한 데이터 거주 요건이 있는 모든 도메인에서 이는 종종 필수 요건입니다. 환자 데이터를 서드파티 API로 전송하면 HIPAA를 위반할 수 있지만, 자체 인프라에서의 추론은 그렇지 않습니다.
커스터마이제이션. 오픈 모델은 도메인 특화 데이터로 미세조정할 수 있습니다. 법률 AI 회사가 수백만 건의 법률 문서로 Llama 4를 미세조정하면, 일반 벤치마크에서 GPT-5가 "더 나은" 모델이라 해도 법률 작업에서 GPT-5를 능가하는 모델을 만들 수 있습니다. 도메인 미세조정은 위대한 평형기입니다.
벤더 종속 없음. 여러 경쟁력 있는 오픈 모델 패밀리가 있으므로, 단일 제공자의 가격, 가용성, 사업적 결정에 의존할 필요가 없습니다. DeepSeek가 가격을 올리면 Llama로, Llama의 다음 버전이 실망스러우면 Qwen으로 전환하면 됩니다.
폐쇄형 모델이 여전히 지배하는 영역
벤치마크 수렴 서사에는 중요한 단서가 있습니다. 오픈 모델이 폐쇄형 모델에 필적하는 것은 벤치마크에서이지, 모든 프로덕션 작업에서가 아닙니다. 정교한 AI 애플리케이션에 가장 중요한 영역에서 격차는 여전합니다.
SWE-bench Verified. AI 코딩 능력의 골드 스탠다드입니다. Claude Opus 4.5가 80.9%로 선두입니다. 오픈 모델은 상당한 격차로 뒤처져 있습니다. 프로덕션 AI 코딩(Claude Code와 Cursor가 의존하는 종류)에서 폐쇄형 모델은 실질적으로 더 우수합니다.
Chatbot Arena / LMArena Elo. 인간 선호도 순위에서 Gemini 3 Pro가 1501 Elo로 선두입니다. 상위권은 모두 폐쇄형 모델입니다. 주관적 품질(얼마나 도움이 되고, 뉘앙스 있고, 정확한 응답인지)에서 폐쇄형 모델이 우위를 유지합니다.
복잡한 에이전트 작업. 계획, 도구 사용, 오류 복구, 여러 턴에 걸친 컨텍스트 관리를 필요로 하는 다단계 워크플로. 폐쇄형 모델은 에이전트형 동작에 특화되어 훈련 및 최적화되었기 때문에 이를 더 잘 처리합니다. Anthropic의 Agent Teams 기능(다중 에이전트 조정)은 Opus 4.6에서 가장 효과적입니다. OpenAI의 컴퓨터 사용 기능에는 GPT-5급 모델이 필요합니다.
장문 컨텍스트 신뢰성. Gemini 3 Pro는 100만 토큰 컨텍스트 윈도우를 양호한 회수율로 제공합니다. Claude Opus 4.6은 100만 토큰을 효과적으로 처리합니다. 오픈 모델도 컨텍스트 윈도우를 확장했지만, 극단적인 길이에서는 종종 성능 저하를 보입니다.
안전성과 정렬. 폐쇄형 모델 제공자들은 RLHF, Constitutional AI, 안전성 미세조정에 많은 투자를 합니다. 폐쇄형 모델의 안전성 동작은 일반적으로 오픈 모델보다 더 신뢰할 수 있고 일관적입니다. 오픈 모델은 안전 조치를 우회하도록 미세조정될 수 있기 때문입니다. 부적절한 출력이 법적 책임을 야기할 수 있는 고객 대면 애플리케이션에서 이는 중요합니다.
실용적 요약:
| 능력 | 오픈 모델 | 폐쇄형 모델 | 승자 |
|---|---|---|---|
| 표준 벤치마크 (MMLU, MATH) | 프론티어 | 프론티어 | 무승부 |
| 프로덕션 코딩 (SWE-bench) | 양호 | 현저히 우수 | 폐쇄형 |
| 인간 선호도 (Arena) | 양호 | 더 우수 | 폐쇄형 |
| 복잡한 에이전트 워크플로 | 기능적 | 현저히 우수 | 폐쇄형 |
| 장문 컨텍스트 신뢰성 | 개선 중 | 더 신뢰성 높음 | 폐쇄형 |
| 안전성/정렬 | 변동적 | 더 일관적 | 폐쇄형 |
| 비용 | 10~70배 저렴 | 프리미엄 | 오픈 |
| 프라이버시/제어 | 완전 | 제한적 | 오픈 |
| 커스터마이제이션 | 완전 | 제한적 | 오픈 |
결론은 "오픈이 더 낫다"도 "폐쇄형이 더 낫다"도 아닙니다. 오픈 모델은 많은 워크로드(특히 대량 처리, 비용 민감형)에 충분하고, 폐쇄형 모델은 가장 까다로운 작업(특히 코딩, 에이전트 워크플로, 안전성이 중요한 애플리케이션)에 필요하다는 것입니다.
인프라의 양극화
하드웨어 계층이 둘로 나뉘고 있으며, 이 양극화는 오픈/폐쇄형 분할과 흥미로운 방식으로 대응합니다.
대형 거래: NVIDIA가 2025년 말 Groq를 200억 달러에 인수했습니다. Groq의 LPU(Language Processing Unit) 칩은 Llama 3 8B에서 초당 877토큰을 처리합니다. 이는 가장 빠른 GPU 대안보다 약 2배, 일반적인 GPU 처리량보다 1030배 빠릅니다. 토큰당 비용은 3050% 더 낮습니다.
Cerebras도 커스텀 실리콘 회사로, 특정 워크로드에서 GPU 기반 시스템보다 20배 빠른 추론을 제공합니다. Together AI와 Fireworks AI는 각각 전체 AI 인프라 지출의 약 10%를 차지합니다.
시장은 두 개의 뚜렷한 세그먼트로 나뉘고 있습니다.
속도를 위한 커스텀 실리콘. Groq의 LPU와 Cerebras의 웨이퍼 스케일 칩은 추론 처리량에 최적화되어 있습니다. 지연 시간에 민감한 애플리케이션에 이상적입니다. 실시간 채팅, 응답 속도가 사용자 경험에 직접 영향을 미치는 에이전트 워크플로, 대량 프로덕션 추론 등입니다. 이들은 오픈 모델(모든 하드웨어에 배포 가능)과 잘 어울리며, 폐쇄형 모델(모델 제공자의 인프라에서 제공)보다 적합합니다.
유연성을 위한 GPU. NVIDIA의 H100/B200 GPU는 훈련, 미세조정, 유연성이 필요한 추론 작업의 기본 선택으로 남아 있습니다. 모든 모델을 실행할 수 있고, 커스텀 아키텍처를 지원하며, 훈련과 추론 워크로드에 걸쳐 확장됩니다. GPU 클라우드(CoreWeave, Lambda, Nebius)가 이 세그먼트를 서비스합니다.
가격 변화. 클라우드 H100 시간당 가격은 정점 대비 6475% 하락하여 시간당 2.853.50달러 수준에 안정되었습니다. 전체 추론 비용 추이(Epoch AI 기준)는 고정 성능 수준에서 2개월마다 비용이 반감되는 것을 보여줍니다. 비용 절감률 중앙값은 2024년 1월 이후 연간 50배에서 연간 200배로 가속되었습니다.
빌더에게 인프라 선택은 모델 전략에 직결됩니다.
| 전략 | 추론 인프라 | 모델 유형 | 최적 용도 |
|---|---|---|---|
| 최저 지연 시간 | Groq LPU / Cerebras | 오픈 (자체 호스팅) | 실시간 채팅, 에이전트 액션 |
| 최저 비용 | GPU 클라우드 (스팟/예약) | 오픈 (자체 호스팅) | 배치 처리, 대량 작업 |
| 최고 품질 | 제공자 API (Anthropic, OpenAI) | 폐쇄형 | 복잡한 추론, 코딩 |
| 최대 유연성 | 다중 제공자 라우팅 | 하이브리드 | 다양한 요구가 있는 프로덕션 시스템 |
현명한 선택은 하나의 인프라를 고르는 것이 아닙니다. 지연 시간, 비용, 품질 요구사항에 따라 서로 다른 작업을 서로 다른 인프라로 라우팅하는 추상화 계층을 구축하는 것입니다.
오픈소스 AI의 전략적 논리
Google, Meta 등의 기업이 무료로 배포하는 모델에 수십억 달러를 투자하는 이유는 무엇일까요? 전략적 논리는 회사마다 다르지만 패턴은 일관됩니다.
Meta의 Llama 전략. Meta는 Llama 4를 3개 계층(Scout, Maverick, Behemoth)의 오픈 웨이트 모델로 출시했습니다. 논리는 다음과 같습니다. Meta는 AI 모델을 판매하지 않습니다. 광고를 판매합니다. 전체 산업이 Llama 위에 구축하면, Meta의 AI 연구 비용은 생태계 전반에 걸쳐 분산되는 반면 핵심 광고 사업은 AI 발전의 혜택을 받습니다. 오픈소스화는 인재 영입에도 도움이 됩니다(연구자들은 전 세계가 사용하는 모델에 기여하고 싶어합니다). 그리고 Meta의 인프라 투자를 강화하는 생태계를 만듭니다.
Llama의 보급은 전례 없는 현상을 만들었습니다. 여러 국가가 "주권 AI" 이니셔티브에 Llama를 사용하고 있습니다. 미국의 상업용 AI 제공자에 의존하고 싶지 않은 국가들은 자국 인프라에 Llama를 배포할 수 있습니다. 이 지정학적 차원이 Meta의 오픈소스 전략을 더욱 공고히 합니다.
Google의 헤지 전략. Google은 폐쇄형 모델(Gemini, 2026년 설비투자 1,850억 달러)과 오픈 기여를 모두 유지합니다. Gemini 2.5 Pro가 LMArena 리더보드 1위입니다. 그러나 Google은 오픈 연구에도 기여하고 소규모 오픈 모델도 출시했습니다. 전략은 Gemini로 프리미엄 세그먼트를 장악하면서, 오픈소스 생태계가 Google의 클라우드 사업에 불리한 방향으로 움직이지 않도록 하는 것입니다.
중국의 필요성에 의한 개방. DeepSeek, Qwen, GLM이 오픈인 이유 중 하나는 중국 AI 연구소들이 다른 경쟁 환경에 있기 때문입니다. 미국의 수출 통제가 최첨단 NVIDIA 칩에 대한 접근을 제한합니다(DeepSeek가 수출 준수 버전인 H800을 사용한 이유입니다). 모델의 오픈소스화는 글로벌 영향력을 구축하고, 국제적 연구 기여를 유치하며, 중국 AI를 미국 상업용 제공자의 실행 가능한 대안으로 자리매김시킵니다.
Mistral의 유럽 포지셔닝. Mistral은 파리 본사와 오픈 모델을 활용하여, 설계 단계에서부터 EU AI Act 요건을 준수하는 "유럽의 AI 대안"으로 자리잡고 있습니다. 데이터 주권과 규제 준수를 우려하는 유럽 기업에게 프랑스산 오픈 웨이트 모델은 전략적으로 매력적입니다.
총체적 효과는 다음과 같습니다. 오픈소스 AI는 다양한 동기를 가진 기업들에 의해 자금이 지원되어, 한 기업이 투자를 줄이더라도 다른 기업들이 계속하는 것이 보장됩니다. 이는 오픈소스 AI 생태계가 개별 기업의 재무 상태에서 보이는 것보다 더 내구성이 있게 만듭니다.
규제적 영향
AI의 규제 환경은 관할권에 따라 극적으로 다르며, 이 차이는 오픈 대 폐쇄형 모델 전략에 직접적인 영향을 미칩니다.
EU AI Act. 세계에서 가장 포괄적인 AI 규제입니다. 2024년 8월에 법제화되었습니다. 금지된 관행은 2025년 2월에 시행되었습니다. 범용 AI 규칙은 2025년 8월에 시행되었습니다. 고위험 시스템 규칙은 2026년 8월을 목표로 하고 있습니다(2027년 12월까지 연장 가능). 각 회원국은 2026년 8월까지 AI 규제 샌드박스를 설립해야 합니다. 벌금은 전 세계 연간 매출의 최대 7%에 달합니다.
모델 선택에 있어 EU AI Act가 중요한 이유는, 범용 AI 제공자가 훈련 프로세스 문서화, 리스크 평가, 투명성 요건 준수를 해야 하기 때문입니다. 자체 호스팅하는 오픈 모델을 사용하면 규정 준수 문서에 대한 통제력이 높아질 수 있습니다. 폐쇄형 모델을 사용하면 제공자의 규정 준수 태세에 의존하게 됩니다.
미국. EU와 크게 다릅니다. 행정명령 14179(2025년 1월)는 "미국의 AI 리더십 장벽 제거"를 강조했습니다. 2025년 12월 행정명령은 더 엄격한 주 규제에 우선하는 "최소한의 부담" 국가 프레임워크를 요구했습니다. 포괄적인 연방 AI 법은 존재하지 않습니다. 미국의 접근 방식은 규범적 규정 준수보다 산업 자율 규제와 혁신을 선호합니다.
중국. 개정 사이버보안법(2026년 1월 시행)은 AI를 명시적으로 다루며, 보안 검토와 데이터 지역화 요건을 설정합니다. 생성형 AI, 딥페이크, 알고리즘 추천에 대해 별도의 규제 트랙이 존재합니다. 중국의 요건은 미국 규칙과 구별되며, 특히 데이터 처리에 관해서는 더 규범적인 경우가 많습니다.
스타트업에 대한 영향. 대부분의 스타트업은 규제 임계값을 직접 트리거하지 않습니다(EU AI Act의 범용 AI 규칙은 기반 모델의 사용자가 아닌 제공자를 대상으로 합니다). 그러나 이러한 규제는 다음을 재편하고 있습니다.
- 벤더 계약: 기업 고객이 데이터 처리, 모델 투명성, 책임에 관한 AI 전용 계약 부속서를 점점 더 요구하고 있습니다
- 제품 아키텍처: 로깅, 감사 추적, 인간 감독 메커니즘, 데이터 출처 추적이 있으면 좋은 것이 아니라 필수 요건이 되고 있습니다
- 국제 시장 접근: 미국의 폐쇄형 모델만 사용하는 미국 스타트업은 데이터 주권을 우려하는 EU 고객에게 서비스를 제공하는 데 장벽이 있을 수 있습니다. EU 인프라에서의 오픈 모델 배포 옵션을 제공하면 이를 해결할 수 있습니다
모델 전략에 있어 규제는 유연성 방향으로 작용합니다. 규제 대상 워크로드에는 온프레미스로 오픈 모델을 배포하고, 민감도가 낮은 작업에는 최고 품질을 위해 폐쇄형 모델을 사용할 수 있는 기업이 모든 관할권에서 가장 유리한 위치에 있습니다.
의사결정 프레임워크
오픈 대 폐쇄형을 추상적으로 논쟁하기보다, 구체적인 상황에 기반하여 결정을 내리기 위한 실용적 프레임워크를 소개합니다.
오픈 모델을 선택해야 할 때:
추론 볼륨이 높을 때. 하루에 수백만 건의 요청을 처리한다면, 오픈과 폐쇄형 모델 사이의 10~70배 비용 차이는 실행 가능한 단위 경제와 불가능한 단위 경제의 차이입니다. 100만 토큰당 0.07달러(DeepSeek R1)와 5달러(Claude Opus 4.6)를 비교하면, Opus에서 월 15만 달러가 드는 워크로드가 DeepSeek에서는 2,100달러입니다.
데이터가 민감할 때. 의료, 금융, 정부, 법률. 자체 호스팅 오픈 모델은 데이터를 자체 인프라에 유지하여 HIPAA, SOC 2, GDPR, 업종별 규제 준수를 단순화합니다.
도메인 특화 성능이 필요할 때. 사용 사례가 좁고 명확하게 정의되어 있다면(의료 코딩, 법률 문서 분석, 재무 보고서 생성), 도메인 데이터로 오픈 모델을 미세조정하면 범용 폐쇄형 모델을 능가할 가능성이 높습니다. 모델이 모든 것에 능숙할 필요는 없습니다. 특정 작업에서 탁월하면 됩니다.
지연 시간이 중요할 때. 커스텀 실리콘(Groq LPU, Cerebras)에 오픈 모델을 배포하면, API 기반 폐쇄형 모델로는 불가능한 100밀리초 미만의 응답 시간을 달성할 수 있습니다. 실시간 애플리케이션(트레이딩, 실시간 고객 지원, 인터랙티브 에이전트)에서 이는 중요합니다.
인프라 독립성이 필요할 때. 사업이 AI에 의존한다면, 언제든 가격, 속도 제한, 가용성을 변경할 수 있는 단일 벤더의 API에 의존하는 것은 전략적 리스크입니다. 자체 인프라의 오픈 모델이 통제권을 제공합니다.
폐쇄형 모델을 선택해야 할 때:
작업 복잡도가 높을 때. 다단계 추론, 복잡한 코드 생성, 장문 컨텍스트 분석, 정교한 에이전트 워크플로. 폐쇄형 모델은 가장 어려운 작업에서 의미 있는 품질 우위를 유지합니다. 품질 차이가 제품의 가치 제안에 직접 영향을 미치면, 프리미엄을 지불할 가치가 있습니다.
ML 인프라 전문 지식이 부족할 때. 오픈 모델의 자체 호스팅, 미세조정, 최적화에는 모든 팀이 갖추지 못한 ML 엔지니어링 스킬이 필요합니다. 팀이 3명이고 ML 엔지니어가 없다면, API를 통한 Claude나 GPT 사용이 합리적 선택입니다. 비용 프리미엄은 운영의 단순성을 제공합니다.
안전성이 중요할 때. 고객 대면 챗봇, 의료 조언, 금융 추천. 견고한 안전성 훈련과 정렬을 갖춘 폐쇄형 모델은 오픈 모델보다 예측 가능합니다(오픈 모델은 안전 조치를 우회하도록 미세조정될 수 있고, 엣지 케이스에서 예기치 않은 동작을 보일 수 있습니다).
멀티모달이나 최첨단 기능이 필요할 때. 최신 기능(컴퓨터 사용, 고급 비전, 실시간 음성)은 보통 폐쇄형 모델에 먼저 등장합니다. 제품이 프론티어 기능에 의존한다면, 폐쇄형 모델은 오픈 대안이 따라잡기 몇 달 전에 접근을 제공합니다.
하이브리드 경로 (대부분에게 권장)
대부분의 프로덕션 시스템은 둘 다 사용해야 합니다.
| 워크로드 | 모델 선택 | 이유 |
|---|---|---|
| 대량 텍스트 처리 | 오픈 (DeepSeek/Llama) | 비용 민감, 대량 |
| 고객 대면 채팅 | 폐쇄형 (Claude/GPT) | 품질과 안전성 중요 |
| 도메인 특화 작업 | 미세조정된 오픈 모델 | 최고의 도메인 성능 |
| 복잡한 코딩 작업 | 폐쇄형 (Claude Code) | 상당한 품질 우위 |
| 실시간 에이전트 액션 | 오픈 on Groq/Cerebras | 지연 시간 중요 |
| 내부 도구 | 오픈 (자체 호스팅) | 비용 + 프라이버시 |
핵심 아키텍처 요건은 작업 유형, 필요한 품질, 지연 시간 요구사항, 비용 제약에 따라 요청을 라우팅하는 추상화 계층을 구축하는 것입니다. 이를 통해 필요한 곳에서 폐쇄형 모델의 품질을, 그 외 모든 곳에서 오픈 모델의 비용 효율성을 얻을 수 있습니다.
하이브리드 아키텍처 구축
프로덕션에서 하이브리드 오픈/폐쇄형 모델 아키텍처를 실제로 구현하는 방법을 소개합니다.
1. 작업 분류 정의
모델을 선택하기 전에, 애플리케이션 내의 모든 AI 워크로드를 분류하십시오.
- Tier 1 (품질 중요): 출력 품질이 수익이나 사용자 신뢰에 직접 영향을 미치는 작업. 비용에 관계없이 최고의 모델을 사용합니다.
- Tier 2 (충분한 수준): 적절한 성능이면 충분한 작업. 훨씬 낮은 비용의 오픈 모델을 사용합니다.
- Tier 3 (대량 처리): 비용이 지배적인 대량 작업. 최소 품질 임계값을 충족하는 가장 저렴한 모델을 사용합니다.
2. 라우터 레이어 구축
모델 라우터는 다음을 고려해야 합니다.
- 작업 유형: 코딩 작업은 Claude로, 요약은 오픈 모델로, 분류는 미세조정 모델로 라우팅합니다.
- 지연 시간 요구사항: 실시간 상호작용은 빠른 추론(Groq)으로, 배치 처리는 비용 최적화 GPU 클라우드로 라우팅합니다.
- 품질 임계값: 프론티어 품질이 필요한 작업은 폐쇄형 모델로, "충분한 수준"이면 되는 작업은 오픈 모델로 라우팅합니다.
- 폴백 로직: 기본 모델을 사용할 수 없거나 느린 경우, 대안으로 폴백합니다. 단일 장애점을 만들지 마십시오.
3. 평가에 투자
하이브리드 아키텍처에서 가장 어려운 부분은 구축이 아니라, 어떤 모델이 어떤 작업에서 최고 성능을 발휘하는지 파악하는 것입니다. 이를 위해 필요한 것:
- 자체 데이터로 벤치마킹: 표준 벤치마크는 특정 사용 사례에 어떤 모델이 최적인지 알려주지 않습니다. 실제 워크로드의 대표 샘플로 평가를 실행하십시오.
- 프로덕션에서의 A/B 테스트: 트래픽의 일정 비율을 다른 모델로 라우팅하고 결과 품질(사용자 만족도, 작업 완료율, 오류율)을 측정합니다.
- 비용 대 품질 모니터링: 각 모델-작업 조합에 대해 품질 단위당 비용을 추적합니다. 모델이 업데이트되고 가격이 변경되면, 최적 라우팅도 바뀝니다.
4. 모델 업데이트 계획
오픈과 폐쇄형 모델 모두 자주 업데이트됩니다. 아키텍처는 다음을 처리할 수 있어야 합니다.
- 모델 버전 고정: 프로덕션에서 새 모델 버전으로 자동 업그레이드하지 마십시오. 먼저 테스트합니다.
- 점진적 롤아웃: 모델을 전환할 때, 트래픽을 점진적으로 늘리면서 품질 지표를 모니터링합니다.
- 롤백 기능: 새 모델 버전이 특정 작업의 품질을 저하시키면, 신속하게 롤백합니다.
5. 데이터 파이프라인 관리
미세조정된 오픈 모델은 훈련 데이터 파이프라인의 품질에 좌우됩니다.
- 상호작용 데이터 수집: 모든 사용자 상호작용은 도메인 특화 미세조정을 위한 잠재적 훈련 데이터입니다.
- 데이터 품질 유지: 쓰레기가 들어가면 쓰레기가 나옵니다. 데이터 정제, 레이블링, 큐레이션에 투자하십시오.
- 주기적 재훈련: 도메인이 진화하면(새로운 법적 선례, 새로운 의료 가이드라인, 새로운 금융 상품), 미세조정 모델에도 업데이트된 훈련 데이터가 필요합니다.
- 개인정보 보호 설계: 사용자 데이터로 훈련하기 전에, 데이터 파이프라인이 해당 규제를 준수하는지 확인하십시오.
자주 묻는 질문
오픈소스 AI는 진정한 "오픈소스"인가요?
복잡한 문제입니다. 대부분의 "오픈" AI 모델은 진정한 오픈소스가 아니라 "오픈 웨이트"입니다. 모델 가중치(추론 및 미세조정 가능)는 공개하지만, 전체 훈련 데이터, 훈련 코드, 인프라 세부사항은 공개하지 않습니다. DeepSeek R1은 예외로, 훈련 방법론을 공개하고 MIT 라이선스로 출시했습니다. Open Source Initiative가 "오픈소스 AI"의 공식 정의를 마련 중이지만, 업계에서의 사용은 느슨합니다.
오픈 모델이 정말 GPT-5와 Claude Opus에 필적할 수 있나요?
표준 벤치마크에서는 그렇습니다. 가장 어려운 실제 작업(복잡한 코딩, 다단계 추론, 정교한 에이전트 워크플로)에서는 아직입니다. 벤치마크에서의 격차는 좁아지고 있지만, 어려운 실제 작업의 롱테일에서는 격차가 남아 있습니다. 대부분의 프로덕션 사용 사례에서 오픈 모델은 충분합니다. 가장 어려운 10~20%의 작업에서는 폐쇄형 모델이 의미 있는 우위를 유지합니다.
오픈 모델 자체 호스팅 비용은 얼마인가요?
모델 크기와 트래픽에 따라 다릅니다. Llama 4 Maverick(중간 계층 모델)을 클라우드 GPU 인스턴스에서 추론용으로 운영하면 시간당 약 35달러가 듭니다. 하루 10만 건의 요청을 처리하는 스타트업은 월 약 2,0005,000달러이며, 폐쇄형 모델 API로 동일한 볼륨의 경우 월 1만5만 달러와 비교됩니다. 자체 호스팅 대 API 사용의 손익분기점은 보통 모델 크기와 작업 복잡도에 따라 월 5만10만 건 정도입니다.
스타트업은 오픈 모델과 폐쇄형 모델 중 어디서 시작해야 하나요?
속도를 위해 폐쇄형 모델로 시작한 후, 규모가 커지면 비용에 민감한 워크로드를 오픈 모델로 이전하십시오. 초기 단계에서는 폐쇄형 모델의 API 단순성으로 제품-시장 적합성에 집중할 수 있습니다. 트래픽이 늘고 워크로드를 이해하게 되면, 대량이고 명확하게 정의된 작업을 선택적으로 미세조정 오픈 모델로 이전하여 70~90%의 비용 절감을 달성하십시오.
DeepSeek의 보안 우려는 어떤가요?
DeepSeek의 중국 출신은 특히 정부, 국방, 핵심 인프라 분야의 일부 조직에 합당한 우려를 제기합니다. 모델 가중치 자체는 검사 가능하므로(폐쇄형 모델 API와 달리) 보안 감사가 가능합니다. 엄격한 공급망 요건을 가진 조직에게는 미국산 오픈 모델(Llama)이나 유럽 대안(Mistral)이 지정학적 리스크 없이 유사한 비용 혜택을 제공합니다.
오픈 모델의 코딩 능력은 얼마나 빠르게 따라잡고 있나요?
빠르지만, 아직 거리가 있습니다. 오픈 모델은 2025년에 코딩 벤치마크에서 상당히 개선되었지만, SWE-bench Verified(가장 프로덕션에 가까운 코딩 벤치마크)에서의 격차는 여전히 큽니다. Claude Opus 4.5가 80.9%로 선두입니다. 최고의 오픈 모델은 50~65% 범위입니다. 프로덕션 AI 코딩(Claude Code를 구동하는 종류)에서는 폐쇄형 모델이 여전히 분명한 선택입니다. 더 단순한 코딩 작업(보일러플레이트, 문서화, 기본 함수)에서는 오픈 모델이 적합합니다.
결론: 이분법을 넘어서
오픈 대 폐쇄형 AI 논쟁은 진짜 전략적 질문을 가리는 잘못된 이분법입니다. 각 작업에 적합한 모델을 사용하는 시스템을 어떻게 구축할 것인가, 그것이 핵심입니다.
DeepSeek는 프론티어 AI에 수십억 달러의 예산이 필요하지 않음을 증명했습니다. 기업 도입 데이터는 오픈 모델이 대부분의 워크로드에서 프로덕션 준비가 되었음을 증명합니다. 그러나 SWE-bench, LMArena, 실제 에이전트 성능은 폐쇄형 모델이 가장 어렵고 가치 높은 작업에서 우위를 유지하고 있음을 증명합니다.
승자는 오픈 대 폐쇄형의 "올바른 편"을 고른 기업이 아닙니다. 유연한 아키텍처를 구축하고, 평가에 투자하며, 특정 작업, 품질 요구사항, 비용 제약의 조합에 맞게 모델 포트폴리오를 최적화한 기업이 될 것입니다.
오늘 의사결정을 내리는 CTO에게:
- 하나의 모델이나 제공자에 올인하지 마십시오. 환경이 바뀌면 모델을 교체할 수 있는 추상화를 구축하십시오.
- 품질을 위해 폐쇄형에서 시작하고, 비용을 위해 오픈으로 이전하십시오. 제품 개발 중에는 폐쇄형 모델의 API 단순성을 활용하고, 규모 확대 시 비용 민감 워크로드를 미세조정 오픈 모델로 이전하십시오.
- 평가 인프라에 투자하십시오. 새 모델을 자사의 특정 작업에서 빠르게 벤치마킹하는 능력은 다른 모든 모델 결정을 향상시키는 메타 스킬입니다.
- 도메인에 맞게 미세조정하십시오. 대부분의 기업에서 ROI가 가장 높은 AI 투자는 더 비싼 모델이 아니라, 자사의 고유 데이터로 훈련한 미세조정 오픈 모델입니다.
- 규제 분화에 대비하십시오. 국제 고객에게 서비스를 제공한다면, 자체 호스팅과 API 기반 모델 옵션을 모두 갖추는 것이 EU, 미국, 기타 규제 체계에서 유연성을 제공합니다.
6,000억 달러의 질문은 사실 오픈 대 폐쇄형의 문제가 아닙니다. AI 인프라가 전례 없는 속도로 변화하는 환경에 적응할 만큼 유연한지의 문제입니다. 6개월 후에는 벤치마크 리더, 비용 구조, 모델 능력이 달라져 있을 것입니다. 여러분의 아키텍처는 그에 대비해야 합니다.