음성 노트의 귀환
오랫동안 음성 메모는 최후의 수단이었습니다. 운전하거나 개를 산책시키며 타이핑할 수 없을 때 썼습니다. 녹음은 전화기에 몇 주 앉아 있었습니다. 거의 다시 듣지 않았습니다. 자막은, 있다면, 쓸모없을 만큼 엉망이었습니다.
그것이 2022년 말경 바뀌기 시작했고, 2026년에는 같은 제품 카테고리조차 아닙니다. 전화기의 음성 메모 앱은 이제 세련된 요약을 씁니다. 회의 도구는 배경에서 조용히 듣고 구조화된 노트를 뱉어냅니다. 1인 개발자들이 "전화기에 말하고, 깨끗한 생각을 받아라" 앱을 만들어 진지한 돈을 벌고 있습니다. AudioPen 같은 인디 제품은 벤처 캐피탈 없이 약 12개월 만에 약 $1M ARR에 도달했습니다. Dan Shipper가 Every(2023)에서 다룬 내용입니다.
전환은 실재하며, 마이크에 관한 것이 아닙니다. 마이크는 항상 괜찮았습니다. 바뀐 것은 기계 전사가 마침내 충분히 좋아지고, 충분히 저렴해져서, 인디 개발자가 그 위에 만들 수 있게 되었다는 것입니다.
이 기사는 실제로 무엇이 일어났는지, 왜 말하기가 놀라운 범위의 작업에서 타이핑을 이기는지, 말하기가 생각에 도움이 되는 이유의 인지 과학, 현재 도구 지형, 그리고 어디에 해결되지 않은 문제가 있는지를 다룹니다.
말하기는 타이핑보다 빠릅니다. 훨씬 빠릅니다.
원시 숫자부터 시작합니다. 대부분의 사람이 예상하는 것보다 더 편향되어 있습니다.
타이핑 속도는 대규모로 연구되었습니다. Dhakal과 동료들은 "Observations on Typing from 136 Million Keystrokes" (CHI 2018)에서 168,000명의 자원자로부터 1억 3,600만 개의 키 입력을 분석했습니다. 일반 인구의 평균 타이핑 속도는 약 52 WPM이었으며, 실제 키보드에서의 중위수는 40 WPM에 더 가까웠습니다. 데스크톱 하드웨어의 터치 타이피스트는 실제로 60~80 WPM에서 정점에 달하며, 그것을 오래 유지하는 사람은 거의 없습니다.
말하기는 완전히 다른 영역입니다. 대화형 영어는 약 125~150 WPM입니다. 빡빡한 스케줄의 팟캐스터 같은 빠른 말하기는 이해하기 어렵지 않으면서 180 WPM에 도달할 수 있습니다. 문장 사이에 멈추며 생각하는 신중한 받아쓰기조차 약 100 WPM에 근접합니다.
이것이 실제로 무엇을 의미하는지.
| 활동 | 일반 속도 (WPM) | 5분 출력 | 적합 용도 |
|---|---|---|---|
| 모바일 엄지 타이핑 | 36 WPM | ~180단어 | 짧은 메시지 |
| 평균 데스크톱 타이핑 | 40 WPM | ~200단어 | 집중 쓰기 |
| 빠른 터치 타이핑 | 70 WPM | ~350단어 | 초안, 코딩 |
| 신중한 받아쓰기 | 100 WPM | ~500단어 | 구조화된 노트 |
| 자연스러운 말하기 | 140 WPM | ~700단어 | 아이디어 캡처, 재현, 음성 메모 |
| 빠른 말하기 | 180 WPM | ~900단어 | 팟캐스트, 교육 |
캡처에 격차는 약 3배입니다. 5분간 걸으면서 타이핑된 두 페이지에 해당하는 것을 받아쓸 수 있습니다. 같은 5분 동안 책상에서 최대 한 페이지를 생산할 것이며, 가만히 앉아 있어야 합니다.
조건은 품질입니다. 원시 전사는 쓴 텍스트보다 더 길고 더 엉망입니다. 거기서 AI 계층이 중요하며, 받아쓰기가 이미 존재했는데도 2015년 음성 노트 앱이 뜨지 않은 이유입니다. 정리 없는 전사는 반쪽 제품입니다.
말하기가 단순 전사가 아니라 생각에 도움이 되는 이유
속도 이점은 명백한 부분입니다. 더 흥미로운 주장은 말하기가 사고 자체의 질을 바꾼다는 것입니다.
Lev Vygotsky는 "Thought and Language" (1934)에서 이 주장을 했습니다. 그의 주장은 내적 발화, 머릿속에 흐르는 해설이 추론이 실제로 일어나는 곳이라는 것이었습니다. 그 내적 발화를 외재화하고 소리 내어 말하는 것은 단지 생각을 기록하는 것이 아닙니다. 그것을 날카롭게 합니다. 틈을 알아차립니다. 자신이 자기모순하는 것을 듣습니다. 종이 위에서는 괜찮아 보이지만 소리 내어 말하면 잘못되게 들리는 논리 도약을 잡습니다.
프로그래머들은 이것을 독립적으로 재발견했습니다. Andy Hunt와 Dave Thomas는 "The Pragmatic Programmer" (1999)에서 "rubber duck debugging"을 묘사했습니다. 코드를 줄 단위로 무생물에게 설명하는 실천입니다. 오리는 아무것도 하지 않지만, 문제를 소리 내어 말하는 행위가 신뢰성 있게 버그를 표면화합니다. 머리 속에 머물 때와 다른 방식으로 자기 추론을 듣습니다.
Feynman 기법은 같은 원리로 작동합니다. 평이한 언어로 아이디어를 설명할 수 없다면 이해하지 못한 것입니다. 이 테스트는 말하기가 완결성을 강제하기 때문에 작동합니다. 타이핑은 흐릿한 부분을 건너뛰게 합니다. 말하기는 흐릿함을 들을 수 있게 만듭니다.
실험적 지지도 있습니다. Norman Slamecka와 Peter Graf는 1978년에 "generation effect"를 문서화했습니다. 당신이 생산한 정보(생성, 바꿔 말하기, 설명을 통해)가 수동적으로 읽은 정보보다 훨씬 더 잘 기억된다는 것입니다. 이 효과는 수십 년의 기억 연구에 걸쳐 재현되었습니다. 음성 노트는 그 선의 생성 측에 있습니다. 할 일 목록을 타이핑하는 것은 소리 내어 말하고, 자기 목소리를 듣고, 그다음 깨끗한 전사를 읽는 것보다 인지에 가볍습니다.
셋을 합칩니다. 속도(말은 타이핑보다 빠름), 명료성(놓칠 틈을 잡음), 유지(생산한 것을 기억함)를 얻습니다. 드문 조합이며, 이것이 음성 우선 노트 필기가 장난감이 아닌 이유입니다.
Whisper의 순간
인디 개발자가 실제로 감당할 수 있는 신뢰할 만한 전사 엔진 없이는 이 중 어느 것도 중요하지 않았을 것입니다.
OpenAI는 2022년 9월 Whisper를 공개했습니다. Radford와 동료들의 논문 "Robust Speech Recognition via Large-Scale Weak Supervision" (arXiv:2212.04356)은 68만 시간의 다국어, 다작업 오디오로 학습된 모델을 상세히 설명했습니다. large-v2와 large-v3 변종은 LibriSpeech의 깨끗한 테스트 세트에서 약 5% 단어 오류율을, 더 시끄러운 실제 발화에서 8~12%를 기록했습니다. 99개 언어를 지원했습니다. 오픈 소스였습니다.
두 가지가 Whisper를 전환점으로 만들었습니다. 첫째, 품질이 Google과 Microsoft의 상업적 클라우드 제공과 충분히 가까워서 대부분의 빌더에게 기본 선택이 되었습니다. 둘째, 소비자 GPU에서 로컬로 돌았습니다. 인디 개발자가 분당 API 수수료를 지불하지 않고, 그 오디오를 제3자에게 보내지 않고 사용자의 오디오를 전사할 수 있었습니다. "당신의 생각을 녹음하라" 같은 프라이버시에 민감한 사용 사례에 중요했습니다.
비용 곡선은 빠르게 떨어졌습니다. 2020년에 클라우드 API로 1시간의 오디오를 전사하는 데 몇 달러가 들었고 여전히 수동 정리가 필요했습니다. 2024년까지 OpenAI API를 통한 Whisper는 시간당 약 $0.36이었고, 셀프 호스팅은 연산 외에는 사실상 무료였습니다. 전사는 "과금되는 분 단위로 이 서비스를 호출"에서 "오디오를 값싼 텍스트로 취급"으로 갔습니다.
그 문장이 그다음에 일어난 거의 모든 것을 설명합니다.
2023~2026 음성 AI 앱 폭발
전사가 값싸고 좋아지자 앱 계층이 폭발했습니다. Whisper 이후 2년간 출시된 것의 대략적인 지도입니다.
AudioPen (2023, Louis Pereira). 1인 개발자가 한 가지를 하는 웹 앱을 만들었습니다. 녹음 누르고, 중얼거리고, 정지 누르면 그 중얼거림이 깨끗한 요약으로 바뀝니다. Pereira는 약 12개월 만에 약 $1M ARR에 부트스트랩했으며, Dan Shipper의 Every 커버리지(2023)에 문서화되어 있습니다. VC 없음, 팀 없음, 그로스 해킹 없음. 제품이 그만큼 명백히 유용했습니다.
Voicenotes.com (2024, Jordan Singer). 이전에 Meta에 있었고 Mainframe의 창립자인 Singer는 무료 티어와 월 $10 유료 티어로 Voicenotes를 출시했습니다. 단순한 전사가 아니라 노트와 채팅을 강조했습니다. 아카이브가 쿼리 가능해졌습니다.
Granola (2024, 런던). 회의용으로 만들어졌습니다. Granola는 봇 참가자로 통화에 들어가지 않고 Mac에서 오디오를 듣고, 어색한 "Fathom이 회의에 참가했습니다" 에티켓을 피합니다. Spark Capital에서 시드 라운드를 받았고, 그다음 2024년 5월 Lightspeed가 주도한 $20M Series A를 받았습니다. Sifted와 TechCrunch의 밸류에이션 보고는 출시 1년 안에 9자리 범위에 들어간다고 했습니다.
Apple Intelligence (2024년 10월, iOS 18.1). Apple은 Voice Memos 안에 통화 녹음, 전사, 요약을 출시했습니다. Notes 앱은 인라인 오디오 전사를 얻었습니다. 대부분의 iPhone 사용자에게 음성 AI는 다운로드가 아닌 기본값으로 도착했습니다.
Otter.ai. 다른 것들보다 오래되었지만(2016년 창립) 같은 시기에 AI 요약, 실행 항목, 회의 전용 기능으로 재자리매김했습니다. 2024년까지 Granola와 Read.ai와 함께 표준 옵션이었습니다.
ChatGPT Voice Mode. 노트 앱 자체는 아니지만, 2024년 말에서 2025년에 걸쳐 OpenAI의 Advanced Voice Mode는 "AI에게 아이디어에 대해 말하고, 일관된 서면 응답을 받는" 것을 캐주얼한 상호작용으로 만들었습니다. 그것은 사람들이 일반적으로 음성 도구에 기대하는 것을 바꿨습니다.
2026년에 어떻게 비교되는지 보겠습니다.
| 도구 | 적합 용도 | 전사 품질 | 출력 형식 | 가격 (2026) |
|---|---|---|---|---|
| AudioPen | 혼자 생각 쏟기 | 높음 (Whisper 기반) | 깨끗한 요약, 노트, 트윗 스레드 | 무료 / ~$80/년 |
| Voicenotes.com | 검색 가능한 개인 음성 저널 | 높음 | 노트, 불릿 포인트, 노트와 채팅 | 무료 / $10/월 |
| Granola | 회의 노트 (Mac) | 매우 높음 | 실행 항목이 있는 구조화된 회의 노트 | 무료 티어 / ~$14/월 |
| Apple Voice Memos + Intelligence | iOS/Mac 내장 캡처 | 높음 (온디바이스) | 전사 + 요약 | 기기와 함께 포함 |
| Otter.ai | 팀 회의 전사 | 높음 | 실시간 자막, 공유 가능한 노트 | 무료 / $17/월 |
| ChatGPT Voice Mode | AI와 소리 내어 생각하기 | 높음 | 대화형 응답 | Plus에 포함 |
흥미로운 패턴은 이들이 실제로 서로 경쟁하지 않는다는 것입니다. 컨텍스트에 따라 시장을 나눕니다. Granola는 회의를 소유합니다. AudioPen은 혼자 아이디어 캡처를 소유합니다. Apple은 기본 iPhone 경험을 소유합니다. Voicenotes는 "내가 말한 모든 것을 검색하고 싶다" 사용 사례를 소유합니다. ChatGPT는 대화형 사고 파트너 역할을 소유합니다.
최고의 앱이 전사를 넘어 실제로 하는 것
사용자에게 원시 Whisper 출력을 건네면 일주일 안에 그만 쓸 것입니다. 말한 생각의 전사는 읽기 어렵습니다. 사람들은 되돌아갑니다. "음"이라고 말합니다. 문장을 다시 시작합니다. 3분짜리 음성 메모는 아무도 훑어보지 않을, 재읽기는커녕, 450단어 벽이 됩니다.
지속된 앱은 모두 이 하류 문제를 해결했습니다. 몇 가지 패턴이 반복적으로 나타납니다.
단순 정리가 아닌 재구성. AudioPen의 시그니처 움직임은 유능한 에디터가 한 번 패스한 것처럼 두서없는 음성 노트를 다시 쓰는 것입니다. 불릿 포인트가 그룹으로 나옵니다. 여담이 잘립니다. 최종 노트는 사용자가 말한 것보다 종종 더 짧으며, 이는 순진한 전사가 하는 것의 반대입니다.
다중 형식 출력. 대부분의 앱은 같은 녹음을 요약, 실행 항목 세트, LinkedIn 포스트, 또는 트윗 스레드로 요청하게 합니다. 오디오는 원자재입니다. 형식은 읽는 시점의 프롬프트 선택입니다.
자동 태깅과 검색. Voicenotes와 Granola는 모두 전사를 풀 텍스트로 인덱싱해 지금까지 만든 모든 노트에 걸쳐 검색할 수 있게 합니다. 가정은 어떤 녹음에 가격에 대한 아이디어가 있었는지 기억하지 못할 것이라는 것입니다. "가격"이라는 단어는 기억할 것입니다.
노트와 채팅. "지난달 Q2 전략에 대해 뭐라고 했지?"라고 물으면 앱이 관련 클립을 검색합니다. 이것은 자체 아카이브에 대한 표준 검색 증강 생성이며, 음성 앱이 점점 더 개인 지식 베이스처럼 느껴지는 이유입니다.
수동적 회의 캡처. Granola가 봇으로 참가하지 않고 시스템 오디오를 듣는 트릭은 기술적이기보다는 UX 선택이지만, 중요합니다. 사용자는 "Fathom Notetaker"라는 네 번째 참석자가 있는 이유를 모든 외부 참가자에게 설명하고 싶지 않습니다.
전사는 상품입니다. 제품은 텍스트 이후 당신이 하는 모든 것입니다.
검색 문제
여기서 음성 노트 앱이 조용히 벽에 부딪힙니다.
캡처 측면은 해결되었습니다. 전화기에 말할 수 있고, 몇 초 안에 깨끗하고 구조화된 노트를 얻습니다. 그러나 몇 달간의 정기적 사용 후, 대부분의 사람은 수백 개의 노트를 갖게 됩니다. 많은 것이 좋습니다. 많은 것이 다시 보고 싶을 아이디어를 담고 있습니다. 그리고 대부분의 사용자는 결코 돌아가지 않습니다. 아무것도 찾을 수 없기 때문입니다.
음성의 검색 문제는 타이핑된 노트보다 더 나쁩니다. 두 가지 이유에서입니다. 첫째, 타이핑할 때는 기억할 만한 키워드를 고르는 경향이 있습니다. 말할 때는 그렇지 않습니다. 한 녹음에서 "로드맵"이라는 단어를, 다른 녹음에서 "계획"을, 세 번째에서 "우리가 가는 곳"을 썼고 모두 같은 주제에 대한 것입니다. 키워드 검색만으로는 셋을 다 잡을 수 없습니다.
둘째, 음성 노트는 쓴 노트처럼 다시 읽히지 않습니다. 노트를 타이핑하는 것은 표현에 대해 생각하게 강제하고, 그것이 재현을 돕습니다. 받아쓰기는 너무 빨라 종종 뇌가 안에 있는 것을 잠그기 전에 노트가 저장됩니다. 요지는 기억하지만, 표현은 기억하지 못합니다.
이것은 Tiago Forte의 세컨드 브레인 구축 프레임워크가 타이핑된 노트에 대해 해결하려 설계된 것과 같은 문제이며, Sönke Ahrens가 스마트 노트 작성법에서 작업한 것입니다. 캡처는 쉽습니다. 검색은 대부분의 시스템이 실패하는 곳입니다. 음성은 그 방정식의 양쪽을 증폭합니다. 더 많은 캡처, 더 적은 검색.
해결은 더 나은 음성 앱이 아닙니다. 오디오 전사를 하이라이트, 태그, 연결, 쿼리할 또 다른 종류의 텍스트로 취급하는 음성 앱 위의 계층입니다. 이것이 현대 개인 지식 관리의 핵심 모델입니다.
음성 + 하이라이트 + 쿼리: 전체 워크플로우
여기서 음성 도구와 하이라이트 시스템이 자연스럽게 짝을 이룹니다.
3개월 이후에 실제로 살아남는 워크플로우는 이렇습니다.
1. 빠르게 캡처합니다. AudioPen, Voicenotes, 또는 네이티브 Apple Voice Memos를 사용해 생각이 있을 때 쏟아냅니다. 편집하지 않습니다. 구조를 걱정하지 않습니다. 요점은 아이디어를 잃지 않는 것입니다.
2. AI가 첫 번째 정리를 하게 합니다. 대부분의 앱은 요약과 정리된 전사를 생산합니다. 그것이 원자재입니다.
3. 전사를 다시 읽을 수 있는 곳에 내보내거나 붙여 넣습니다. 대부분의 음성 앱은 Markdown으로 내보내거나 Notion, Obsidian, 또는 웹 페이지로 보내게 합니다. 음성 앱 안에만 사는 전사는 또 하나의 사일로입니다.
4. 간직할 것을 하이라이트합니다. 400단어 전사 중 기억할 가치가 있는 것은 아마 세 문장입니다. 그것을 하이라이트합니다. 여기가 Glasp 웹 하이라이터가 맞는 곳입니다. 자신의 녹음 전사를 포함한 모든 웹 페이지에서 구절을 하이라이트하고, 그 하이라이트를 검색 가능한 라이브러리에 저장하게 해줍니다.
5. 모든 것에 걸쳐 쿼리합니다. 하이라이트가 나머지 독서 노트와 YouTube Summary 캡처와 함께 살게 되면, Glasp AI chat에 전체 아카이브에 걸친 질문을 할 수 있습니다. "지난 6개월 동안 가격에 대해 뭐라고 했지?"는 검색 문제가 아니라 대화가 됩니다.
6. 스케줄에 맞춰 다시 방문합니다. 음성 노트는 거의 다른 어떤 노트 유형보다 간격 복습의 이득을 봅니다. 받아쓰기의 유지 비용이 타이핑보다 낮기 때문입니다. 주간 리듬을 설정해 지난주의 하이라이트를 훑어봅니다.
이것이 이 일의 모양입니다. 음성을 통한 빠른 캡처. 하이라이트를 통한 편집적 분류. AI 검색을 통한 장기 접근. 2026년에 어떤 단일 앱도 셋 다 잘하지 못하며, 괜찮습니다. 워크플로우가 제품입니다.
이 루프의 독서 중심 버전을 원하는 독자를 위해 동반 글은 AI 독서 어시스턴트이며, 오디오가 아닌 기사와 PDF에 적용된 같은 캡처-큐레이션-쿼리 패턴을 다룹니다.
말하기 우선 노트 필기의 함정
음성은 공짜 승리가 아닙니다. 세 가지 실패 모드가 반복적으로 나옵니다.
말한 언어의 모호성. 타이핑할 때는 구두점을 찍습니다. 말할 때는 그렇지 않습니다. 전사는 쉼표가 어디에 있어야 했는지에 따라 의미가 뒤집힐 수 있습니다. 대부분의 AI 요약기가 이것을 잘 처리하지만, 엣지 케이스(기술 용어, 고유명사, 비원어민 화자, 약어)는 어쨌든 요약이 매끄럽고 자신감 있게 읽히기 때문에 발견하기 어려운 방식으로 실패합니다.
요약 계층의 환각. 전사는 근거가 있습니다. 요약은 그렇지 않습니다. 회의 요약 도구에 관한 2024년 Stanford 연구는 AI 회의 요약의 불릿 포인트의 약 10~15%가 원래 전사에 없는 주장을 포함했다는 것을 발견했습니다. 회의에서 무엇을 결정했는지 음성 앱에 의존한다면, 요약만이 아니라 전사도 읽어야 합니다.
프라이버시. 오디오는 텍스트보다 더 민감합니다. 대화의 전사는 같은 대화에 대한 타이핑된 노트와 매우 다릅니다. 오디오를 클라우드 서버로 보내는 앱은 민감한 데이터를 제3자를 통해 라우팅하고 있습니다. Apple Intelligence의 온디바이스 모델이 이에 대한 응답입니다. 클라우드 도구를 쓴다면, 음성 콘텐츠를 업로드된 이메일과 같은 방식으로 취급하세요.
큐레이션 없는 캡처의 함정. 가장 큰 실패 모드는 기술적이 아닙니다. 행동적입니다. 음성은 캡처를 너무 값싸게 만들어 사용자가 큐레이션하는 것보다 훨씬 더 많이 캡처합니다. 수백 개의 노트가 쌓입니다. 어느 것도 하이라이트되거나 다시 방문되지 않습니다. 아카이브는 디지털 쓰레기장이 됩니다. 이것은 스크린샷 앱과 나중에 읽기 대기열을 괴롭히는 같은 함정입니다. 쉬운 입력, 출구 경사로 없음. 해결은 더 나은 캡처 도구가 아니라 큐레이션 측의 규율입니다.
이런 함정을 미리 아는 것이 싸움의 대부분입니다. 도구는 계속 좋아질 것입니다. 워크플로우 습관은 당신의 몫입니다.
자주 묻는 질문
음성 AI 노트 필기가 실제로 타이핑보다 빠른가요, 아니면 편집 비용이 속도를 상쇄하나요?
편집 후에도 속도 이득이 유지됩니다. 500단어 대충 초안을 받아쓰는 데는 약 34분이 걸립니다. 평균 속도로 같은 것을 타이핑하는 데는 약 1213분이 걸립니다. 받아쓴 버전을 정리하는 데 5분을 쓴다고 해도, 여전히 앞서 있습니다. 현대 AI 정리는 그 편집 비용을 더 줄입니다.
한 번도 써본 적이 없다면 어떤 음성 AI 앱으로 시작해야 하나요?
iPhone이나 Mac에 있다면 iOS 18.1 이상의 내장 Voice Memos 앱으로 시작하세요. 무료, 비공개이며, 요약 기능이 대부분의 사용 사례에 충분히 좋습니다. 더 의견이 반영된 것을 원한다면, AudioPen이 "말하고 깨끗한 노트를 받는" 가장 빠른 길입니다. 사용 사례가 회의라면, Mac의 Granola가 가장 강력한 선택입니다.
2026년 Whisper 기반 전사는 얼마나 정확한가요?
영어의 깨끗한 오디오에는 95% 이상의 단어 정확도를 예상하세요. 영어가 아닌 경우 Whisper는 99개 언어를 지원하며 대부분의 주요 언어가 비슷한 정확도에 도달합니다. 배경 소음, 중첩된 화자, 강한 억양, 기술 어휘로 정확도가 떨어집니다. 실제 회의 오디오는 보통 88~92% 범위에 착륙합니다.
글로 쓰면서 더 잘 생각하는 사람에게 음성 노트가 작동하나요?
아마 아닙니다. 말하기의 인지적 이점은 내적 발화를 외재화하는 데서 오며, 당신의 사고 과정이 이미 언어-텍스트로 강하다면 타이핑이 같은 기능을 할 수 있습니다. 생성 효과(Slamecka와 Graf, 1978)는 둘 다에 적용됩니다. 실용적 테스트는 일주일 뒤에 어느 쪽이 실제로 기억나는 아이디어를 남기는지입니다.
클라우드 기반 음성 앱의 프라이버시 위험은 무엇인가요?
오디오 자체가 우려입니다. 대부분의 음성 앱은 전사를 실행하기 위해 오디오를 업로드하고, 일부는 저장합니다. 앱의 데이터 정책에서 전사 후 오디오가 삭제되는지, 모델 학습에 사용되는지, 저장 시 암호화되는지 확인하세요. 온디바이스 전사(Apple Intelligence, 일부 셀프 호스팅 Whisper 설정)는 이것을 완전히 피합니다.
노트뿐 아니라 장문 쓰기에 음성 AI를 쓸 수 있나요?
주의사항과 함께 가능합니다. 받아쓴 초고는 빠르지만 구조적으로 느슨합니다. 장문에 음성을 쓰는 대부분의 작가는 받아쓴 버전을 원자재로 취급하고, 그다음 무겁게 편집합니다. Paul Graham 같은 저자는 산책하면서 에세이를 받아쓰고 책상에서 다듬는 것에 대해 썼습니다. 속도 이득은 캡처 측면에 있습니다. 편집 작업은 여전히 시간이 걸립니다.
음성 노트가 디지털 쓰레기장이 되는 것을 어떻게 막나요?
큐레이션 습관을 구축하세요. 주간 15분 패스를 스케줄해 지난주 녹음을 훑어보고 간직할 가치가 있는 것만 하이라이트하거나 저장합니다. 나머지는 처분 가능으로 취급합니다. 이것은 기사에 작동하는 같은 규율입니다. 자유롭게 캡처하고, 냉정하게 큐레이션합니다.
음성 AI 도구는 영어가 아닌 언어에서도 잘 작동하나요?
Whisper는 99개 언어로 학습되었고, 주요 언어(스페인어, 만다린어, 일본어, 프랑스어, 독일어)의 품질은 영어에 가깝습니다. 더 작은 언어와 지역 방언은 더 큰 정확도 저하를 봅니다. 영어가 아닌 시장용으로 특별히 만들어진 앱은 종종 파인튜닝된 모델을 사용하고 범용 도구를 능가합니다.
결론: 빠르게 캡처, 느리게 큐레이션
음성 AI 노트 필기 물결은 마이크나 심지어 속도에 관한 것이 아닙니다. "방금 생각이 났다"와 "그 생각이 나중에 쓸 수 있는 형식으로 저장되었다" 사이의 마찰을 제거하는 것에 관한 것입니다.
약 40년 동안, 그 마찰은 대부분의 생각이 샤워와 책상 사이에 죽을 만큼 높았습니다. 산책하면서 아이디어가 있고, 기억할 거라고 자신에게 말하고, 그러지 못했을 것입니다. 음성 메모 앱은 존재했지만, 녹음은 손실이 있었습니다. 전사가 작동하지 않아, 아이디어가 아무도 재방문하지 않는 오디오에 갇혀 있었습니다.
Whisper는 2022년 전사 병목을 제거했습니다. 2023년부터 2026년까지의 앱이 그 주위에 인터페이스와 요약을 구축했습니다. Apple이 그것을 기본값으로 만들었습니다. 우리가 지금 가진 것은 매우 오래된 약속의 첫 번째 진정으로 작동하는 버전입니다. 기기에 말하고, 쓸 수 있는 노트를 돌려받으세요.
이것의 캡처 측면은 거의 해결되었습니다. 어려운 부분은 그다음에 일어나는 것입니다. 음성 노트는 다른 모든 캡처 도구와 같은 실패 모드를 갖고 있습니다. 돌아가지 않으면 존재하지 않는 것이나 마찬가지입니다. 잘 운영되는 시스템은 빠른 캡처와 느리고 의도적인 큐레이션을 짝짓습니다. 아이디어를 쏟기 위해 말합니다. 간직할 것을 표시하기 위해 하이라이트합니다. 나중에 필요한 것을 찾기 위해 아카이브를 쿼리합니다.
여기서 하이라이트와 AI 검색 계층이 중요합니다. Glasp는 기억하고 싶은 기사, 영상, 이제는 전사를 위한 그 계층이 되기 위해 존재합니다. 워크플로우는 지속될 만큼 단순합니다. 음성을 통해 빠르게 캡처하고, 하이라이트를 통해 느리게 큐레이션하고, 미래의 자신이 과거의 자신이 저장한 것을 찾을 것이라고 신뢰하세요.
다음 10년의 최고 사고자는 자기 자신에게 말하듯이 쉽게 기기에 말하고, 자기가 말한 것으로 돌아오는 습관을 구축하는 사람들일 것입니다.