Tomar notas con IA de voz: cómo hablar tus pensamientos se convirtió en la forma más rápida de capturar y recordar ideas

El regreso de la nota de voz

Durante mucho tiempo, las notas de voz fueron un último recurso. Las usaba cuando no podía escribir, como mientras conducía o paseaba al perro. La grabación se quedaba en su teléfono durante semanas. Rara vez la escuchaba de nuevo. La transcripción, si existía, era lo bastante farfullada como para ser inútil.

Eso empezó a cambiar hacia finales de 2022, y para 2026 ni siquiera es la misma categoría de producto. La app de memos de voz de su teléfono ahora escribe resúmenes pulidos. Las herramientas de reuniones escuchan en silencio en segundo plano y escupen notas estructuradas. Desarrolladores en solitario están ganando dinero serio construyendo apps de "háblale a tu teléfono, obtén un pensamiento limpio". Productos indie como AudioPen alcanzaron aproximadamente 1 millón de dólares de ARR en unos doce meses sin capital de riesgo, como cubrió Dan Shipper en Every (2023).

El cambio es real y no trata sobre los micrófonos. Los micrófonos siempre estuvieron bien. Lo que cambió es que la transcripción automática por fin se volvió lo bastante buena y lo bastante barata como para que los desarrolladores indie pudieran construir encima.

Este artículo recorre lo que ocurrió realmente, por qué hablar supera a escribir para un rango sorprendente de tareas, la ciencia cognitiva detrás de por qué hablar ayuda a pensar, el panorama actual de herramientas y dónde están los problemas sin resolver.

Hablar es más rápido que escribir. Mucho más rápido.

Empiece con los números puros. Son más desequilibrados de lo que la mayoría espera.

La velocidad de escritura se ha estudiado a escala. Dhakal y colegas analizaron 136 millones de pulsaciones de 168.000 voluntarios en "Observations on Typing from 136 Million Keystrokes" (CHI 2018). La velocidad promedio de escritura en una población general fue de unas 52 PPM, con la mediana más cerca de 40 PPM en teclados del mundo real. Los mecanógrafos táctiles en hardware de escritorio alcanzan en la práctica unas 60 a 80 PPM, y muy pocas personas sostienen eso por mucho tiempo.

Hablar es un régimen completamente distinto. El inglés conversacional corre a unas 125 a 150 PPM. El habla rápida, como la de un podcaster con agenda ajustada, puede alcanzar 180 PPM sin ser difícil de entender. Incluso el dictado reflexivo, donde pausa para pensar entre frases, aterriza cerca de 100 PPM.

Esto es lo que eso significa en la práctica.

Actividad	Velocidad típica (PPM)	Producción en 5 minutos	Ideal para
Escritura con pulgares en móvil	36 PPM	~180 palabras	Mensajes cortos
Escritura promedio en escritorio	40 PPM	~200 palabras	Escritura concentrada
Escritura táctil rápida	70 PPM	~350 palabras	Redacción, código
Dictado reflexivo	100 PPM	~500 palabras	Notas estructuradas
Habla natural	140 PPM	~700 palabras	Captura de ideas, recordatorio, memos de voz
Habla rápida	180 PPM	~900 palabras	Pódcasts, enseñanza

Para captura, la brecha es aproximadamente de 3x. En cinco minutos caminando, puede dictar el equivalente a dos páginas escritas. En los mismos cinco minutos en un escritorio, produciría una página a lo sumo, y estaría quieto.

El matiz es la calidad. Las transcripciones en bruto son más largas y más desordenadas que el texto escrito. Ahí es donde importa la capa de IA, y es la razón por la que las apps de notas de voz no despegaron en 2015 aunque el dictado ya existía. La transcripción sin limpieza es un producto a medias.

Por qué hablar ayuda a pensar, no solo a transcribir

La ventaja de velocidad es la parte obvia. La afirmación más interesante es que hablar cambia la calidad del pensamiento mismo.

Lev Vygotsky hizo este caso en "Pensamiento y lenguaje" (1934). Su argumento era que el habla interna, el comentario continuo que tenemos dentro de la cabeza, es donde el razonamiento ocurre realmente. Externalizar esa habla interna, decirla en voz alta, no solo graba el pensamiento. Lo afila. Detecta huecos. Se oye contradecirse. Capta saltos de lógica que se ven bien sobre el papel pero suenan mal en voz alta.

Los programadores redescubrieron esto de forma independiente. Andy Hunt y Dave Thomas describieron el "rubber duck debugging" en "The Pragmatic Programmer" (1999): la práctica de explicar su código línea a línea a un objeto inanimado. El pato no hace nada, pero el acto de decir el problema en voz alta saca el bug a la superficie de manera fiable. Oye su propio razonamiento de una forma que no ocurre cuando se queda en la cabeza.

La Técnica Feynman funciona con el mismo principio. Si no puede explicar una idea en lenguaje llano, no la entiende. La prueba funciona porque hablar fuerza la completitud. Escribir le permite saltarse las partes difusas. Hablar hace audible la difusa.

También hay apoyo experimental. Norman Slamecka y Peter Graf documentaron el "efecto de generación" en 1978: la información que usted produce (generándola, parafraseándola o explicándola) se recuerda significativamente mejor que la información que lee pasivamente. El efecto se ha replicado a lo largo de décadas de investigación en memoria. Las notas de voz están del lado de la generación de esa línea. Escribir una lista de tareas es más ligero cognitivamente que decirla en voz alta, oír su propia voz y luego leer la transcripción limpia.

Junte los tres. Obtiene velocidad (el lenguaje hablado supera a la escritura), claridad (detecta huecos que de otro modo pasaría por alto) y retención (recuerda lo que produjo). Es una combinación rara, y es la razón por la que tomar notas primero por voz no es un truco.

El momento Whisper

Nada de esto habría importado sin un motor de transcripción creíble que los desarrolladores indie pudieran permitirse realmente.

OpenAI publicó Whisper en septiembre de 2022. El artículo, "Robust Speech Recognition via Large-Scale Weak Supervision" de Radford y colegas (arXiv:2212.04356), detallaba un modelo entrenado con 680.000 horas de audio multilingüe y multitarea. Las variantes large-v2 y large-v3 alcanzaban aproximadamente un 5% de tasa de error por palabra en el conjunto de prueba limpio de LibriSpeech y del 8 al 12% en habla ruidosa del mundo real. Soportaba 99 idiomas. Era de código abierto.

Dos cosas hicieron de Whisper un punto de inflexión. Primero, la calidad era lo bastante cercana a las ofertas comerciales en la nube de Google y Microsoft como para volverse la elección por defecto para la mayoría de los constructores. Segundo, corría localmente en una GPU de consumo. Un desarrollador indie podía transcribir el audio de un usuario sin pagar tarifas de API por minuto, y sin enviar ese audio a un tercero. Para un caso de uso sensible a la privacidad como "graba tus pensamientos", eso importaba.

La curva de coste cayó rápido. En 2020, transcribir una hora de audio a través de una API en la nube costaba varios dólares y aún requería limpieza manual. Para 2024, Whisper vía la API de OpenAI costaba unos 0,36 dólares por hora, y autohospedarlo era efectivamente gratis aparte del cómputo. La transcripción pasó de "llame a este servicio por minutos facturables" a "trate el audio como texto barato".

Esa es la frase que explica casi todo lo que vino después.

La explosión de apps de IA de voz 2023-2026

Una vez que la transcripción fue barata y buena, la capa de apps explotó. Un mapa aproximado de lo que se lanzó en los dos años posteriores a Whisper:

AudioPen (2023, Louis Pereira). Un desarrollador en solitario construyó una app web que hacía una cosa: pulsa grabar, divaga, pulsa parar y convierte la divagación en un resumen limpio. Pereira la arrancó hasta cerca de 1 millón de dólares de ARR en aproximadamente doce meses, como documentó la cobertura de Dan Shipper en Every (2023). Sin VC, sin equipo, sin growth hacking. El producto era así de obviamente útil.

Voicenotes.com (2024, Jordan Singer). Singer, antes en Meta y fundador de Mainframe, lanzó Voicenotes con un plan gratuito y uno de pago de 10 $/mes. Enfatizaba chatear con sus notas, no solo transcripción. Su archivo se volvía consultable.

Granola (2024, Londres). Construida para reuniones. Granola escucha el audio en su Mac sin unirse a la llamada como participante bot, lo cual evita la incómoda etiqueta "Fathom se ha unido a la reunión". Levantó una ronda semilla de Spark Capital, luego una Serie A de 20 millones liderada por Lightspeed en mayo de 2024. La cobertura de valoración de Sifted y TechCrunch la sitúa en el rango de nueve cifras en el plazo de un año tras el lanzamiento.

Apple Intelligence (octubre de 2024, iOS 18.1). Apple incorporó grabación de llamadas, transcripción y resumen dentro de Voice Memos. La app Notas ganó transcripción de audio en línea. Para la mayoría de los usuarios de iPhone, la IA de voz llegó por defecto, no como descarga.

Otter.ai. Más antigua que las demás (fundada en 2016) pero se reposicionó por la misma época con resúmenes de IA, ítems de acción y funciones específicas de reuniones. Para 2024 era una opción estándar junto a Granola y Read.ai.

ChatGPT Voice Mode. No es una app de notas en sí, pero a finales de 2024 y durante 2025 el Advanced Voice Mode de OpenAI hizo de "habla con una IA sobre una idea y recibe una respuesta escrita coherente" una interacción casual. Eso cambió lo que la gente esperaba de las herramientas de voz en general.

Así se comparan en 2026.

Herramienta	Ideal para	Calidad de transcripción	Formato de salida	Precio (2026)
AudioPen	Volcado de ideas en solitario	Alta (basada en Whisper)	Resumen limpio, notas, hilo para tuits	Gratis / ~80 $/año
Voicenotes.com	Diario de voz personal con búsqueda	Alta	Notas, viñetas, chat con notas	Gratis / 10 $/mes
Granola	Notas de reuniones (Mac)	Muy alta	Notas estructuradas de reuniones con ítems de acción	Plan gratuito / ~14 $/mes
Apple Voice Memos + Intelligence	Captura integrada en iOS/Mac	Alta (en dispositivo)	Transcripción + resumen	Incluido con el dispositivo
Otter.ai	Transcripción de reuniones en equipo	Alta	Subtítulos en vivo, notas compartibles	Gratis / 17 $/mes
ChatGPT Voice Mode	Pensar en voz alta con una IA	Alta	Respuesta conversacional	Incluido con Plus

El patrón interesante es que en realidad no compiten entre sí. Dividen el mercado por contexto. Granola se queda con las reuniones. AudioPen con la captura de ideas en solitario. Apple con la experiencia por defecto del iPhone. Voicenotes con el caso de "quiero buscar todo lo que he dicho". ChatGPT con el rol de compañero conversacional de pensamiento.

Qué hacen realmente las mejores apps más allá de la transcripción

Si le entregara a un usuario la salida en bruto de Whisper, dejaría de usarla en una semana. Las transcripciones de pensamiento hablado son difíciles de leer. La gente retrocede. Dice "em". Reinicia frases. Un memo de voz de tres minutos se convierte en un muro de 450 palabras que nadie hojeará, y mucho menos releerá.

Las apps que se asentaron resolvieron todas este problema aguas abajo. Unos cuantos patrones aparecen repetidamente.

Reestructuración, no solo limpieza. El movimiento característico de AudioPen es reescribir una nota de voz divagadora como si un editor competente le hubiera dado un repaso. Las viñetas salen agrupadas. Las tangentes se recortan. La nota final suele ser más corta que lo que dijo el usuario, lo opuesto de lo que hace la transcripción ingenua.

Salida multiformato. La mayoría de las apps permiten pedir la misma grabación como resumen, lista de ítems de acción, publicación de LinkedIn o hilo de Twitter. El audio es el material en bruto. El formato es una elección de prompt en el momento de la lectura.

Autoetiquetado y búsqueda. Voicenotes y Granola indexan la transcripción como texto completo para que pueda buscar en cada nota que haya hecho. La suposición es que no recordará qué grabación tenía la idea sobre precios. Recordará la palabra "precios".

Chat con sus notas. Pregunte "¿qué dije sobre la estrategia de Q2 el mes pasado?" y la app recupera los clips relevantes. Esto es retrieval-augmented generation estándar sobre su propio archivo, y es por eso que las apps de voz se sienten cada vez más como bases de conocimiento personales.

Captura pasiva de reuniones. El truco de Granola de escuchar el audio del sistema sin unirse como bot es una elección de UX más que técnica, pero importa. Los usuarios no quieren explicar a cada participante externo por qué hay un cuarto asistente llamado "Fathom Notetaker".

La transcripción es una commodity. El producto es todo lo que haga con el texto después.

El problema de la recuperación

Aquí es donde las apps de notas de voz chocan silenciosamente con una pared.

El lado de captura está resuelto. Puede hablarle a su teléfono y en segundos tiene una nota limpia y estructurada. Pero tras unos meses de uso regular, la mayoría de la gente termina con cientos de notas. Muchas son buenas. Muchas contienen ideas que les gustaría revisar. Y la mayoría de los usuarios nunca vuelve, porque no encuentra nada.

El problema de búsqueda con voz es peor que con notas escritas por dos razones. Primero, cuando escribe, tiende a elegir palabras clave memorables. Cuando habla, no. Usó la palabra "hoja de ruta" en una grabación, "plan" en otra y "hacia dónde vamos" en una tercera, todas sobre el mismo tema. La búsqueda por palabra clave sola no capturará las tres.

Segundo, las notas de voz no se releen como las notas escritas. Escribir una nota le obliga a pensar en el fraseo, lo cual ayuda al recuerdo. Dictar es tan rápido que la nota a menudo se guarda antes de que el cerebro haya fijado lo que contiene. Recuerda la esencia, no la redacción.

Este es el mismo problema que el marco Building a Second Brain de Tiago Forte está diseñado para resolver para notas escritas, y el que Sönke Ahrens trabaja en How to Take Smart Notes. La captura es fácil. La recuperación es donde fallan la mayoría de los sistemas. La voz amplifica ambos lados de esa ecuación. Más captura, menos recuperación.

El arreglo no es una mejor app de voz. Es una capa por encima de las apps de voz que trate las transcripciones de audio como un tipo más de texto para subrayar, etiquetar, vincular y consultar. Que es el modelo en el núcleo de la gestión del conocimiento personal moderna.

Voz + subrayado + consulta: el flujo de trabajo completo

Aquí es donde las herramientas de voz y un sistema de subrayado se emparejan naturalmente.

El flujo de trabajo que realmente sobrevive pasado el tercer mes se ve así.

1. Capture rápido. Use AudioPen, Voicenotes o la app nativa Apple Voice Memos para volcar pensamientos a medida que los tenga. No edite. No se preocupe por la estructura. La idea es no perder la idea.

2. Deje que la IA haga la limpieza de primera pasada. La mayoría de las apps producen un resumen más una transcripción limpia. Ese es su material en bruto.

3. Exporte o pegue la transcripción en algún lugar relegible. La mayoría de las apps de voz permiten exportar a Markdown o enviar a Notion, Obsidian o una página web. Una transcripción que solo vive dentro de la app de voz es un silo más.

4. Subraye los aciertos. De una transcripción de 400 palabras, quizá tres frases valen la pena recordar. Subraye esas. Aquí es donde encaja el subrayador web de Glasp: le permite subrayar pasajes en cualquier página web, incluidas transcripciones de sus propias grabaciones, y guarda esos subrayados en una biblioteca buscable.

5. Consulte sobre todo. Una vez que sus subrayados vivan junto al resto de sus notas de lectura y capturas de YouTube Summary, puede hacer preguntas al chat con IA de Glasp que abarquen todo su archivo. "¿Qué he dicho sobre precios en los últimos seis meses?" deja de ser un problema de búsqueda y se vuelve una conversación.

6. Revise con cadencia. Las notas de voz se benefician de la revisión espaciada más que casi cualquier otro tipo de nota, porque el coste de retención al dictar es menor que al escribir. Fije una cadencia semanal para hojear los subrayados de la semana anterior.

Esta es la forma de la cosa. Captura rápida mediante voz. Triaje editorial mediante subrayado. Acceso a largo plazo mediante búsqueda con IA. Ninguna app individual hace las tres bien en 2026, y eso está bien. El flujo de trabajo es el producto.

Para los lectores que quieran la versión centrada en la lectura de este bucle, la pieza complementaria es AI reading assistant, que cubre el mismo patrón de capturar-curar-consultar aplicado a artículos y PDF en vez de audio.

Inconvenientes de tomar notas primero hablando

La voz no es una victoria gratuita. Tres modos de fallo aparecen repetidamente.

Ambigüedad en el lenguaje hablado. Cuando escribe, puntúa. Cuando habla, no. Las transcripciones pueden invertir el significado según dónde hubiera ido una coma. La mayoría de los resumidores con IA manejan esto bien, pero los casos límite (términos técnicos, nombres propios, hablantes no nativos, siglas) fallan de formas difíciles de detectar porque el resumen se lee fluido y confiado de todos modos.

Alucinación en la capa de resumen. La transcripción está fundamentada. El resumen no. Un estudio de Stanford de 2024 sobre herramientas de resumen de reuniones encontró que aproximadamente el 10 al 15% de las viñetas en resúmenes de reuniones con IA contenían afirmaciones que no estaban en la transcripción original. Si está dependiendo de una app de voz para decirle qué decidió en una reunión, necesita leer la transcripción también, no solo el resumen.

Privacidad. El audio es más sensible que el texto. La transcripción de una conversación es muy distinta de una nota escrita sobre la misma conversación. Las apps que envían audio a servidores en la nube están enrutando datos sensibles a través de terceros. El modelo en dispositivo de Apple Intelligence es una respuesta a esto. Si usa herramientas en la nube, trate el contenido de voz igual que trataría correos electrónicos cargados.

La trampa de captura sin curación. El mayor modo de fallo no es técnico. Es conductual. La voz hace la captura tan barata que los usuarios capturan mucho más de lo que curan. Se acumulan cientos de notas. Ninguna se subraya ni se revisita. El archivo se convierte en vertedero digital. Es la misma trampa que aqueja a las apps de capturas de pantalla y a las colas de "leer después": entrada fácil, sin rampa de salida. El remedio es disciplina en el lado de la curación, no una mejor herramienta de captura.

Conocer estos inconvenientes por adelantado es la mayor parte de la pelea. Las herramientas seguirán mejorando. Los hábitos del flujo de trabajo son cosa suya.

Preguntas frecuentes

¿Es la toma de notas con IA de voz realmente más rápida que escribir, o el coste de edición cancela la ganancia de velocidad?

La ganancia de velocidad se mantiene incluso tras la edición. Dictar un borrador crudo de 500 palabras toma unos 3 a 4 minutos. Escribir lo mismo a velocidad promedio toma unos 12 a 13 minutos. Aunque pase 5 minutos limpiando la versión dictada, sigue por delante. La limpieza moderna con IA reduce aún más ese coste de edición.

¿Qué app de IA de voz debería usar si nunca he usado una?

Si está en iPhone o Mac, empiece con la app integrada Voice Memos en iOS 18.1 o posterior. Es gratuita, privada y la función de resumen es lo bastante buena para la mayoría de los casos. Si quiere algo más opinado, AudioPen es el camino más rápido a "habla y obtén una nota limpia". Si su caso de uso son reuniones, Granola en Mac es la mejor elección.

¿Cuán precisa es la transcripción basada en Whisper en 2026?

Para audio claro en inglés, espere más del 95% de precisión por palabra. Para no inglés, Whisper soporta 99 idiomas y la mayoría de los principales alcanza precisión similar. La precisión cae con ruido de fondo, hablantes superpuestos, acentos fuertes y vocabulario técnico. El audio de reuniones del mundo real suele quedar en el rango del 88 al 92%.

¿Las notas de voz funcionan para personas que piensan mejor escribiendo?

Posiblemente no. Los beneficios cognitivos de hablar vienen de externalizar el habla interna, y si su proceso de pensamiento ya es fuertemente verbal-textual, escribir puede cumplir la misma función. El efecto de generación (Slamecka y Graf, 1978) se aplica a ambos. La prueba práctica es cuál le deja con ideas que realmente recuerda una semana después.

¿Cuál es el riesgo de privacidad de las apps de voz basadas en la nube?

El audio en sí es la preocupación. La mayoría de las apps de voz suben el audio para ejecutar la transcripción, y algunas lo almacenan. Revise la política de datos de la app para ver si el audio se borra tras la transcripción, si se usa para entrenamiento del modelo y si está cifrado en reposo. La transcripción en dispositivo (Apple Intelligence, algunas configuraciones autohosteadas de Whisper) evita esto por completo.

¿Puedo usar IA de voz para escritura de formato largo, no solo notas?

Sí, con matices. Los primeros borradores dictados son rápidos pero estructuralmente sueltos. La mayoría de los escritores que usan voz para formato largo tratan la versión dictada como material en bruto y luego editan mucho. Autores como Paul Graham han escrito sobre dictar ensayos en caminatas y pulirlos en el escritorio. La ganancia de velocidad está en el lado de la captura. El trabajo editorial aún toma tiempo.

¿Cómo evito que mis notas de voz se conviertan en vertedero digital?

Construya un hábito de curación. Programe un pase semanal de 15 minutos donde hojee las grabaciones de la semana pasada y subraye o guarde solo lo que vale la pena conservar. Trate el resto como desechable. Es la misma disciplina que funciona para artículos: capture liberalmente, cure con implacabilidad.

¿Las herramientas de IA de voz funcionan bien para idiomas no ingleses?

Whisper se entrenó en 99 idiomas, y la calidad en los principales (español, mandarín, japonés, francés, alemán) se acerca al inglés. Los idiomas más pequeños y los dialectos regionales ven caídas de precisión mayores. Las apps construidas específicamente para mercados no ingleses suelen usar modelos afinados y superan a las herramientas de propósito general.

Conclusión: capture rápido, cure despacio

La ola de toma de notas con IA de voz no va de micrófonos ni siquiera de velocidad. Va de eliminar la fricción entre "acabo de tener un pensamiento" y "ese pensamiento está guardado en una forma que puedo usar después".

Durante unos cuarenta años, esa fricción fue lo bastante alta como para que la mayoría de los pensamientos murieran entre la ducha y el escritorio. Tenía una idea en un paseo, se decía que la recordaría, y no lo hacía. La app de memos de voz existía, pero la grabación era con pérdidas: la transcripción no funcionaba, así que la idea quedaba atrapada en audio que nadie revisitaba.

Whisper eliminó el cuello de botella de la transcripción en 2022. Las apps de 2023 a 2026 construyeron las interfaces y los resúmenes alrededor. Apple lo hizo un estándar. Lo que tenemos ahora es la primera versión genuinamente funcional de una promesa muy antigua: hable a su dispositivo y reciba una nota utilizable.

El lado de captura de esto está casi resuelto. La parte difícil es lo que ocurre después. Las notas de voz tienen el mismo modo de fallo que cualquier otra herramienta de captura. Si no vuelve a ellas, bien podrían no existir. Un sistema bien llevado empareja captura rápida con curación lenta y deliberada. Habla para volcar ideas. Subraya para marcar los aciertos. Consulta el archivo para encontrar lo que necesita después.

Ahí es donde importa una capa de subrayado y recuperación por IA. Glasp existe para ser esa capa para los artículos, vídeos y ahora transcripciones que quiera recordar. El flujo es lo bastante simple para durar: capture rápido mediante voz, cure despacio mediante subrayados y confíe en que su yo futuro encontrará lo que su yo pasado guardó.

Los mejores pensadores de la próxima década serán los que hablen a sus dispositivos con tanta facilidad como hablan consigo mismos, y que construyan el hábito de volver a lo que dijeron.