AI

Máquinas que piensan: ¿cuándo deberías usar realmente modelos de razonamiento (o3, Claude Extended Thinking, DeepSeek R1)?

Los modelos de razonamiento pueden superar a los modelos de chat estándar en 30 puntos en matemáticas difíciles y aun así perder por 3 puntos en preguntas simples. El truco está en saber a cuál le está preguntando.

13 min de lectura
Puntos clave
    • Los modelos de razonamiento piensan antes de responder: consumen tokens extra en una cadena de pensamiento interna y luego producen una respuesta final. Esto ayuda en problemas de múltiples pasos y perjudica en los fáciles.
  • La brecha en benchmarks difíciles es grande: OpenAI o3 alcanzó un 87,7% en GPQA-Diamond frente al 76,0% de o1 y un 48% aproximado de GPT-4o. DeepSeek R1 subió AIME 2024 pass@1 del 15,6% al 71,0% sobre el mismo modelo base (DeepSeek-AI, Nature 2025).
  • Los modelos de razonamiento pueden empeorar en tareas simples: estudios recientes reportan caídas de precisión del 2,4% al 3,8% en recuerdo factual básico porque los modelos piensan demasiado y se contradicen.
  • La latencia y el coste son reales: espere entre 10 y 60 segundos por respuesta y facturas de tokens más altas, incluso tras la reducción de precio del 80% de o3 a 2 / 8 dólares por millón de tokens en 2025.
  • La regla de decisión es simple: use un modelo de razonamiento cuando la tarea sea de múltiples pasos, verificable y costosa de equivocar. Use un modelo de chat estándar para todo lo demás.

El mayor cambio silencioso en IA (sin usar la palabra con P)

Durante la mayor parte de 2022 y 2023, más IA significaba entrenamientos más grandes. Más parámetros, más datos, más GPU. Se esperaba que la escala durante el preentrenamiento siguiera arrastrando las capacidades hacia arriba.

Luego, en septiembre de 2024, OpenAI mostró una vista previa de o1, un modelo que no se sentía más grande sino más lento. Al hacerle una pregunta, pausaba, a veces medio minuto, antes de escribir algo. El o1 completo se lanzó con ChatGPT Pro el 5 de diciembre a 15 / 60 dólares por millón de tokens (OpenAI, 2024). No era un modelo más grande. Era un modelo que gastaba más cómputo por consulta.

Unas semanas después OpenAI anunció o3. DeepSeek liberó R1 con código abierto el 20 de enero de 2025 (DeepSeek-AI, 2025). Anthropic incorporó Extended Thinking en Claude 3.7 Sonnet el 24 de febrero de 2025, con un "presupuesto de pensamiento" ajustable por el usuario y trazas de razonamiento en bruto visibles (Anthropic, 2025). La función se mantuvo en Claude 4, 4.5 y 4.7.

El nombre técnico es "test-time compute scaling". En lugar de invertir cómputo solo durante el entrenamiento, se da al modelo más cómputo para pensar durante la inferencia. Como dice Sebastian Raschka en "Understanding Reasoning LLMs", el cambio silencioso no es cómo se entrenan estos modelos sino qué ocurre una vez que usted pulsa Enter.

Para los trabajadores del conocimiento y los aprendices, esto importa porque la elección del modelo ya no es solo una cuestión de calidad. Es también una cuestión de latencia, de coste y de ajuste a la tarea.


Qué hace en realidad un modelo de razonamiento de forma distinta

Quite la jerga y un modelo de razonamiento hace algo simple. Antes de escribir una respuesta, escribe un borrador privado para sí mismo. Ese borrador puede ser de cientos o miles de tokens de largo. Explora enfoques, revisa el trabajo, retrocede y luego se compromete con una respuesta final.

Un modelo de chat estándar como GPT-4o produce tokens de izquierda a derecha, y esos tokens son la respuesta. Cualquier razonamiento que haga se comprime en lo que quepa en ese paso hacia adelante. Indíquele "piensa paso a paso" y obtendrá algo más de razonamiento en papel, pero el modelo subyacente no está construido para deliberar.

Un modelo de razonamiento está construido para deliberar. Tres diferencias concretas se ven en la práctica:

  1. Más tokens por consulta. Las salidas de razonamiento suelen contener de cinco a veinte veces más tokens ocultos que la respuesta visible.
  2. Mayor latencia. Las respuestas tardan de 10 a 60 segundos en vez de 1 a 3.
  3. Distintos modos de fallo. Cuando un modelo de razonamiento se equivoca, suele equivocarse de forma confiada y elaborada. Cuando acierta en problemas difíciles, acierta de una forma que un modelo estándar no puede igualar.

El artículo de DeepSeek en Nature (2025) ofrece una de las demostraciones más claras. En AIME 2024, su modelo base obtuvo un 15,6% pass@1. Tras aprendizaje por refuerzo que premiaba el razonamiento correcto, R1 obtuvo un 71,0% pass@1 y un 86,7% con votación por mayoría. El modelo no había visto más datos de matemáticas. Había aprendido a usar tokens de inferencia para pensar.

La pregunta práctica para el resto de nosotros es cuándo vale la pena ese pensamiento extra.


Las tres familias: o3, Claude Extended Thinking, DeepSeek R1

Tres productos dominan el panorama de modelos de razonamiento a principios de 2026. Cada uno adopta un ángulo ligeramente distinto.

OpenAI o3 es la opción que arrasa en benchmarks. Anunciado en diciembre de 2024, superó por primera vez el umbral humano del ~85% en ARC-AGI, alcanzando un 87,5% en modo de alto cómputo y un 75,7% en su nivel de eficiencia (Chollet, ARC Prize, 2024). ARC-AGI está construido para resistir la memorización de patrones, y ningún modelo previo se había acercado. En GPQA-Diamond, un benchmark de ciencia de nivel de posgrado, o3 obtuvo un 87,7% frente al 76,0% de o1. OpenAI redujo el precio de o3 en alrededor de un 80% durante 2025 a 2 / 8 dólares por millón de tokens, unas 7,5 veces más barato que las tarifas originales de o1.

Claude Extended Thinking es la opción ajustable. Introducida con Claude 3.7 Sonnet el 24 de febrero de 2025, permite establecer un "presupuesto de pensamiento" por consulta. El razonamiento en bruto es visible en la respuesta de la API, útil para depuración y auditoría. El precio se mantiene en el estándar de Claude Sonnet de 3 / 15 dólares por millón de tokens, así que pensar más cuesta más tokens pero no una tarifa premium.

DeepSeek R1 es la opción de pesos abiertos. Publicado el 20 de enero de 2025 bajo licencia MIT y posteriormente en Nature, R1 se entrenó con aprendizaje por refuerzo aplicado directamente a un modelo base, sin datos de razonamiento supervisados en la etapa inicial. Igualó a o1-0912 en AIME 2024 y alcanzó un 71,5% en GPQA-Diamond. Las variantes destiladas de 1,5B a 70B parámetros hicieron que un razonamiento fuerte fuese ejecutable en una sola GPU. Una actualización, R1-0528, llevó AIME 2025 al 87,5%.

Estos tres cubren el espacio: propietario de primer nivel (o3), ajustable y transparente (Claude) y de pesos abiertos (DeepSeek R1).


Benchmarks, leídos con honestidad

Los números sin contexto engañan. Así comparan los principales benchmarks de razonamiento, con un modelo de chat estándar incluido como línea base.

ModeloGPQA-DiamondAIME 2024 (pass@1)ARC-AGI (semiprivado)Coste típico por consultaLatencia por respuesta
GPT-4o (estándar)~48%~13%~5%~0,01 $1 a 3 s
DeepSeek R171,5%71,0% (86,7% con voto mayoritario)~15%~0,005 $ (hosteado)15 a 40 s
Claude 4.5 Extended Thinking~83%~80%~50% (presupuesto alto)~0,05 $ a 0,30 $10 a 40 s
OpenAI o387,7%~90%75,7% (eficiente) / 87,5% (alto)~0,05 $ a 2,00 $+20 a 60 s

Fuentes: anuncio de OpenAI o3 (dic 2024), blog de ARC Prize (Chollet, 2024), DeepSeek-R1 (Nature 2025), notas de lanzamiento de Anthropic. La latencia y el coste varían según la longitud del prompt y el presupuesto de pensamiento.

Algunas cosas a tener en cuenta al leer números como estos:

GPQA-Diamond es un conjunto de preguntas de ciencia de nivel de posgrado diseñadas para que los no expertos con acceso a la web sigan obteniendo malos resultados. Una puntuación alta significa que el modelo puede razonar al nivel de un doctorando. No significa que sea mejor escribiendo o resumiendo.

AIME es una competición previa a la olimpiada. Puntuaciones por encima del 70% significan que el modelo puede resolver problemas que aborda aproximadamente el 2% superior de los estudiantes de secundaria en EE. UU. AIME se generaliza débilmente a matemáticas cotidianas como previsiones u hojas de cálculo.

ARC-AGI fue construido por François Chollet para resistir la memorización. Las tareas son rompecabezas visuales donde las reglas se muestran mediante ejemplos. Los modelos pre-razonamiento puntuaban en un solo dígito. El salto de o3 fue genuinamente sorprendente para los investigadores. ARC-AGI no es un proxy de utilidad práctica, sin embargo. Mide una forma específica de generalización abstracta.

Un modelo que domina estos benchmarks no es automáticamente mejor para un plan de lanzamiento de producto, un resumen de libro o un correo al cliente.


Cuándo ayuda el razonamiento

Los modelos de razonamiento justifican su coste en tareas con tres propiedades: múltiples pasos, respuestas verificables y un alto coste por equivocarse.

Matemáticas multipaso y razonamiento cuantitativo. Cálculos de impuestos con múltiples condiciones. Modelos financieros donde un dígito transpuesto cambia la respuesta. Cálculos de ingeniería con conversiones de unidades. El salto de 55 puntos que obtuvo DeepSeek R1 en AIME vino exactamente de este tipo de problema.

Generación y depuración de código para tareas no triviales. "Escribe una función que ordene una lista" no necesita razonamiento. Refactorizar un módulo de 300 líneas conservando el comportamiento, depurar una condición de carrera o implementar un algoritmo de un artículo sí.

Análisis legal y regulatorio. Revisión de contratos con cláusulas cruzadas. Preguntas de cumplimiento donde la respuesta depende de cómo interactúan varias normas. Muchos equipos legales usan ahora modelos de razonamiento para un análisis de primera pasada, con un abogado revisando la salida.

Enrutamiento complejo de RAG. Cuando un sistema de recuperación tiene que decidir a cuál de diez índices consultar, reescribir la consulta y sintetizar entre fuentes, un modelo de razonamiento en el rol orquestador produce planes notablemente mejores.

Síntesis de literatura. Leer varios artículos e identificar dónde coinciden, dónde discrepan y qué falta es el tipo de comparar y contrastar que los modelos de razonamiento manejan bien. Si ha usado el chat con IA de Glasp para extraer temas entre subrayados, escalar a un modelo de razonamiento para la síntesis final es donde notará la mayor diferencia.

Preguntas científicas o técnicas difíciles. Si su trabajo involucra química, física o biología de nivel de posgrado, una brecha de 40 puntos en un benchmark se traduce en respuestas reales que el modelo estándar no puede producir.

Heurística: si querría que un colega revisara la respuesta antes de confiar en ella, un modelo de razonamiento probablemente merece la espera.


Cuándo perjudica el razonamiento

Los modelos de razonamiento fallan de formas interesantes. Y en una fracción sorprendentemente grande de tareas cotidianas, rinden por debajo de los modelos de chat estándar.

Recuerdo factual simple. Cuando la respuesta correcta es un dato que el modelo ya conoce, los tokens extra de pensamiento le dan más oportunidades de dudar. Un estudio de 2025 reportó modelos de razonamiento perdiendo del 2,4% al 3,8% de precisión en recuerdo factual básico. Los modelos consideran alternativas a la respuesta correcta y a veces se comprometen con una de ellas.

Traducción. Una buena traducción es un problema de coincidencia de patrones, no un problema de razonamiento. Los modelos de razonamiento no traducen mejor que GPT-4o y tardan 20 veces más.

Resumen. Si está condensando 5.000 palabras en 300, el cuello de botella es la calidad de escritura, no la profundidad de razonamiento. Los modelos de chat estándar son más rápidos y suelen producir una prosa más limpia. Nuestra pieza sobre AI Research Workflow entra en más detalle.

Clasificación. Etiquetar tickets de soporte, clasificar correos, puntuar sentimiento. El razonamiento añade latencia sin precisión.

Preguntas y respuestas simples. "¿En qué año fue el alunizaje?" no mejora con cadena de pensamiento. El chat estándar maneja estas en medio segundo.

Escritura creativa que necesita voz. Las trazas de razonamiento son analíticas. Los modelos entrenados fuertemente en razonamiento a veces producen respuestas que se sienten mecánicas cuando se les pide un poema o un pasaje emocional. Los modelos de chat estándar se sienten más cálidos.

Un modo de fallo más sutil está documentado en arXiv 2509.09677, "Illusion of Diminishing Returns". Los autores encuentran que los beneficios de la ejecución a largo horizonte se atenúan bruscamente. Las ganancias tempranas son reales, pero la precisión marginal de 10.000 tokens extra de razonamiento cae rápido. Pasado un punto, más pensamiento solo hace la respuesta más tardía y más cara.

La latencia es un problema en sí mismo. La mayoría de los usuarios interpreta 30 segundos de silencio como un sistema roto. Los productos suelen añadir una interfaz visible de "pensando" para tranquilizar al usuario de que algo ocurre. Si incorpora IA en un flujo ajustado, esta fricción importa.


Una regla de decisión que realmente puede usar

Aquí hay una matriz práctica. Gruesa, pero cubre la mayor parte de lo que encontrará.

Tipo de tareaModelo de razonamientoModelo de chat estándar
Matemáticas multipaso o demostracionesSí, claramenteNo
Código para funciones no trivialesSolo para fragmentos simples
Análisis legal / contractualNo
Enrutamiento complejo de consultas RAGNo
Preguntas y respuestas científicas o técnicas (nivel doctorado)No
Síntesis de literatura entre 5+ fuentesSí (pasada final)Sí (primera pasada)
TraducciónNo
ResumenNo
Redacción de correosNo
Clasificación / etiquetadoNo
Preguntas factuales cortasNo
Escritura creativa con vozUsualmente no
Interfaces de chat con latencia ajustadaNo
Lluvia de ideasA vecesUsualmente sí

La regla puede comprimirse. Haga tres preguntas:

  1. ¿Es el problema multipaso? ¿Requiere varios movimientos lógicos encadenados?
  2. ¿Es la respuesta verificable? ¿Puede saber cuándo está bien o mal?
  3. ¿Es alto el coste de equivocarse? ¿Un error haría perder tiempo o dinero significativos?

Si al menos dos son sí, use un modelo de razonamiento. De lo contrario, ahorre la latencia. Si no está seguro, pruebe primero con el modelo estándar y escale si la respuesta parece dudosa.

Este patrón, de empezar barato y escalar solo cuando sea necesario, es una de las habilidades más infravaloradas al trabajar con IA. Profundizamos en ello en AI Research Workflow.


Qué significa esto para la lectura y la investigación

Si lee, aprende e investiga como parte de su trabajo, los modelos de razonamiento ocupan una ranura específica, no todo el flujo de trabajo.

La mayor parte del trabajo de aprender no es razonar. Es atención. Elige qué fuentes importan, se enfoca en lo novedoso y construye un mapa personal de ideas a lo largo del tiempo. Ningún modelo lo hace por usted. Por eso el subrayador web de Glasp está construido en torno al paso humano primero: usted subraya lo que importa, y la IA entra después como compañera de pensamiento, no como reemplazo.

Para la mayoría de las tareas cotidianas de lectura, un modelo de chat estándar es la herramienta adecuada:

  • Resumir un artículo que acabo de leer. Modelo estándar, rápido y limpio.
  • Explicar un concepto que no entendí en este artículo. Modelo estándar. Si el concepto es una afirmación científica de nivel de posgrado, escale.
  • Extraer todas las citas sobre seguridad de IA de mis subrayados de este mes. Modelo estándar.
  • Generar tarjetas de estudio a partir de mis notas. Modelo estándar.

Los modelos de razonamiento se ganan su lugar en un conjunto más pequeño de trabajos:

  • Sintetizar el desacuerdo entre cinco autores sobre un tema. Modelo de razonamiento, preferiblemente después de haber subrayado los pasajes relevantes.
  • Mapear el argumento de este artículo a mis notas existentes y marcar contradicciones. Modelo de razonamiento.
  • Diseñar un plan de lectura que llene mis lagunas según lo que ya he leído. Modelo de razonamiento.
  • Derivar una demostración o trabajar un argumento técnico complejo desde primeros principios. Modelo de razonamiento.

El flujo de YouTube Summary es un buen ejemplo. Resumir una charla de 40 minutos es firmemente una tarea de modelo estándar. Pero si la charla es técnica y quiere comprobar si el argumento del ponente se sostiene frente a tres contraargumentos que ha guardado en otro lugar, ahí es donde escalar a un modelo de razonamiento con sus subrayados como contexto justifica su coste.

Este enfoque de dos niveles conecta con un punto más amplio de AI Impact on Learning y AI Thinking Trap: la IA es más útil cuando amplifica el pensamiento que ya ha hecho, no cuando sustituye al pensamiento que no ha hecho. Los modelos de razonamiento elevan el techo de lo que la IA puede aportar. No cambian el suelo, que lo fija lo profundamente que se ha comprometido con su material.

La licencia MIT de DeepSeek R1 también rompió un patrón. Hasta 2025, el razonamiento potente era propietario. Ahora cualquiera puede ejecutar un razonador destilado de 70B en su propio hardware. Para equipos que se preocupan por la privacidad, el coste a escala o el fine-tuning, esto cambia el cálculo. Lo cubrimos en Open Source vs Closed AI Strategy.


Frequently Asked Questions

¿Necesito un modelo de razonamiento para la mayoría de mi trabajo?

Probablemente no. Para leer, escribir, resumir y preguntas y respuestas generales, un modelo de chat estándar es más rápido, más barato y a menudo más preciso. Los modelos de razonamiento se ganan su lugar en problemas con múltiples pasos lógicos y respuestas verificables.

¿Cuál es la diferencia entre la técnica de cadena de pensamiento y un modelo de razonamiento?

La cadena de pensamiento es una técnica donde le dice a un modelo estándar que "piense paso a paso" en el prompt. Un modelo de razonamiento está entrenado específicamente para generar trazas de razonamiento internas mucho más largas antes de responder, usando aprendizaje por refuerzo que premia el razonamiento correcto. Puede obtener parte del beneficio solo con cadena de pensamiento, pero la brecha en benchmarks difíciles entre GPT-4o con cadena de pensamiento y o3 sigue siendo grande, a menudo de 20 a 40 puntos porcentuales.

¿Por qué o3 cuesta tanto menos que o1?

OpenAI redujo el precio de o3 en alrededor de un 80% durante 2025, terminando en torno a 2 dólares por millón de tokens de entrada y 8 dólares por millón de tokens de salida. Las reducciones vinieron de la destilación de modelos, optimizaciones de inferencia y mayor eficiencia de hardware. Los modelos de razonamiento siguen siendo más caros por consulta que los modelos de chat estándar porque generan muchos más tokens, pero la brecha de precio por token se ha estrechado significativamente.

¿DeepSeek R1 es realmente competitivo con o3?

En benchmarks matemáticos como AIME 2024 y en GPQA-Diamond, R1 está cerca de o1 pero aún por detrás de o3. En ARC-AGI, o3 mantiene una clara ventaja. Donde gana R1 es en flexibilidad. Tiene pesos abiertos bajo licencia MIT, puede autohostearse y las variantes destiladas de 1,5B a 70B parámetros la hacen práctica en hardware de consumo. Para equipos que se preocupan por la residencia de datos, el fine-tuning o el coste a escala, R1 suele ser la mejor elección incluso cuando está unos puntos porcentuales por debajo en benchmarks.

¿Cómo sé si un modelo de razonamiento está pensando demasiado mi pregunta?

Dos señales. Primera, la latencia se siente absurda para la pregunta que formuló, como 45 segundos para "¿qué significa esta palabra?". Segunda, la respuesta matiza más de lo que debería e introduce salvedades que la pregunta no necesitaba. La caída de precisión del 2,4% al 3,8% en recuerdo factual básico documentada en la investigación de 2025 proviene en su mayoría de este patrón de pensar de más. Si lo ve, cambie a un modelo estándar.

¿Puedo usar modelos de razonamiento y estándar en el mismo flujo de trabajo?

Sí, y suele ser el mejor montaje. Use un modelo estándar para trabajo rápido de alto volumen (resumir, redactar, clasificar) y escale a un modelo de razonamiento para el pequeño número de consultas que necesitan deliberación. Claude 3.7 Sonnet lo hizo explícito con un control deslizante de presupuesto de pensamiento, y la API de OpenAI le permite enrutar entre GPT-4o y o3 libremente.

¿Glasp usa modelos de razonamiento?

El chat con IA de Glasp está optimizado para respuestas conversacionales rápidas sobre sus subrayados, así que por defecto usa modelos de chat estándar en la mayoría de las interacciones. Para casos de uso específicos que se benefician de un análisis más profundo, como sintetizar entre muchos subrayados o comparar argumentos de múltiples fuentes, los modelos de razonamiento forman parte del conjunto de herramientas. El principio es el mismo que sugeriríamos seguir en su propio trabajo: empareje el modelo con la pregunta.

¿Los modelos de chat estándar harán eventualmente todo lo que hacen los de razonamiento?

La brecha se está cerrando. Los modelos estándar más nuevos incorporan técnicas del entrenamiento en razonamiento, y los modelos de razonamiento se vuelven más rápidos y baratos. Para 2027, la distinción podría difuminarse en un único modelo que gasta más o menos cómputo según la consulta. Por ahora, los dos modos son lo bastante distintos como para que tratarlos como herramientas separadas compense.


Conclusión: empareja el modelo con la pregunta

El gran cambio de 2024 y 2025 no fue que la IA se volviera más inteligente en el sentido clásico. Apareció un nuevo tipo de modelo que cambia velocidad por profundidad. Ese intercambio es real y medible. Un modelo de razonamiento puede duplicar su precisión en matemáticas difíciles y perder tres puntos en preguntas y respuestas simples la misma tarde.

La elección del modelo forma parte del oficio ahora. Rápido y barato para la mayoría de las cosas. Lento y profundo para el pequeño conjunto de problemas donde el cómputo extra se gana su sitio. La regla que funciona en la práctica: pregúntese si el problema es multipaso, verificable y costoso de equivocar. Si dos de esos son sí, use un modelo de razonamiento. De lo contrario, use un modelo de chat estándar.

Los modelos de razonamiento no hacen opcional el pensamiento. Hacen un tipo específico de pensamiento más barato y fiable cuando realmente lo necesita. El resto del tiempo, un modelo estándar sigue siendo su mejor herramienta, y su propia atención sigue siendo la parte que más importa. Ese es el marco al que Glasp siempre ha empujado: la IA amplifica lo que ya ha subrayado y conectado. Elija el modelo correcto y obtendrá más de cada consulta. Elija el incorrecto y solo estará esperando más tiempo por una respuesta peor.

Start building your knowledge library

Highlight what matters as you read across the web. Save insights from articles, books, and YouTube videos in one place.

Get Started Free