Por Qué "La Mejor IA" Es la Pregunta Equivocada
Cada trimestre alguien publica "la mejor IA en 2026", elige un ganador y sigue adelante. La publicación rinde bien. Luego sale un nuevo modelo seis semanas después, los rankings se reorganizan y todo el ejercicio comienza de nuevo. Es una rueda de molino que no ayuda a nadie a sacar el trabajo adelante.
Esto es lo que los datos realmente dicen sobre cómo la gente usa estas herramientas. El documento de trabajo de OpenAI y NBER "How People Use ChatGPT", publicado en septiembre de 2025, encontró que aproximadamente el 80% del uso de consumo de ChatGPT se agrupa en tres cubetas: Orientación Práctica, Búsqueda de Información y Escritura. La programación está por debajo del 5%. Las guerras de benchmarks de los titulares no coinciden con cómo los trabajadores del conocimiento gastan realmente su día.
Ese desajuste es toda la historia. Un modelo que aplasta los problemas de olimpiadas matemáticas puede producir correos rígidos. Un modelo que escribe hermosamente puede alucinar citas. Un modelo con anclaje perfecto puede ser lento en triaje rápido. La pregunta correcta no es "qué modelo es el mejor". Es "qué modelo gana esta tarea específica, hoy, dado mi contexto".
Este artículo es la matriz generalista. Si quieres aprendizaje específicamente, consulta Claude vs ChatGPT para aprender. Para metodología de investigación, consulta la comparación de herramientas de investigación profunda. Para cuándo recurrir a modelos de razonamiento lento, consulta cuándo usar modelos de razonamiento. Lo que sigue se aleja del zoom: 20 tareas en escritura, análisis, investigación, trabajo afín a la programación y síntesis de conocimiento. Los datos no son de hojas de especificaciones. Provienen de ejecutar los mismos prompts en cada herramienta durante el último trimestre y anotar dónde cada uno se ganaba el sustento.
Los Cuatro Modelos en el Ring (Estado 2026)
Perfiles rápidos, vigentes a abril de 2026.
ChatGPT (GPT-5 / Study Mode). OpenAI lanzó GPT-5 en agosto de 2025 como el predeterminado unificado. Combina un respondedor rápido con un enrutador de razonamiento más profundo, lo que significa que la mayoría de los usuarios ya no eligen un modelo. Fortalezas: velocidad, pulido, ecosistema amplio (Custom GPTs, imagen, voz, Canvas). Debilidad: la voz puede derivar hacia un registro genérico de ayuda que requiere trabajo de prompt para sacudírselo.
Claude (4.6 Sonnet / 4.7 Opus). Anthropic lanzó Claude 4.6 Sonnet a principios de 2026 y 4.7 Opus poco después. Fortalezas: profundidad en documentos largos, matiz en la escritura, modo de pensamiento extendido, coincidencia de voz cuando se le dan muestras. Debilidad: más lento en tareas rápidas, sin navegación web nativa en el chat predeterminado (aunque Projects admite documentos).
Perplexity (Sonar / Pro). Perplexity en 2026 funciona con sus modelos Sonar internos con enrutamiento opcional a GPT-5 o Claude. Fortalezas: anclaje web fresco, citas en línea, escaneos rápidos. Debilidad: la generación de formato largo se siente cosida porque el modelo está optimizando para el origen, no para el flujo.
Gemini (2.5 Pro / Deep Research / Workspace). El Gemini 2.5 Pro de Google lleva una ventana de contexto de un millón de tokens y una integración estrecha con Workspace. Fortalezas: contexto largo, conciencia de Drive y Gmail, Deep Research con informes estructurados. Debilidad: la voz puede leerse plana en tareas de escritura más cortas, y el ajuste de tono requiere más esfuerzo de prompt que Claude.
Realidad de precios. ChatGPT Plus, Claude Pro, Perplexity Pro y Google AI Pro se sitúan todos alrededor de $20 al mes en abril de 2026. Existen niveles gratuitos para los cuatro, pero limitan los mejores modelos. La mayoría de los trabajadores del conocimiento no necesitan los cuatro planes pagos, pero la mayoría también está infraprovisionada y obtiene peores resultados del modelo equivocado en lugar de admitir que necesita una segunda suscripción.
Cómo Leer la Matriz
Metodología en breve. Cada tarea de la siguiente sección se ejecutó en los cuatro modelos con el mismo material fuente y el mismo prompt, luego se calificó en cinco criterios: corrección, coincidencia de voz, tasa de alucinación, tiempo hasta el resultado y carga de seguimiento (cuántos turnos hasta que la salida es utilizable). Donde dos modelos empataron, el desempate fue la tasa de alucinación, porque el tiempo de verificación es el asesino silencioso de cualquier flujo de trabajo de IA.
La matriz tiene fecha de abril de 2026. Las versiones de modelos avanzan rápido. Una fila que dice "Claude gana" hoy puede invertirse cuando salga GPT-6, o cuando Perplexity agregue una característica que cierre una brecha. El marco sobrevive a las filas. Los veredictos se revisan trimestralmente.
Una nota más sobre cómo leer la tabla. "Saltarse Si" es la columna más útil. Te dice las condiciones bajo las cuales incluso el ganador es la elección equivocada. La selección de IA rara vez se trata de encontrar la herramienta perfecta. Se trata de descartar rápidamente los malos ajustes.
La Matriz de 20 Tareas
| # | Tarea | Ganador | Por Qué Ganó | Subcampeón | Saltarse Si |
|---|---|---|---|---|---|
| 1 | Correo corto (menos de 200 palabras) | ChatGPT | Rápido, pulido, sin alboroto. GPT-5 acierta el registro en la primera pasada. | Gemini | El correo necesita tu voz específica. Usa Claude con muestras. |
| 2 | Ensayo de formato largo (más de 1.500 palabras) | Claude 4.7 Opus | Mejor flujo, longitud de oraciones variada, sostiene un argumento entre secciones. | ChatGPT | Necesitas citas de datos frescos. Usa Perplexity primero para investigar. |
| 3 | Documentación técnica | ChatGPT | Salida con estructura primero, consciente del código, Markdown limpio. | Claude | El documento es para una audiencia no técnica. Claude se lee más cálido. |
| 4 | Coincidencia de voz (tu estilo) | Claude 4.7 Opus | El mejor absorbiendo 3-5 muestras y reproduciendo el ritmo. | ChatGPT | Solo tienes una muestra corta. Ninguno funciona bien con datos escasos. |
| 5 | Traducción (matiz preservado) | Claude | Las expresiones idiomáticas y el tono sobreviven mejor que la traducción literal. | Gemini | El texto es corto y técnico. ChatGPT es más rápido e igualmente preciso. |
| 6 | Resumen de fuentes largas (más de 50 páginas) | Gemini 2.5 Pro | Una ventana de contexto de un millón de tokens maneja todo el documento en una pasada. | Claude | La fuente tiene menos de 30 páginas. Los resúmenes de Claude se leen mejor. |
| 7 | Resumen de fuentes cortas | Claude | Mejor preservando lo que importa frente a lo que es ruidoso. | ChatGPT | Necesitas viñetas rápido. ChatGPT es más rápido. |
| 8 | Ficción creativa | Claude 4.7 Opus | Voz, interioridad de personaje, contención. Menor dependencia de clichés. | ChatGPT | Quieres andamiaje de trama. ChatGPT estructura más rápido. |
| 9 | Síntesis de 5 fuentes | Perplexity Pro | Extrae de la web, cita en línea, hace aflorar el desacuerdo. | Gemini Deep Research | Las fuentes son PDFs que ya tienes. Usa Claude con Projects. |
| 10 | Encontrar contradicciones entre fuentes | Claude | Mantiene múltiples posiciones en mente, nombra las tensiones con claridad. | Gemini | Necesitas datos web en tiempo real. Perplexity es la herramienta correcta. |
| 11 | Someter a presión tu borrador | Claude | El más fuerte en "¿qué hay de malo en esto?" sin ser malo. | ChatGPT | Quieres una verificación de cordura rápida. ChatGPT es más rápido para problemas superficiales. |
| 12 | Hacer el steel-man de una visión opuesta | Claude | Genuinamente prueba el otro lado en lugar de caricaturizarlo. | ChatGPT | Quieres la versión más fuerte expresada en 3 viñetas. ChatGPT es más rápido. |
| 13 | Investigación en la web abierta (datos de hoy) | Perplexity Pro | Citas, actualidad, amplitud. El predeterminado correcto para "qué está pasando ahora". | Gemini | El tema es académico. Usa Gemini Deep Research o la comparación de herramientas de investigación profunda. |
| 14 | Escaneo de noticias frescas | Perplexity | Escaneos sub-30 segundos con fuentes. Difícil de superar. | Gemini | Necesitas una sola respuesta corta. ChatGPT con navegación funciona. |
| 15 | Escaneo de literatura académica | Gemini Deep Research | Informes estructurados con tablas de citas. 26.6% en Humanity's Last Exam al lanzamiento. | Perplexity | Necesitas cobertura exhaustiva. Ejecuta ambos y fusiona. |
| 16 | Informe de investigación profunda (multi-hora) | Gemini Deep Research | El mejor en salidas largas y estructuradas con seguimiento de citas. | OpenAI Deep Research | El tema es para consumidores, no académico. Perplexity Pro es suficiente. |
| 17 | Transformaciones regex / CSV | ChatGPT | Code interpreter, iteración rápida, ejecuta el regex contra muestras. | Claude | La transformación es simple. Cualquiera de los dos modelos lo logra en un turno. |
| 18 | Depuración de prompts | Claude | El mejor explicando por qué falló un prompt y proponiendo arreglos. | ChatGPT | Quieres probar variantes rápido. ChatGPT itera más rápido. |
| 19 | Scripts simples (Python, shell) | ChatGPT | Code interpreter ejecuta y corrige. El bucle de retroalimentación más estrecho. | Claude | Necesitas un script largo y bien arquitectado. Claude Opus escribe código más limpio. |
| 20 | Triaje de notas de reunión / soporte de decisiones | Gemini | La integración con Workspace extrae contexto de Drive, Gmail, Calendar. | Claude | No usas Workspace. Usa Claude con notas pegadas. |
Recuento: ChatGPT gana 5, Claude gana 8, Perplexity gana 3, Gemini gana 4. Claude está sobre-representado en tareas de escritura y análisis porque la escritura y el análisis dominan la matriz. Si ponderas por la frecuencia de tareas en tu semana, la tabla de líderes se inclina hacia la familia de trabajo que más realizas.
Para las tareas 2, 4, 8 y 11, tener tus propios resaltados y notas disponibles transforma la salida. El resaltador web de Glasp mantiene las muestras de voz y las citas de fuentes en un solo lugar, que es la capa de contexto consistente de la que cualquiera de estos modelos puede extraer.
Tres Tareas Donde la Elección Equivocada Cuesta Horas
La mayoría de las filas de la matriz son indulgentes. Elige al subcampeón y pierdes diez minutos. Tres filas no son indulgentes. Elegir mal aquí cuesta horas, a veces toda una tarde.
Resumen de fuentes largas (Tarea 6). Si alimentas un documento de 90 páginas a un modelo con una ventana de contexto de 200K, golpearás un truncamiento silencioso. El modelo resume lo que vio, no lo que enviaste. El resumen luce confiado. Lo entregas. Dos días después alguien pregunta sobre una sección que en realidad nunca estuvo en la vista del modelo. La ventana de un millón de tokens de Gemini 2.5 Pro es la única elección honesta para documentos por encima de 50 páginas. El subcampeón Claude con Projects es aceptable para fuentes de 30-50 páginas. Por debajo de eso, la brecha se cierra.
Investigación en la web abierta (Tarea 13). La elección equivocada aquí es preguntarle a un modelo sin navegación por datos frescos. ChatGPT y Claude pueden navegar, pero Perplexity está construido para ello. La tabla de líderes de alucinación HHEM-2.1 de Vectara muestra consistentemente que la recuperación anclada reduce las tasas de alucinación en un orden de magnitud frente a la generación sin anclaje. Si le preguntas a un modelo sin navegación "qué pasó esta semana", obtendrás una alucinación confiada aproximadamente entre el 5-15% del tiempo. Eso está bien para trivia. Es catastrófico para un memo de cliente.
Coincidencia de voz para tu estilo (Tarea 4). Esta es la que muerde más fuerte a los escritores. ChatGPT escribe hermosamente en un registro genérico. Pedirle que coincida con tu voz a partir de tres muestras, promedia las muestras hacia su distribución de entrenamiento y produce algo legible que no es tuyo. Claude 4.7 Opus, especialmente con el pensamiento extendido activado, conserva los tics de ritmo y elección de palabras que otros modelos suavizan. El costo de equivocarse en esto es republicar bajo tu nombre algo que no suena como tú. Eso es más difícil de detectar en tu propio trabajo, lo que hace que el modo de fallo sea peligroso.
Para tareas de razonamiento profundo que no están en esta lista (pruebas multi-paso, acertijos lógicos difíciles, arquitectura de código compleja), consulta cuándo usar modelos de razonamiento para el manual lento-pero-preciso.
Las Plantillas de Prompts que Hacen Brillar a Cada Modelo
Cada modelo recompensa una forma de prompt diferente. Estas son las plantillas que mueven de manera confiable la calidad de la salida de un 7 a un 9. Para un tratamiento más profundo de cómo alimentar a los modelos con el contexto correcto, consulta ingeniería de contexto.
ChatGPT ama los encabezados estructurados. GPT-5 sigue marcadores de sección explícitos con disciplina. Úsalos.
ROL: [quién es el modelo]
TAREA: [qué producir]
ENTRADA: [pega la fuente]
RESTRICCIONES:
- [longitud]
- [tono]
- [debe incluir]
- [debe evitar]
FORMATO DE SALIDA: [estructura exacta]
Claude recompensa la persona, los criterios y los ejemplos. Claude presta mucha atención a una persona clara y a "cómo se ve lo bueno".
Eres [persona]. Estás escribiendo para [audiencia].
Aquí hay 3 ejemplos de la voz que quiero:
[ejemplo 1]
[ejemplo 2]
[ejemplo 3]
Criterios para una gran respuesta:
- [criterio 1]
- [criterio 2]
- [criterio 3]
Ahora escribe [tarea] siguiendo la voz y los criterios.
Perplexity quiere consultas dirigidas con restricciones de fecha. Perplexity es un motor de búsqueda con una interfaz de chat. Trátalo así.
Encuentra: [afirmación o punto de datos específico]
Ventana de tiempo: [últimos 30 días / últimos 6 meses / año específico]
Preferencia de fuente: [primaria / académica / noticias / oficial]
Excluir: [dominios o tipos de contenido a saltar]
Formato: [lista con viñetas con citas / párrafo con notas al pie]
Gemini quiere contexto largo e instrucciones claras. Gemini se desempeña mejor cuando le das mucho con lo que trabajar y le dices exactamente qué hacer.
[Pega los documentos fuente completos aquí, hasta varios cientos de miles de tokens]
Instrucciones:
1. Lee todas las fuentes de arriba.
2. Extrae [información específica].
3. Cruza referencias [verificación específica].
4. Da salida como [estructura exacta].
No resumas a menos que se te pida. No inventes fuentes. Si no puedes encontrar algo, dilo.
Estas plantillas son puntos de partida. El 80/20 de la calidad del prompt es suministrar el contexto correcto. El 20% restante es la plantilla. La mayoría de los usuarios invierten esto y sobre-ingenierizan los prompts sobre contexto escaso.
Cuándo Deberías Simplemente Ejecutar los Cuatro
A veces el costo de equivocarse empequeñece el costo de ejecutar múltiples herramientas. El patrón es: alto riesgo, bajo costo marginal de una consulta extra, y señal clara de desacuerdo cuando los modelos se dividen.
Casos donde el ensamblaje vale la pena.
- Decisiones médicas, legales o financieras donde un número alucinado te mete en problemas.
- Entregables críticos a clientes donde el costo de reputación supera al costo de tiempo.
- Traducción de un documento sensible donde la mala traducción tiene consecuencias.
- Verificación de hechos de tu propio borrador antes de la publicación.
- Decisiones donde estás a punto de gastar más de $1.000 o comprometer más de una semana de trabajo.
El patrón de ensamblaje es simple. Ejecuta el mismo prompt en tres o cuatro modelos. Donde están de acuerdo, tu confianza es alta. Donde están en desacuerdo, acabas de identificar el lugar exacto que necesita juicio humano. El desacuerdo es la señal. No desperdiciaste tres consultas; compraste un mapa de dónde mirar.
Este no es un patrón de uso diario. Para el trabajo rutinario, elegir un modelo es más rápido y barato. El patrón de ensamblaje es una herramienta solo para alto riesgo. Resérvalo para los momentos que lo justifiquen.
Una pequeña ayuda para este flujo de trabajo: si estás resumiendo un video de YouTube que informa una decisión de alto riesgo, YouTube Summary genera un resumen anclado en la transcripción que luego puedes contrastar con tu modelo elegido. El resumen anclado se convierte en la tercera opinión.
Construyendo Tu Propia Matriz Tarea × Modelo
Tu matriz no debería verse como esta. La razón es simple: tu mezcla de tareas no es la misma que la del lector promedio. La matriz de un científico se inclina hacia la investigación y la síntesis. La matriz de un fundador se inclina hacia la escritura y el soporte de decisiones. La matriz de un especialista en marketing se inclina hacia la coincidencia de voz y la copia de formato corto. Tomar prestada al por mayor la matriz de otra persona te da, en el mejor de los casos, un 70% de precisión.
El método de auditoría de 30 días.
- Recopila, no optimices. Durante 30 días, antes de cada prompt de IA, escribe una línea: la tarea que estás haciendo. Aún no cambies de herramienta. Solo recopila datos.
- Agrupa las tareas. En el día 30, agrúpalas. La mayoría de las personas encuentran que 5-8 tipos de tareas cubren el 80% de su uso de IA. El resto es cola larga.
- Ejecuta una bake-off de una semana. Para tus 5 principales tipos de tareas, ejecuta el mismo prompt en 2-3 modelos. Califica con los mismos cinco criterios de este artículo: corrección, voz, alucinación, tiempo, carga de seguimiento.
- Fija los predeterminados. Elige un ganador por tarea. Anótalo. Deja de reconsiderarlo.
- Re-audita trimestralmente. Las versiones de modelos cambian. Tu trabajo cambia. Trimestral es suficiente.
El paso 0 de todo esto es ser dueño de tu contexto. Resaltados de tus lecturas, citas de tus entrevistas, muestras de tu voz de escritura, decisiones y notas de proyectos pasados. Estas son las entradas que cada modelo necesita para hacer su mejor trabajo. Sin ellas, cada modelo se establece por defecto en su promedio de distribución de entrenamiento. Con ellas, incluso los modelos de gama media a menudo superan al insignia para tu trabajo específico. Glasp es una forma de mantener esta capa consistente entre modelos, ya que los resaltados y las notas se exportan como texto plano y alimentan cualquier chat.
La matriz es una herramienta, no un veredicto. Acelera las decisiones fáciles para que puedas gastar el juicio en las difíciles.
Preguntas Frecuentes
¿Debería simplemente pagar por una y dejar de cambiar?
Para la mayoría de los trabajadores del conocimiento, no. La respuesta honesta depende de tu mezcla de tareas. Si tu trabajo es 80% escritura, Claude Pro solo cubre la mayoría. Si tu trabajo es 80% investigación, Perplexity Pro es la mejor suscripción única. Si tu trabajo es mixto, dos suscripciones pagas casi siempre superan a una. El costo de dos es alrededor de $40 al mes. El costo de usar el modelo equivocado por horas cada semana es mucho mayor que eso.
¿GPT-5 / Claude 4.7 son lo suficientemente buenos como para que las diferencias no importen?
Las brechas se redujeron en 2025. No desaparecieron. En tareas superficiales (correo corto, resumen simple), los cuatro modelos son cada vez más intercambiables. En fortalezas específicas de tareas (coincidencia de voz, contexto largo, investigación fresca, razonamiento estructurado), las brechas siguen siendo medibles. La matriz anterior refleja eso. Tareas genéricas: cualquier modelo. Tareas específicas: elige a propósito.
¿Qué pasa con Mistral, Grok, DeepSeek, Llama?
Estos compiten en carriles más estrechos a abril de 2026. Mistral y DeepSeek son fuertes en uso de API rentable y despliegues auto-alojados. Grok tiene integración en tiempo real con X. Llama lidera el código abierto para el ajuste fino personalizado. Ninguno de ellos supera actualmente a los cuatro principales en la mezcla de tareas de consumo en la que se centra este artículo, pero para desarrolladores que construyen aplicaciones o equipos que optimizan los costos de API, vale la pena echarles un vistazo serio.
¿Con qué frecuencia cambia esta matriz?
Trimestral es la cadencia correcta para la mayoría de los lectores. Los lanzamientos de modelos importantes (GPT-6, Claude 5, Gemini 3) reinician aproximadamente entre el 30-50% de las filas. Las actualizaciones menores cambian unas pocas. El marco (5 criterios, ajuste tarea × modelo) es estable. Los veredictos decaen. Vuelve a probar las filas que importan a tu trabajo después de cada lanzamiento mayor.
¿Realmente necesito 4 suscripciones?
No. Perplexity Pro más una de {ChatGPT Plus, Claude Pro} cubre alrededor del 80% de los casos para la mayoría de los trabajadores del conocimiento. Agrega Gemini si tu trabajo vive en Google Workspace o manejas regularmente documentos largos. Agrega la cuarta solo si estás haciendo un trabajo comparativo serio o tu trabajo depende de tener siempre la mejor herramienta por tarea. Para todos los demás, dos suscripciones y un nivel gratuito en una tercera es la dotación correcta.
Conclusión
La pregunta de "la mejor IA" es el marco equivocado porque pide una sola respuesta a una pregunta que tiene 20 respuestas. A abril de 2026, ChatGPT, Claude, Perplexity y Gemini poseen cada uno una zona de fortaleza distinta. Elegir la correcta para la tarea que tienes delante es una habilidad de mayor apalancamiento que rastrear benchmarks.
La matriz de este artículo es un punto de partida, no un veredicto. Úsala para saltarte las elecciones fáciles. Construye tu propia versión para el trabajo que más te importa. Audita cada trimestre. Y recuerda que la capa consistente debajo de cada modelo es la calidad del contexto que aportas. Resaltados, notas, muestras de voz, decisiones previas. La herramienta se puede intercambiar. El contexto se acumula.
Elige a propósito. Tu tiempo es el presupuesto que importa.