Herramientas de Deep Research comparadas: OpenAI vs Perplexity vs Gemini vs Claude (Guía 2026)

El momento del Deep Research

El 2 de febrero de 2025, OpenAI anunció Deep Research. Era el primer agente que la mayoría de la gente había utilizado capaz de tomar un prompt de una sola frase, planificar una investigación de 30 minutos, navegar por docenas de fuentes por su cuenta y devolver un informe con citas.

La reacción de la industria fue reveladora. En seis semanas, Perplexity lanzó su propio Deep Research (14 de febrero) y abrió la API de Sonar Deep Research a los desarrolladores (7 de marzo). Google, que había estrenado Gemini Deep Research discretamente en diciembre de 2024, aceleró su despliegue y actualizó la base a Gemini 2.5 Pro en mayo de 2025. Anthropic habilitó la búsqueda web de Claude de forma general el 27 de mayo de 2025, empaquetando la función Research en la misma ventana de primavera.

Cuatro laboratorios, una categoría de producto, un trimestre. Eso no sucede por accidente. 2024 fue el año en que las ventanas de contexto superaron los 200K tokens, el uso de herramientas se volvió fiable y los bucles agénticos dejaron de fallar silenciosamente a mitad de camino. Deep research fue la primera aplicación de cara al consumidor que hizo que los tres factores se sintieran dignos de pagar. También está estrechamente ligado al cambio más amplio hacia los protocolos de agentes que cubrimos en The Agentic Web: Inside the MCP Protocol Wars.

Si escribe, estudia, analiza mercados o evalúa productos, ya está en desventaja si no usa uno. La pregunta es cuál, y cuándo.

Qué hace realmente el "Deep Research"

Es fácil confundir deep research con chat search. Escribe una pregunta, recibe una respuesta con enlaces. La mecánica es distinta.

Una chat search (como ChatGPT normal con navegación) ejecuta una o dos consultas web y sintetiza los mejores resultados en segundos. Un agente de deep research hace algo más parecido a lo que hace un analista junior durante una tarde. Descompone su pregunta en subpreguntas, ejecuta docenas o cientos de búsquedas, lee páginas completas, sigue citas, actualiza su plan a medida que aprende y produce un informe estructurado con notas al pie.

Pregunte a una chat search "¿cuáles son las principales críticas a la curva de Phillips?" y obtendrá un resumen de tres párrafos. Haga la misma pregunta a un agente de deep research y recibirá un informe de 15 páginas que cubre la hipótesis de la tasa natural de Friedman, la ruptura de la estanflación de los 70, las revisiones de expectativas racionales, los debates sobre el aplanamiento post-2008 y artículos recientes de 2023 a 2025, cada uno con una fuente en la que puede hacer clic.

El precio es el tiempo. Las ejecuciones duran entre 3 y 45 minutos según la herramienta y la profundidad. Esa es la idea. Pone una en cola, se dedica a otra cosa y vuelve a un informe que le habría llevado medio día ensamblar manualmente. Para más sobre cómo reestructurar los hábitos de investigación alrededor de los agentes de IA, consulte How to Build an AI-Powered Research Workflow in 2026.

Cara a cara: las 4 herramientas comparadas

Aquí está la matriz, con cifras verificadas de los blogs de lanzamiento y las páginas de precios actuales.

Herramienta	Lanzamiento	Modelo	Precio / Límites	Puntuación HLE
OpenAI Deep Research	2 feb. 2025	o3 personalizado	Gratis: 5/mes; Plus (20 $/mes): 25/mes; Pro (200 $/mes): 250/mes; ejecuciones de 5 a 30 min	26,6%
Perplexity Deep Research	14 feb. 2025 (API 7 mar.)	Sonar	Gratis: 5/día; Pro (20 $/mes): 500/mes; API 2 / 8 $ por M tokens; menos de 3 min	21,1% (SimpleQA 93,9%)
Gemini Deep Research	Dic. 2024, actualizado en mayo de 2025	Gemini 2.5/3 Pro	AI Pro (19,99 $/mes): 20/día; AI Ultra (249,99 $/mes): 200/día; integración con Gmail/Drive/Docs	no publicado oficialmente
Claude Research	Búsqueda web GA 27 may. 2025; Research abr.-may. 2025	Sonnet 4.5 / Opus 4.5, contexto 200K (1M en beta)	Incluido en Pro (20 $/mes); ejecuciones de 5 a 45 min; conectores de Google Workspace	no publicado oficialmente

Los perfiles en un párrafo:

OpenAI Deep Research es el peso pesado. Las ejecuciones son más lentas (con frecuencia entre 15 y 25 minutos), los informes son los más largos y el razonamiento se nota más profundo en temas ambiguos. El modelo o3 personalizado está afinado para la síntesis a escala web en lugar del chat. El tope de 25 al mes en Plus es la restricción real. Los usuarios intensivos lo agotan en una semana.

Perplexity Deep Research es el campeón de la velocidad. La mayoría de las ejecuciones terminan en 2 o 3 minutos. Los informes son más cortos y enciclopédicos, ideales para un briefing en lugar de un ensayo. También es el único de los cuatro con una API real, con un precio de 2 $ entrada / 8 $ salida por millón de tokens en su lanzamiento.

Gemini Deep Research es el mejor integrado para usuarios de Google Workspace. Se nutre de su Gmail, Drive y Docs además de la web. El tope de 20 al día en AI Pro es generoso. Los informes vienen con un plan de investigación visible que puede editar antes de que el agente se ejecute.

Claude Research es el paciente. Las ejecuciones alcanzan con regularidad el extremo de 30 a 45 minutos del rango, y la salida lo refleja: forma larga, matizada, buena sopesando evidencia contradictoria. La ventana de contexto de 200K (1M en beta para empresa) implica que los conjuntos grandes de fuentes no se truncan.

Benchmarks: qué le dicen en realidad HLE y SimpleQA

Las dos cifras que más se citan son Humanity's Last Exam y SimpleQA. Son útiles y, a la vez, se leen en exceso.

Humanity's Last Exam (HLE), publicado por Scale AI y el Center for AI Safety a principios de 2025, es un benchmark multidominio de 3.000 preguntas que cubre matemáticas, ciencia, humanidades y conocimiento profesional en el límite exterior de lo que los expertos pueden responder. OpenAI reportó un 26,6% para Deep Research en su lanzamiento (OpenAI, 2 feb. 2025). Perplexity reportó un 21,1% para Sonar Deep Research (Perplexity, 14 feb. 2025). Anthropic y Google no han publicado oficialmente las puntuaciones HLE de sus agentes de investigación en el momento de escribir esto.

Lo que HLE mide bien es la capacidad de sintetizar entre dominios sobre preguntas genuinamente difíciles. Lo que no mide es si el agente es bueno en el tipo de trabajo que usted hace en realidad. La mayor parte de la investigación real no es física de nivel doctoral. Es "resume los debates recientes sobre este tema" o "compara estos cinco productos para mi caso de uso". En esas tareas, la brecha del benchmark entre OpenAI y Perplexity es mucho menor de lo que los 5,5 puntos porcentuales sugieren.

SimpleQA es la muestra más fuerte de Perplexity. El benchmark evalúa la precisión factual en formato corto, y Sonar Deep Research obtuvo un 93,9% (Perplexity, 14 feb. 2025). Es un proxy útil de "¿alucina el agente los hechos?", algo que importa mucho cuando va a citar la salida.

La lectura honesta: los benchmarks clasifican las herramientas de forma fiable en el rango del percentil 80 al 95 de dificultad, y mal por debajo de ese nivel. La mejor manera de elegir es pasar el mismo prompt real por dos o tres de ellos en el plan gratuito y comparar. Los benchmarks son sugerentes. Su propia prueba es decisiva.

Para un argumento más largo sobre por qué la obsesión con los benchmarks puede engañar, consulte The AI Thinking Trap.

Revisión realista de los planes gratuitos

Las páginas de marketing resaltan el acceso gratuito. Esto es lo que significa "gratis" cuando intenta usar estas herramientas para trabajo real.

OpenAI Deep Research (Gratis: 5/mes). Suficiente para evaluar, no para depender. Un solo proyecto suele consumir 2 o 3 ejecuciones (pase inicial, seguimiento, aclaración). Alcanzará el tope el día 10 si lo usa para trabajo. Plus a 20 $/mes por 25 ejecuciones es el nivel realista de inicio.

Perplexity Deep Research (Gratis: 5/día). El más generoso del grupo. 5 al día son 150 al mes, más de lo que la mayoría necesita. La salida del plan gratuito es más corta que la de Pro y no accede a las variantes más nuevas de Sonar. Para uso ocasional, este es el plan gratuito que realmente seguirá usando.

Gemini Deep Research (Gratis: acceso limitado). Se desplegó en forma limitada durante 2025, con menor frecuencia e informes más cortos que AI Pro. Si ya tiene una suscripción a Google One con AI Pro, el tope de 20 al día es el que hay que superar.

Claude Research (solo Pro, 20 $/mes). Sin plan gratuito dedicado para la función Research. El plan gratuito incluye chat y búsqueda web, pero la investigación de múltiples pasos queda detrás de Pro. Pro también incluye acceso completo a Sonnet 4.5 y Opus 4.5 de Claude, así que los 20 $ le compran el modelo de lectura de contexto largo más potente del mercado.

Resumen del plan gratuito	¿Útil para trabajo real?
OpenAI Deep Research (5/mes)	Solo evaluación
Perplexity Deep Research (5/día)	Sí, para uso ligero
Gemini Deep Research (limitado)	Parcial, mejor con AI Pro
Claude Research	Sin plan gratuito

Si solo paga por uno, Perplexity Pro le da el mayor número de ejecuciones (500/mes) por 20 $. Si solo quiere la salida más inteligente, ChatGPT Plus por 20 $ le da 25 ejecuciones de OpenAI Deep Research más todo lo demás del paquete Plus. Para usuarios de Google Workspace, Gemini AI Pro es la elección natural. Claude Pro tiene más sentido si ya usa Claude para leer y escribir y quiere una suscripción integrada.

Qué herramienta para qué tarea

Tras ejecutar cientos de consultas en las cuatro, emergen patrones claros. Así es como derivaría el trabajo ahora.

Revisión de literatura académica. Claude Research. La ventana de contexto larga importa cuando el agente necesita sostener más de 20 artículos en memoria de trabajo, y Claude es notablemente mejor distinguiendo afirmaciones superficialmente similares. Las ejecuciones duran más, pero las revisiones de literatura no son urgentes.

Dimensionamiento de mercado e inteligencia competitiva. OpenAI Deep Research. La profundidad de razonamiento en preguntas estratégicas ambiguas (por qué creció un mercado, qué impulsa el cambio de clientes) se aprecia claramente aquí. Es el que más confío para los prompts de "ayúdame a entender esta industria".

Briefings factuales rápidos. Perplexity Deep Research. Si solo necesita un resumen de dos páginas con citas antes de una reunión, los 3 minutos de respuesta de Perplexity son difíciles de batir. La precisión factual al estilo SimpleQA es una fortaleza genuina.

Decisiones de compra y comparaciones de productos. Perplexity o Gemini. Ambos extraen suficientes datos reales de reseñas (foros, transcripciones de YouTube, fichas técnicas) para producir comparaciones lado a lado útiles. La ventaja de Gemini es incorporar sus propios recibos de Gmail y notas de Drive.

Investigación que involucra sus propios documentos. Gemini Deep Research. La integración con Workspace es el foso. Si investiga un tema donde la mitad del material fuente está en su Drive (notas de reuniones, PDF, correos antiguos), nada más se compara.

Integraciones para desarrolladores y ejecuciones masivas. API de Perplexity Sonar Deep Research. Es la única con precios de API reales a una tarifa razonable. Si construye un producto que necesita deep research como característica, esta es la elección obvia.

Sintetizar evidencia contradictoria. Claude. Cuando las fuentes no coinciden (por ejemplo, "¿la fibra es realmente buena para la diverticulitis?" o "¿funciona la técnica Pomodoro?"), Claude es el más dispuesto a exponer el desacuerdo en lugar de tomar partido prematuramente.

Un patrón que puede sorprender: ninguna herramienta individual domina. Paso el mismo prompt por dos agentes para trabajo crítico. El coste es de 40 $/mes por dos suscripciones, y el beneficio es una salida notablemente mejor que la que produce cualquier herramienta por sí sola. La chat search y el deep research empiezan a sentirse menos como productos competidores y más como una pila que se compone.

La pieza que falta: convertir los informes de investigación en conocimiento utilizable

Esto es lo que casi ningún artículo comparativo menciona. El informe que produce el agente no es el resultado de su investigación. Su comprensión lo es.

Una salida de 20 páginas de Claude Research o un informe de 15 páginas de OpenAI Deep Research es el inicio del trabajo, no el final. Léalo una vez, hojee la conclusión, cierre la pestaña y habrá pagado a un agente para resumir algo que en realidad no aprendió. El estudio de 2025 del MIT Media Lab sobre el uso pasivo de IA (registrado en nuestro análisis de AI's impact on learning) mostró que los usuarios intensivos de ChatGPT retuvieron de forma consistente menos de lo que "leyeron" que los aprendices activos.

La solución es lo que los investigadores llevan siglos haciendo: anotar. Subraye las afirmaciones que importan. Marque las fuentes que quiere verificar. Vincule ideas entre informes.

Aquí es donde el subrayador web de Glasp encaja en el flujo de trabajo. Ejecute su investigación en OpenAI, Perplexity, Gemini o Claude. Pegue el informe en una página legible. Subraye directamente en el navegador mientras lee. Sus subrayados se sincronizan con su biblioteca de Glasp, buscables y organizados, junto con todo lo demás que haya leído ese mes.

Algunos flujos de trabajo específicos que funcionan:

Subraye y luego vuelva a consultar. Lea el informe, subraye las 10 a 15 afirmaciones más importantes. Pegue esos subrayados en el mismo agente con "profundiza en estos puntos específicos". Iterativo en lugar de de una sola vez.

Apile informes por tema. Cuando investigue el mismo tema en dos herramientas (digamos OpenAI + Claude), subrayar ambos informes en Glasp le permite ver dónde convergen y divergen. Los desacuerdos suelen ser las partes más interesantes.

Use YouTube junto al texto. Cuando las mejores fuentes son pódcasts o charlas, YouTube Summary le da resúmenes a nivel de transcripción con marcas de tiempo. Emparejar un informe de deep research en texto con 3 o 4 charlas de YouTube anotadas cubre un tema más a fondo que cualquiera de los dos por separado.

Chatee con sus subrayados. El chat con IA de Glasp puede responder preguntas usando sus anotaciones como fuente. Es la diferencia entre "¿qué dijo GPT sobre X?" y "¿qué he concluido en realidad sobre X?".

Publique lo que aprendió. La comunidad de Glasp está llena de gente investigando temas similares. Compartir informes subrayados es una función de forzamiento para terminar la investigación, no solo para poner más en cola. Para una guía paso a paso, consulte How to Annotate Articles the Right Way.

Un informe que lee una vez es un recibo, no conocimiento. El paso de subrayar y anotar es lo que convierte la salida del agente en algo que sabe de verdad.

Preguntas frecuentes

¿Qué herramienta de deep research es la más precisa?

En los benchmarks publicados, OpenAI Deep Research lidera Humanity's Last Exam con un 26,6% (OpenAI, feb. 2025) frente al 21,1% de Perplexity (Perplexity, feb. 2025). Anthropic y Google no han publicado cifras HLE para sus agentes de investigación. Para la precisión factual en formato corto, Perplexity Sonar obtuvo un 93,9% en SimpleQA, lo cual es excelente. En uso práctico, las diferencias de precisión entre OpenAI, Claude y Gemini son menores de lo que sugieren los benchmarks. La diferencia más grande es profundidad frente a velocidad.

¿Cuánto duran las ejecuciones de deep research?

Perplexity termina la mayoría de las ejecuciones en menos de 3 minutos. Gemini suele funcionar entre 5 y 15 minutos. OpenAI Deep Research tarda de 5 a 30 minutos según la complejidad de la consulta. Claude Research puede extenderse entre 5 y 45 minutos en prompts difíciles. Si necesita una respuesta ya, Perplexity. Si puede esperar, Claude u OpenAI suelen producir informes más exhaustivos.

¿Existe alguna herramienta de deep research realmente gratuita?

Sí, pero con límites. OpenAI da a los usuarios gratuitos 5 ejecuciones de Deep Research al mes. Perplexity da 5 al día en su plan gratuito, la asignación más generosa. Gemini tiene acceso gratuito limitado a Deep Research. Claude no ofrece Research en su plan gratuito. Para uso ocasional, Perplexity Free cubre la mayoría de necesidades. Para trabajo regular, un plan Pro de 20 $/mes en cualquiera de los cuatro es el punto de entrada realista.

¿Puedo usar las herramientas de deep research vía API?

Perplexity es actualmente el único actor importante con una verdadera API de Deep Research. Sonar Deep Research se lanzó el 7 de marzo de 2025 a 2 $ por millón de tokens de entrada y 8 $ por millón de tokens de salida. OpenAI ofrece acceso a o3 vía la API, pero el bucle completo del agente Deep Research está ligado a ChatGPT. Claude y Gemini aún no ofrecen sus funciones Research como API independientes, aunque sus modelos subyacentes (Sonnet 4.5, Opus 4.5, Gemini 2.5/3 Pro) sí están disponibles.

¿El deep research reemplaza a la búsqueda tradicional?

No. El deep research es un complemento, no un reemplazo. Para un dato rápido, la búsqueda sigue siendo más rápida. Para una definición de dos frases, chatee con un LLM normal. El deep research gana cuando quiere un informe estructurado, con citas, sobre una pregunta polifacética que le llevaría más de 30 minutos ensamblar manualmente. La mayoría de la gente usa las tres.

¿Cómo detengo las alucinaciones en los informes de deep research?

Tres tácticas prácticas. Primero, haga siempre clic al menos en las 3 a 5 fuentes citadas principales y verifique que la afirmación aparece en la fuente (las alucinaciones vienen con más frecuencia de citar mal una fuente real que de inventar una falsa). Segundo, pase el mismo prompt por una segunda herramienta y compare. Los desacuerdos entre Claude y OpenAI, por ejemplo, suelen ser los lugares donde uno de ellos se equivocó. Tercero, favorezca Perplexity para consultas factuales críticas, ya que su puntuación SimpleQA de 93,9% refleja una calibración genuina en hechos de formato corto.

¿Pueden las herramientas de deep research leer mis documentos privados?

Gemini Deep Research tiene la integración más profunda, con acceso nativo a su Gmail, Drive y Docs (con permiso). Claude Research soporta conectores de Google Workspace. OpenAI Deep Research puede leer archivos que cargue durante una sesión, pero no se integra directamente con el almacenamiento en la nube. Perplexity trabaja principalmente contra la web. Si su material fuente está en gran parte en Google Workspace, Gemini es la elección obvia.

¿Cuál es la mejor forma de guardar y reutilizar los informes de deep research?

Exporte el informe como PDF o Markdown, ábralo en una vista legible y subráyelo como lo haría con cualquier artículo largo. Glasp está construido precisamente para este flujo de trabajo: los subrayados se sincronizan con una biblioteca que puede buscar, vincular a otros subrayados y revisitar. Sin un paso de subrayado, la mayoría de los informes de deep research se leen una vez y se olvidan. Esto se relaciona con lo que los educadores llaman el "efecto de generación": la información que procesa activamente se retiene mucho mejor que la que recibe pasivamente.

Conclusión: la pila de investigación, no la herramienta de investigación

Un año después del lanzamiento de OpenAI, la categoría se ha clarificado. Los agentes de deep research no son un mercado donde gana uno solo. Son una mezcla de cuatro jugadores donde la respuesta correcta depende de qué está investigando, cuánto tiempo tiene y dónde vive su material fuente.

Si tuviera que elegir uno para la mayoría de los trabajadores del conocimiento en 2026, sería Perplexity Pro. Quinientas ejecuciones al mes por 20 $ es la mejor relación volumen-precio, las ejecuciones son lo suficientemente rápidas para encajar en un ritmo normal de trabajo, y la precisión SimpleQA es genuinamente fuerte. Para trabajo más pesado o ambiguo, empárejelo con OpenAI Deep Research o Claude Research.

Pero la elección de herramienta importa menos que lo que hace con la salida. El mayor error que veo cometer a la gente es tratar un informe de deep research como trabajo terminado. No lo es. Es materia prima. El conocimiento real se construye cuando subraya las afirmaciones que importan, las vincula con otras cosas que ha leído y vuelve a ellas más tarde cuando el tema resurge.

Ese es el flujo de trabajo para el que está diseñado Glasp. Subraye cualquier informe, cualquier artículo, cualquier transcripción de YouTube. Construya una biblioteca buscable de lo que realmente le pareció importante. Chatee con sus subrayados más tarde cuando necesite recordar algo específico. Comparta su trabajo con otros que hagan la misma investigación.

Los agentes de deep research seguirán mejorando. Los que no obtengan también una capa de subrayado encima seguirán produciendo informes que se leen una vez y se olvidan. No construya su flujo de trabajo de investigación de 2026 en torno a una única herramienta. Constrúyalo en torno a una pila, y asegúrese de que el último eslabón de esa pila sea aquel en el que se registra su propia comprensión.

Empiece pasando una pregunta de investigación real por dos de las cuatro herramientas esta semana. Subraye ambos informes. Compare lo que aprendió. Ese es el flujo de trabajo. Todo lo demás es una lista de funciones.