Ferramentas de Deep Research comparadas: OpenAI vs Perplexity vs Gemini vs Claude (Guia 2026)

O momento do Deep Research

Em 2 de fevereiro de 2025, a OpenAI anunciou o Deep Research. Foi o primeiro agente que a maioria das pessoas tinha usado capaz de pegar um prompt de uma frase, planejar uma investigação de 30 minutos, navegar por dezenas de fontes por conta própria e retornar com um relatório citado.

A reação da indústria foi reveladora. Em seis semanas, a Perplexity lançou seu próprio Deep Research (14 de fevereiro) e abriu a API Sonar Deep Research para desenvolvedores (7 de março). O Google, que havia lançado o Gemini Deep Research discretamente em dezembro de 2024, acelerou seu rollout e atualizou a base para Gemini 2.5 Pro em maio de 2025. A Anthropic tornou a busca web do Claude geralmente disponível em 27 de maio de 2025, empacotando o recurso Research na mesma janela primaveril.

Quatro laboratórios, uma categoria de produto, um trimestre. Isso não acontece por acidente. 2024 foi o ano em que as janelas de contexto ultrapassaram 200K tokens, o uso de ferramentas se tornou confiável e os loops agênticos pararam de falhar silenciosamente no meio do caminho. Deep research foi o primeiro aplicativo voltado ao consumidor que fez os três parecerem dignos de se pagar por eles. Também está intimamente ligado à mudança mais ampla em direção a protocolos de agentes que cobrimos em A web agêntica: por dentro das guerras do protocolo MCP.

Se você escreve, estuda, analisa mercados ou avalia produtos, já está em desvantagem se não usa um. A questão é qual e quando.

O que o "Deep Research" realmente faz

É fácil confundir deep research com busca em chat. Você digita uma pergunta, recebe uma resposta com links. A mecânica é diferente.

Uma busca em chat (como o ChatGPT regular com navegação) roda uma ou duas consultas web e sintetiza os principais resultados em segundos. Um agente de deep research faz algo mais próximo do que um analista júnior faz em uma tarde. Ele divide sua pergunta em subperguntas, executa dezenas ou centenas de buscas, lê páginas inteiras, segue citações, atualiza seu plano conforme aprende e produz um relatório estruturado com notas de rodapé.

Pergunte a uma busca em chat "quais são as principais críticas à curva de Phillips?" e você receberá um resumo de três parágrafos. Pergunte a mesma coisa a um agente de deep research e receberá um relatório de 15 páginas cobrindo a hipótese da taxa natural de Friedman, o colapso da estagflação nos anos 70, as revisões de expectativas racionais, os debates sobre o achatamento pós-2008 e artigos recentes de 2023-2025, cada um com uma fonte clicável.

A contrapartida é o tempo. As execuções levam entre 3 e 45 minutos dependendo da ferramenta e da profundidade. Esse é o ponto. Você enfileira uma, trabalha em outra coisa e volta a um relatório que teria levado meio dia para montar manualmente. Para mais sobre como reestruturar hábitos de pesquisa em torno de agentes de IA, veja Como construir um fluxo de pesquisa com IA em 2026.

Frente a frente: as 4 ferramentas comparadas

Aqui está a matriz, com números verificados dos blogs de lançamento e páginas de preços atuais.

Ferramenta	Lançamento	Modelo	Preço / Limites	Pontuação HLE
OpenAI Deep Research	2 de fev de 2025	o3 customizado	Free: 5/mês; Plus (US$ 20/mês): 25/mês; Pro (US$ 200/mês): 250/mês; execuções de 5-30 min	26,6%
Perplexity Deep Research	14 de fev de 2025 (API 7 de mar)	Sonar	Free: 5/dia; Pro (US$ 20/mês): 500/mês; API US$ 2/US$ 8 por M tokens; menos de 3 min	21,1% (SimpleQA 93,9%)
Gemini Deep Research	Dez de 2024, atualizado em maio de 2025	Gemini 2.5/3 Pro	AI Pro (US$ 19,99/mês): 20/dia; AI Ultra (US$ 249,99/mês): 200/dia; integração com Gmail/Drive/Docs	não reportado publicamente
Claude Research	Busca web GA em 27 de maio de 2025; Research abr-mai de 2025	Sonnet 4.5 / Opus 4.5, contexto 200K (1M beta)	Incluído no Pro (US$ 20/mês); execuções de 5-45 min; conectores do Google Workspace	não reportado publicamente

Os perfis em um parágrafo:

OpenAI Deep Research é o peso pesado. As execuções são mais lentas (frequentemente 15-25 minutos), os relatórios são os mais longos e o raciocínio é visivelmente mais profundo em tópicos ambíguos. O modelo o3 customizado é ajustado para síntese em escala web em vez de chat. O limite de 25 por mês no Plus é a restrição real. Usuários pesados esgotam isso em uma semana.

Perplexity Deep Research é a campeã de velocidade. A maioria das execuções termina em 2-3 minutos. Os relatórios são mais curtos e mais enciclopédicos, ideais para um briefing em vez de um ensaio. Também é a única das quatro com uma API real, com preço de US$ 2 de entrada / US$ 8 de saída por milhão de tokens no lançamento.

Gemini Deep Research é a melhor integrada para usuários do Google Workspace. Ela puxa do seu Gmail, Drive e Docs junto com a web. O limite de 20 por dia no AI Pro é generoso. Os relatórios vêm com um plano de pesquisa visível que você pode editar antes do agente rodar.

Claude Research é o paciente. As execuções regularmente atingem o extremo de 30-45 minutos, e a saída reflete isso: longa, cheia de nuances, boa em pesar evidências contraditórias. A janela de contexto de 200K (1M beta para empresas) significa que grandes conjuntos de fontes não são truncados.

Benchmarks: o que HLE e SimpleQA realmente dizem

Os dois números mais citados são Humanity's Last Exam e SimpleQA. Eles são úteis e também superinterpretados.

Humanity's Last Exam (HLE), lançado pela Scale AI e pelo Center for AI Safety no início de 2025, é um benchmark multidomínio de 3.000 questões cobrindo matemática, ciência, humanidades e conhecimento profissional no limite externo do que especialistas podem responder. A OpenAI reportou 26,6% para o Deep Research no lançamento (OpenAI, 2 de fev de 2025). A Perplexity reportou 21,1% para o Sonar Deep Research (Perplexity, 14 de fev de 2025). Anthropic e Google não reportaram publicamente pontuações HLE para seus agentes de pesquisa no momento desta escrita.

O que o HLE mede bem é a capacidade de sintetizar entre domínios em questões genuinamente difíceis. O que ele não mede é se o agente é bom no tipo de trabalho que você realmente faz. A maior parte da pesquisa real não é física de nível PhD. É "resumir debates recentes sobre este tópico" ou "comparar estes cinco produtos para meu caso de uso". Nessas tarefas, a diferença de benchmark entre OpenAI e Perplexity é muito menor do que 5,5 pontos percentuais sugeririam.

SimpleQA é a exibição mais forte da Perplexity. O benchmark testa precisão factual de forma curta, e o Sonar Deep Research marcou 93,9% (Perplexity, 14 de fev de 2025). Esse é um proxy útil para "o agente alucina fatos?", o que importa muito quando você vai citar a saída.

A leitura honesta: benchmarks classificam ferramentas de forma confiável na faixa de 80º-95º percentil de dificuldade, e mal abaixo disso. A melhor forma de escolher é rodar o mesmo prompt real em duas ou três delas no plano gratuito e comparar. Benchmarks são sugestivos. Seu próprio teste é decisivo.

Para um argumento mais longo sobre por que a obsessão com benchmarks pode enganar, veja A armadilha do pensamento com IA.

Um balanço da realidade dos planos gratuitos

As páginas de marketing destacam o acesso gratuito. Aqui está o que "grátis" realmente significa quando você tenta usar essas ferramentas para trabalho de verdade.

OpenAI Deep Research (Free: 5/mês). Suficiente para avaliar, insuficiente para depender. Um único projeto frequentemente consome 2-3 execuções (passagem inicial, follow-up, esclarecimento). Você atingirá o limite no dia 10 se usá-lo para o trabalho. O Plus a US$ 20/mês por 25 execuções é a camada inicial realista.

Perplexity Deep Research (Free: 5/dia). A mais generosa do grupo. 5 por dia são 150 por mês, mais do que a maioria das pessoas precisa. A saída do plano gratuito é mais curta que a Pro, e você não recebe as variantes mais novas do Sonar. Para uso casual, esta é a camada gratuita que você realmente continua usando.

Gemini Deep Research (Free: acesso limitado). Lançado de forma limitada durante 2025, com frequência reduzida e relatórios mais curtos que o AI Pro. Se você já tem uma assinatura Google One com AI Pro, o limite de 20 por dia é o que se deve tentar superar.

Claude Research (apenas Pro, US$ 20/mês). Sem camada gratuita dedicada para o recurso Research. O plano gratuito inclui chat e busca web, mas a pesquisa em múltiplas etapas está atrás do Pro. O Pro também inclui acesso completo ao Sonnet 4.5 e Opus 4.5 do Claude, então os US$ 20 compram o modelo de leitura de longo contexto mais forte do mercado.

Resumo da camada gratuita	Utilizável para trabalho real?
OpenAI Deep Research (5/mês)	Apenas avaliação
Perplexity Deep Research (5/dia)	Sim, para uso leve
Gemini Deep Research (limitado)	Parcial, melhor com AI Pro
Claude Research	Sem camada gratuita

Se você paga apenas por uma, o Perplexity Pro oferece a maior contagem de execuções (500/mês) a US$ 20. Se você quer apenas a saída mais inteligente, o ChatGPT Plus a US$ 20 dá 25 execuções do OpenAI Deep Research mais tudo o que está no pacote Plus. Para usuários do Google Workspace, o Gemini AI Pro é a escolha natural. O Claude Pro faz mais sentido se você já usa Claude para ler e escrever e quer uma assinatura integrada.

Qual ferramenta para qual trabalho

Depois de rodar centenas de consultas nas quatro, padrões claros emergem. Veja como eu rotearia trabalho agora.

Revisão de literatura acadêmica. Claude Research. A janela de contexto longa importa quando o agente precisa manter mais de 20 artigos na memória de trabalho, e o Claude é notavelmente melhor em distinguir entre afirmações superficialmente similares. As execuções demoram mais, mas revisões de literatura não são sensíveis ao tempo.

Dimensionamento de mercado e inteligência competitiva. OpenAI Deep Research. A profundidade de raciocínio em questões estratégicas ambíguas (por que um mercado cresceu, o que está impulsionando a mudança de clientes) aparece claramente aqui. É o que eu mais confio para prompts do tipo "me ajude a entender este setor".

Briefings factuais rápidos. Perplexity Deep Research. Se você só precisa de um resumo citado de duas páginas antes de uma reunião, o tempo de resposta de 3 minutos da Perplexity é difícil de bater. A precisão factual estilo SimpleQA é uma força genuína.

Decisões de compra e comparações de produtos. Perplexity ou Gemini. Ambos puxam dados suficientes de análises do mundo real (fóruns, transcrições do YouTube, fichas técnicas) para produzir comparações lado a lado úteis. A vantagem do Gemini é puxar seus próprios recibos do Gmail e notas do Drive.

Pesquisa envolvendo seus próprios documentos. Gemini Deep Research. A integração com o Workspace é o fosso. Se você está pesquisando um tópico onde metade do material de origem está no seu Drive (notas de reunião, PDFs, e-mails antigos), nada mais se compara.

Integrações de desenvolvedores e execuções em massa. API do Perplexity Sonar Deep Research. É a única com preços de API reais a uma taxa razoável. Se você está construindo um produto que precisa de deep research como recurso, essa é a escolha óbvia.

Sintetizando evidências contraditórias. Claude. Quando as fontes discordam (por exemplo, "fibra é realmente boa para diverticulite?" ou "a técnica Pomodoro funciona?"), o Claude é o mais disposto a trazer à tona a discordância em vez de escolher um lado prematuramente.

Um padrão que pode surpreender: nenhuma ferramenta única domina. Eu rodo o mesmo prompt em dois agentes para trabalho de alto risco. O custo é US$ 40/mês por duas assinaturas, e o benefício é uma saída notavelmente melhor do que qualquer ferramenta única produz sozinha. Busca em chat e deep research estão começando a parecer menos produtos concorrentes e mais uma stack que você compõe.

A peça que falta: transformar relatórios de pesquisa em conhecimento utilizável

Aqui está o que quase nenhum artigo de comparação menciona. O relatório que o agente produz não é a saída da sua pesquisa. Seu entendimento é.

Uma saída de 20 páginas do Claude Research ou um relatório de 15 páginas do OpenAI Deep Research é o começo do trabalho, não o fim. Leia uma vez, passe os olhos na conclusão, feche a aba e você pagou a um agente para resumir algo que você não aprendeu de fato. O estudo do MIT Media Lab de 2025 sobre uso passivo de IA (rastreado em nossa análise do impacto da IA no aprendizado) mostrou que usuários pesados do ChatGPT consistentemente retinham menos do que "liam" do que aprendizes ativos.

A solução é o que pesquisadores fazem há séculos: anotar. Destaque as afirmações que importam. Marque as fontes que você quer verificar. Vincule insights entre relatórios.

É aqui que o marcador web do Glasp se encaixa no fluxo de trabalho. Rode sua pesquisa no OpenAI, Perplexity, Gemini ou Claude. Cole o relatório em uma página legível. Destaque diretamente no navegador enquanto lê. Seus destaques sincronizam com sua biblioteca do Glasp, pesquisável e organizada, junto com tudo o que você leu naquele mês.

Alguns fluxos específicos que funcionam:

Destacar e depois re-consultar. Leia o relatório, destaque as 10-15 afirmações mais importantes. Cole esses destaques de volta no mesmo agente com "aprofunde-se nesses pontos específicos". Iterativo em vez de tiro único.

Empilhe relatórios por tópico. Quando você pesquisa o mesmo tópico em duas ferramentas (por exemplo, OpenAI + Claude), destacar ambos os relatórios no Glasp permite ver onde eles convergem e divergem. Discordâncias são frequentemente as partes mais interessantes.

Use YouTube junto com texto. Quando as melhores fontes são podcasts ou palestras, o YouTube Summary fornece resumos no nível da transcrição com timestamps. Combinar um relatório de deep research em texto com 3-4 palestras anotadas do YouTube cobre um tópico mais completamente do que qualquer um sozinho.

Converse com seus destaques. O chat com IA do Glasp pode responder a perguntas usando suas anotações como fonte. É a diferença entre "o que o GPT disse sobre X?" e "o que eu realmente concluí sobre X?"

Publique o que você aprendeu. A comunidade do Glasp está cheia de outras pessoas pesquisando tópicos similares. Compartilhar relatórios anotados é uma função forçante para terminar a pesquisa, não apenas enfileirar mais. Para um guia passo a passo, veja Como anotar artigos do jeito certo.

Um relatório que você lê uma vez é um recibo, não conhecimento. A etapa de destaque-e-anotação é o que converte a saída do agente em algo que você de fato sabe.

Perguntas frequentes

Qual ferramenta de deep research é a mais precisa?

Em benchmarks publicados, o OpenAI Deep Research lidera no Humanity's Last Exam com 26,6% (OpenAI, fev de 2025) contra os 21,1% da Perplexity (Perplexity, fev de 2025). Anthropic e Google não divulgaram números HLE para seus agentes de pesquisa. Para precisão factual de forma curta, o Perplexity Sonar marcou 93,9% no SimpleQA, o que é excelente. No uso prático, as diferenças de precisão entre OpenAI, Claude e Gemini são menores do que os benchmarks sugerem. A diferença maior é profundidade versus velocidade.

Quanto tempo duram as execuções de deep research?

A Perplexity termina a maioria das execuções em menos de 3 minutos. O Gemini tipicamente roda por 5-15 minutos. O OpenAI Deep Research leva 5-30 minutos dependendo da complexidade da consulta. O Claude Research pode se estender por 5-45 minutos em prompts difíceis. Se você precisa de uma resposta agora, Perplexity. Se pode esperar, Claude ou OpenAI geralmente produzem relatórios mais completos.

Alguma ferramenta de deep research é genuinamente gratuita?

Sim, mas com limites. A OpenAI dá aos usuários gratuitos 5 execuções de Deep Research por mês. A Perplexity dá 5 por dia na camada gratuita, que é a mais generosa. O Gemini tem acesso limitado ao Deep Research gratuito. O Claude não oferece Research em sua camada gratuita. Para uso casual, a Perplexity Free cobre a maioria das necessidades. Para trabalho regular, um plano Pro de US$ 20/mês em qualquer uma das quatro é o ponto de entrada realista.

Posso usar ferramentas de deep research via API?

A Perplexity é atualmente o único grande player com uma verdadeira API de Deep Research. O Sonar Deep Research foi lançado em 7 de março de 2025 a US$ 2 por milhão de tokens de entrada e US$ 8 por milhão de tokens de saída. A OpenAI oferece acesso ao o3 via API, mas o loop completo do agente Deep Research está vinculado ao ChatGPT. Claude e Gemini ainda não oferecem seus recursos Research como APIs independentes, embora seus modelos subjacentes (Sonnet 4.5, Opus 4.5, Gemini 2.5/3 Pro) estejam disponíveis.

Deep research substitui a busca tradicional?

Não. Deep research é um complemento, não uma substituição. Para um fato rápido, a busca ainda é mais rápida. Para uma definição de duas frases, converse com um LLM regular. Deep research vence quando você quer um relatório estruturado e citado sobre uma questão multifacetada que levaria mais de 30 minutos para montar manualmente. A maioria das pessoas usa os três.

Como paro alucinações em relatórios de deep research?

Três táticas práticas. Primeiro, sempre clique em pelo menos as 3-5 principais fontes citadas e verifique se a afirmação está na fonte (alucinações mais frequentemente vêm de citar erroneamente uma fonte real do que inventar uma falsa). Segundo, rode o mesmo prompt em uma segunda ferramenta e compare. Discordâncias entre Claude e OpenAI, por exemplo, são frequentemente os lugares onde um deles errou em algo. Terceiro, favoreça a Perplexity para consultas factuais de alto risco, já que sua pontuação SimpleQA de 93,9% reflete calibração genuína em fatos de forma curta.

Ferramentas de deep research podem ler meus documentos privados?

O Gemini Deep Research tem a integração mais profunda, com acesso nativo ao seu Gmail, Drive e Docs (com permissão). O Claude Research suporta conectores do Google Workspace. O OpenAI Deep Research pode ler arquivos que você faz upload durante uma sessão, mas não se integra diretamente ao armazenamento em nuvem. A Perplexity trabalha principalmente contra a web. Se seu material de origem está amplamente no Google Workspace, o Gemini é a escolha óbvia.

Qual é a melhor forma de salvar e reutilizar relatórios de deep research?

Exporte o relatório como PDF ou Markdown, abra-o em uma visualização legível e destaque-o como faria com qualquer artigo longo. O Glasp é construído exatamente para esse fluxo de trabalho: os destaques sincronizam com uma biblioteca que você pode pesquisar, vincular a outros destaques e revisitar. Sem uma etapa de destaque, a maioria dos relatórios de deep research é lida uma vez e esquecida. Isso está relacionado ao que educadores chamam de "efeito de geração": informação que você processa ativamente é retida muito melhor do que informação que você recebe passivamente.

Conclusão: a stack de pesquisa, não a ferramenta de pesquisa

Um ano após o lançamento da OpenAI, a categoria se clarificou. Agentes de deep research não são um mercado de vencedor único. São uma mistura de quatro jogadores onde a resposta certa depende do que você está pesquisando, de quanto tempo tem e de onde seu material de origem vive.

Se eu tivesse que escolher um para a maioria dos trabalhadores do conhecimento em 2026, seria o Perplexity Pro. Quinhentas execuções por mês a US$ 20 é a melhor relação volume-preço, as execuções são rápidas o suficiente para caber em um ritmo normal de trabalho e a precisão SimpleQA é genuinamente forte. Para trabalho mais pesado ou mais ambíguo, combine com OpenAI Deep Research ou Claude Research.

Mas a escolha da ferramenta importa menos do que o que você faz com a saída. O maior erro que vejo as pessoas cometerem é tratar um relatório de deep research como trabalho finalizado. Não é. É matéria-prima. O conhecimento real é construído quando você destaca as afirmações que importam, as vincula a outras coisas que leu e volta a elas mais tarde quando o tópico surge novamente.

Esse é o fluxo de trabalho para o qual o Glasp foi projetado. Destaque qualquer relatório, qualquer artigo, qualquer transcrição do YouTube. Construa uma biblioteca pesquisável do que você realmente achou importante. Converse com seus destaques mais tarde quando precisar recuperar algo específico. Compartilhe seu trabalho com outros fazendo a mesma pesquisa.

Os agentes de deep research continuarão melhorando. Os que não ganharem também uma camada de destaque em cima continuarão produzindo relatórios que são lidos uma vez e esquecidos. Não construa seu fluxo de pesquisa de 2026 em torno de uma única ferramenta. Construa-o em torno de uma stack e certifique-se de que o último elo dessa stack seja aquele onde seu próprio entendimento é registrado.

Comece rodando uma pergunta de pesquisa real em duas das quatro ferramentas esta semana. Destaque ambos os relatórios. Compare o que você aprendeu. Esse é o fluxo de trabalho. Todo o resto é uma lista de recursos.