AI

Máquinas de pensamento: quando você deveria realmente usar modelos de raciocínio (o3, Claude Extended Thinking, DeepSeek R1)?

Modelos de raciocínio podem superar modelos de chat padrão por 30 pontos em matemática difícil e ainda perder por 3 pontos em perguntas simples. O truque é saber qual deles você está consultando.

13 min de leitura
Pontos-chave
    • Modelos de raciocínio pensam antes de responder: Eles queimam tokens extras em uma cadeia de pensamento interna e depois produzem uma resposta final. Isso ajuda em problemas de múltiplas etapas e atrapalha em fáceis.
  • A diferença em benchmarks difíceis é grande: OpenAI o3 atingiu 87,7% no GPQA-Diamond contra 76,0% para o o1 e cerca de 48% para o GPT-4o. DeepSeek R1 elevou o AIME 2024 pass@1 de 15,6% para 71,0% no mesmo modelo base (DeepSeek-AI, Nature 2025).
  • Modelos de raciocínio podem piorar em tarefas simples: Estudos recentes reportam quedas de precisão de 2,4% a 3,8% em recall factual básico porque os modelos pensam demais e se contradizem.
  • Latência e custo são reais: Espere 10 a 60 segundos por resposta e contas maiores de tokens, mesmo após o corte de 80% no preço do o3 para US$ 2 / US$ 8 por milhão de tokens em 2025.
  • A regra de decisão é simples: Use um modelo de raciocínio quando a tarefa é de múltiplas etapas, verificável e cara de errar. Use um modelo de chat padrão para todo o resto.

A mudança grande mais silenciosa em IA (sem usar a palavra com P)

Durante a maior parte de 2022 e 2023, IA maior significava runs de treinamento maiores. Mais parâmetros, mais dados, mais GPUs. Esperava-se que a escala durante o pré-treinamento continuasse arrastando a capacidade para cima.

Então, em setembro de 2024, a OpenAI apresentou o o1, um modelo que não parecia maior, mas mais lento. Faça uma pergunta e ele pausava, às vezes por meio minuto, antes de escrever qualquer coisa. O o1 completo foi lançado com o ChatGPT Pro em 5 de dezembro a US$ 15 / US$ 60 por milhão de tokens (OpenAI, 2024). Não era um modelo maior. Era um modelo que gastava mais computação por consulta.

Algumas semanas depois, a OpenAI anunciou o o3. A DeepSeek tornou open-source o R1 em 20 de janeiro de 2025 (DeepSeek-AI, 2025). A Anthropic integrou o Extended Thinking ao Claude 3.7 Sonnet em 24 de fevereiro de 2025, com um "orçamento de pensamento" ajustável pelo usuário e rastros de raciocínio brutos visíveis (Anthropic, 2025). O recurso se estendeu para Claude 4, 4.5 e 4.7.

O nome técnico é "test-time compute scaling". Em vez de investir computação apenas durante o treinamento, o modelo recebe mais computação para pensar durante a inferência. Como Sebastian Raschka coloca em "Understanding Reasoning LLMs", a mudança silenciosa não é como esses modelos são treinados, mas o que acontece depois que você pressiona enter.

Para trabalhadores do conhecimento e aprendizes, isso importa porque a escolha do modelo não é mais apenas uma questão de qualidade. É também uma questão de latência, de custo e de adequação à tarefa.


O que um modelo de raciocínio realmente faz de diferente

Tire o jargão e um modelo de raciocínio faz algo simples. Antes de escrever uma resposta, ele escreve um rascunho privado para si mesmo. Esse rascunho pode ter centenas ou milhares de tokens. Ele explora abordagens, verifica o trabalho, retrocede e, então, compromete-se com uma resposta final.

Um modelo de chat padrão como o GPT-4o produz tokens da esquerda para a direita, e esses tokens são a resposta. Qualquer raciocínio que faça é comprimido no que cabe nesse passe adiante. Prompt com "pense passo a passo" e você ganha um pouco mais de raciocínio no papel, mas o modelo subjacente não é construído para deliberar.

Um modelo de raciocínio é construído para deliberar. Três diferenças concretas aparecem na prática:

  1. Mais tokens por consulta. Saídas de raciocínio frequentemente contêm cinco a vinte vezes mais tokens ocultos do que a resposta visível.
  2. Latência maior. As respostas levam 10 a 60 segundos em vez de 1 a 3.
  3. Modos de falha diferentes. Quando um modelo de raciocínio está errado, frequentemente está errado de forma confiante e elaborada. Quando está certo em problemas difíceis, está certo de uma forma que um modelo padrão não consegue igualar.

O artigo da DeepSeek na Nature (2025) dá uma das demonstrações mais claras. No AIME 2024, o modelo base marcou 15,6% pass@1. Após aprendizado por reforço que recompensava o raciocínio correto, o R1 marcou 71,0% pass@1 e 86,7% com votação por maioria. O modelo não havia visto mais dados de matemática. Ele aprendeu a usar tokens de inferência para pensar.

A questão prática para o resto de nós é quando esse pensamento extra vale a pena.


As três famílias: o3, Claude Extended Thinking, DeepSeek R1

Três produtos dominam o cenário de modelos de raciocínio no início de 2026. Cada um adota um ângulo ligeiramente diferente.

OpenAI o3 é a opção que quebra benchmarks. Anunciado em dezembro de 2024, cruzou o limiar de ~85% humano no ARC-AGI pela primeira vez, atingindo 87,5% em modo de alta computação e 75,7% em sua camada de eficiência (Chollet, ARC Prize, 2024). O ARC-AGI é construído para resistir à memorização de padrões, e nenhum modelo anterior havia chegado perto. No GPQA-Diamond, um benchmark científico de nível de pós-graduação, o o3 marcou 87,7% contra os 76,0% do o1. A OpenAI cortou o preço do o3 em aproximadamente 80% durante 2025 para US$ 2 / US$ 8 por milhão de tokens, cerca de 7,5 vezes mais barato do que as taxas originais do o1.

Claude Extended Thinking é a opção ajustável. Introduzido com o Claude 3.7 Sonnet em 24 de fevereiro de 2025, permite definir um "orçamento de pensamento" por consulta. O raciocínio bruto é visível na resposta da API, útil para debug e auditoria. O preço se mantém no padrão do Claude Sonnet de US$ 3 / US$ 15 por milhão de tokens, então pensamento extra custa tokens extras, mas não uma taxa premium.

DeepSeek R1 é a opção com pesos abertos. Lançado em 20 de janeiro de 2025, sob a licença MIT e posteriormente publicado na Nature, o R1 foi treinado com aprendizado por reforço aplicado diretamente a um modelo base, sem dados supervisionados de raciocínio no estágio inicial. Igualou o o1-0912 no AIME 2024 e atingiu 71,5% no GPQA-Diamond. Variantes destiladas de 1,5B a 70B parâmetros tornaram raciocínio forte rodável em uma única GPU. Uma atualização, R1-0528, empurrou o AIME 2025 para 87,5%.

Esses três cobrem o espaço: proprietário de primeira linha (o3), ajustável e transparente (Claude) e de pesos abertos (DeepSeek R1).


Benchmarks, lidos honestamente

Números sem contexto são enganosos. Aqui está como os principais benchmarks de raciocínio se comparam, com um modelo de chat padrão incluído como baseline.

ModeloGPQA-DiamondAIME 2024 (pass@1)ARC-AGI (semiprivado)Custo típico por consultaLatência por resposta
GPT-4o (padrão)~48%~13%~5%~US$ 0,011 a 3 seg
DeepSeek R171,5%71,0% (86,7% com voto por maioria)~15%~US$ 0,005 (hospedado)15 a 40 seg
Claude 4.5 Extended Thinking~83%~80%~50% (orçamento alto)~US$ 0,05 a US$ 0,3010 a 40 seg
OpenAI o387,7%~90%75,7% (eficiente) / 87,5% (alto)~US$ 0,05 a US$ 2,00+20 a 60 seg

Fontes: anúncio do OpenAI o3 (dez de 2024), blog do ARC Prize (Chollet, 2024), DeepSeek-R1 (Nature 2025), notas de release da Anthropic. Latência e custo variam de acordo com o tamanho do prompt e o orçamento de pensamento.

Algumas coisas para manter em mente ao ler números como esses:

GPQA-Diamond é um conjunto de questões científicas de nível de pós-graduação projetadas para que não especialistas com acesso à web ainda se saiam mal. Uma pontuação alta significa que o modelo pode raciocinar no nível de um candidato a PhD. Não significa que é um escritor ou resumidor melhor.

AIME é uma competição pré-olímpica. Pontuações acima de 70% significam que o modelo pode resolver problemas que aproximadamente os 2% melhores alunos do ensino médio dos EUA enfrentam. O AIME generaliza fracamente para matemática do dia a dia como previsões ou planilhas.

ARC-AGI foi construído por François Chollet para resistir à memorização. As tarefas são quebra-cabeças visuais em que as regras são mostradas por exemplo. Modelos pré-raciocínio marcavam em dígitos únicos. O salto do o3 foi genuinamente surpreendente para pesquisadores. O ARC-AGI não é um proxy para utilidade prática, no entanto. Ele mede uma forma específica de generalização abstrata.

Um modelo que domina esses benchmarks não é automaticamente melhor para um plano de lançamento de produto, um resumo de livro ou um e-mail para um cliente.


Quando o raciocínio ajuda

Modelos de raciocínio ganham seu sustento em tarefas com três propriedades: múltiplas etapas, respostas verificáveis e um alto custo de erro.

Matemática de múltiplas etapas e raciocínio quantitativo. Cálculos de impostos com múltiplas condições. Modelos financeiros em que um dígito trocado muda a resposta. Cálculos de engenharia com conversões de unidade. O salto de 55 pontos que o DeepSeek R1 obteve no AIME veio exatamente desse tipo de problema.

Geração de código e debug para tarefas não triviais. "Escreva uma função que ordene uma lista" não precisa de raciocínio. Refatorar um módulo de 300 linhas enquanto preserva o comportamento, debugar uma condição de corrida ou implementar um algoritmo de um artigo precisam.

Análise jurídica e regulatória. Revisão de contratos com cláusulas cruzadas. Questões de conformidade em que a resposta depende de como várias regras interagem. Muitas equipes jurídicas agora usam modelos de raciocínio para análise de primeira passagem, com um advogado revisando a saída.

Roteamento complexo de RAG. Quando um sistema de recuperação tem que decidir qual de dez índices consultar, reescrever a consulta e sintetizar entre fontes, um modelo de raciocínio no papel de orquestrador produz planos notavelmente melhores.

Síntese de literatura. Ler vários artigos e identificar onde eles concordam, discordam e o que está faltando é o tipo de comparar-e-contrastar que modelos de raciocínio lidam bem. Se você usou o chat com IA do Glasp para puxar temas entre destaques, escalar para um modelo de raciocínio na síntese final é onde você sente a maior diferença.

Questões científicas ou técnicas difíceis. Se seu trabalho envolve química, física ou biologia de nível de pós-graduação, uma diferença de 40 pontos em benchmark se traduz em respostas reais que o modelo padrão não pode produzir.

Heurística: se você gostaria que um colega verificasse a resposta antes de confiar nela, um modelo de raciocínio provavelmente vale a espera.


Quando o raciocínio atrapalha

Modelos de raciocínio falham de formas interessantes. E em uma fração surpreendentemente grande de tarefas do dia a dia, eles têm desempenho pior do que modelos de chat padrão.

Recall factual simples. Quando a resposta certa é um fato que o modelo já sabe, tokens extras de pensamento lhe dão mais chances de se questionar. Um estudo de 2025 reportou modelos de raciocínio perdendo 2,4% a 3,8% de precisão em recall factual básico. Os modelos consideram alternativas para a resposta correta e, às vezes, se comprometem com uma.

Tradução. Boa tradução é um problema de correspondência de padrões, não de raciocínio. Modelos de raciocínio não traduzem melhor do que o GPT-4o, e levam 20 vezes mais.

Resumo. Se você está condensando 5.000 palavras em 300, o gargalo é a qualidade da escrita, não a profundidade do raciocínio. Modelos de chat padrão são mais rápidos e frequentemente produzem prosa mais limpa. Nosso texto AI Research Workflow entra em mais detalhes.

Classificação. Rotular tickets de suporte, etiquetar e-mails, pontuar sentimento. O raciocínio adiciona latência sem precisão.

Resposta simples a perguntas. "Em que ano foi o pouso lunar?" não melhora com cadeia de pensamento. O chat padrão lida com essas em meio segundo.

Escrita criativa que precisa de voz. Rastros de raciocínio são analíticos. Modelos treinados pesadamente em raciocínio às vezes produzem respostas que parecem mecânicas quando se pede um poema ou uma passagem emocional. Modelos de chat padrão parecem mais calorosos.

Um modo de falha mais sutil está documentado no arXiv 2509.09677, "Illusion of Diminishing Returns". Os autores descobrem que os benefícios de execução de longo horizonte diminuem acentuadamente. Os ganhos iniciais são reais, mas a precisão marginal de mais 10.000 tokens de raciocínio cai rapidamente. Passado um ponto, mais pensamento apenas torna a resposta mais tardia e mais cara.

A latência é um problema em si. A maioria dos usuários interpreta 30 segundos de silêncio como sistema quebrado. Produtos frequentemente adicionam UI visível de "pensando" para tranquilizar os usuários de que algo está acontecendo. Se você está incorporando IA em um fluxo apertado, essa fricção importa.


Uma regra de decisão que você pode realmente usar

Aqui está uma matriz prática. Grosseira, mas cobre a maior parte do que você encontrará.

Tipo de tarefaModelo de raciocínioModelo de chat padrão
Matemática de múltiplas etapas ou provasSim, claramenteNão
Código para recursos não triviaisSimApenas para snippets simples
Análise jurídica / contratualSimNão
Roteamento complexo de consulta RAGSimNão
Q&A científico ou técnico (nível PhD)SimNão
Síntese de literatura entre 5+ fontesSim (passagem final)Sim (primeira passagem)
TraduçãoNãoSim
ResumoNãoSim
Redação de e-mailNãoSim
Classificação / etiquetagemNãoSim
Q&A factual curtoNãoSim
Escrita criativa precisando de vozGeralmente nãoSim
Interfaces de chat com latência apertadaNãoSim
BrainstormingÀs vezesGeralmente sim

A regra pode ser comprimida. Faça três perguntas:

  1. O problema é de múltiplas etapas? Requer várias jogadas lógicas encadeadas?
  2. A resposta é verificável? Você consegue dizer quando está certa ou errada?
  3. O custo de errar é alto? Um erro desperdiçaria tempo ou dinheiro significativos?

Se pelo menos duas forem sim, use um modelo de raciocínio. Caso contrário, poupe a latência. Se não tem certeza, tente primeiro o modelo padrão e escale se a resposta parecer duvidosa.

Esse padrão, de começar barato e escalar apenas quando necessário, é uma das habilidades mais subestimadas ao trabalhar com IA. Fomos mais fundo nele em AI Research Workflow.


O que isso significa para leitura e pesquisa

Se você lê, aprende e pesquisa como parte de seu trabalho, modelos de raciocínio se encaixam em um slot específico, não no fluxo de trabalho inteiro.

A maior parte do trabalho de aprender não é raciocínio. É atenção. Você escolhe quais fontes importam, foca no que é novo e constrói um mapa pessoal de ideias ao longo do tempo. Nenhum modelo faz isso por você. É por isso que o marcador web do Glasp é construído em torno da etapa humana primeiro: você destaca o que importa, e a IA entra mais tarde como parceira de pensamento, não como substituta.

Para a maioria das tarefas de leitura do dia a dia, um modelo de chat padrão é a ferramenta certa:

  • Resumir um artigo que acabei de ler. Modelo padrão, rápido e limpo.
  • Explicar um conceito que eu não entendi neste artigo. Modelo padrão. Se o conceito é uma afirmação científica de nível PhD, escale.
  • Puxar todas as citações sobre segurança de IA dos meus destaques deste mês. Modelo padrão.
  • Gerar flashcards das minhas notas. Modelo padrão.

Modelos de raciocínio ganham seu lugar em um conjunto menor de trabalhos:

  • Sintetizar a discordância entre cinco autores em um tópico. Modelo de raciocínio, preferencialmente depois que você destacou as passagens relevantes.
  • Mapear o argumento deste artigo às minhas notas existentes e sinalizar contradições. Modelo de raciocínio.
  • Projetar um plano de leitura que cubra minhas lacunas com base no que já li. Modelo de raciocínio.
  • Derivar uma prova ou percorrer um argumento técnico complexo a partir dos primeiros princípios. Modelo de raciocínio.

O fluxo do YouTube Summary é um bom exemplo. Resumir uma palestra de 40 minutos é firmemente uma tarefa de modelo padrão. Mas se a palestra é técnica e você quer verificar se o argumento do palestrante se sustenta contra três contra-argumentos que salvou em outro lugar, é aí que escalar para um modelo de raciocínio com seus destaques como contexto ganha seu custo.

Essa abordagem de dois níveis se conecta a um ponto mais amplo de AI Impact on Learning e AI Thinking Trap: a IA é mais útil quando amplifica o pensamento que você já fez, não quando substitui o pensamento que você não fez. Modelos de raciocínio elevam o teto do que a IA pode contribuir. Eles não mudam o piso, que é definido por quão profundamente você se engajou com seu material.

A licença MIT do DeepSeek R1 também quebrou um padrão. Até 2025, raciocínio forte era proprietário. Agora qualquer um pode rodar um raciocinador destilado de 70B em seu próprio hardware. Para equipes que se importam com privacidade, custo em escala ou fine-tuning, isso muda o cálculo. Cobrimos isso em Open Source vs Closed AI Strategy.


Perguntas frequentes

Preciso de um modelo de raciocínio para a maior parte do meu trabalho?

Provavelmente não. Para leitura, escrita, resumo e Q&A geral, um modelo de chat padrão é mais rápido, mais barato e frequentemente mais preciso. Modelos de raciocínio ganham seu lugar em problemas com múltiplas etapas lógicas e respostas verificáveis.

Qual a diferença entre chain-of-thought prompting e um modelo de raciocínio?

Chain-of-thought prompting é uma técnica em que você diz a um modelo padrão para "pensar passo a passo" no prompt. Um modelo de raciocínio é treinado especificamente para gerar rastros internos de raciocínio muito mais longos antes de responder, usando aprendizado por reforço que recompensa o raciocínio correto. Você pode obter parte do benefício apenas com chain-of-thought prompting, mas a diferença em benchmarks difíceis entre GPT-4o com prompt e o3 ainda é grande, frequentemente de 20 a 40 pontos percentuais.

Por que o o3 custa tão menos do que o o1 custava?

A OpenAI cortou o preço do o3 em aproximadamente 80% durante 2025, terminando em torno de US$ 2 por milhão de tokens de entrada e US$ 8 por milhão de tokens de saída. As reduções vieram de destilação de modelo, otimizações de inferência e maior eficiência de hardware. Modelos de raciocínio permanecem mais caros por consulta do que modelos de chat padrão porque geram muito mais tokens, mas a diferença de preço por token diminuiu significativamente.

O DeepSeek R1 é realmente competitivo com o o3?

Em benchmarks de matemática como AIME 2024 e no GPQA-Diamond, o R1 está próximo do o1, mas ainda atrás do o3. No ARC-AGI, o o3 mantém uma liderança clara. Onde o R1 vence é em flexibilidade. Ele é de pesos abertos sob licença MIT, você pode auto-hospedá-lo, e variantes destiladas de 1,5B a 70B parâmetros o tornam prático em hardware comum. Para equipes que se importam com residência de dados, fine-tuning ou custo em escala, o R1 é frequentemente a melhor escolha mesmo quando está alguns pontos percentuais atrás nos benchmarks.

Como sei se um modelo de raciocínio está pensando demais na minha pergunta?

Dois sinais. Primeiro, a latência parece absurda para a pergunta feita, como 45 segundos para "o que essa palavra significa". Segundo, a resposta hesita mais do que deveria e introduz ressalvas de que a pergunta não precisava. A queda de precisão de 2,4% a 3,8% em recall factual simples documentada em pesquisas de 2025 vem principalmente desse padrão de pensar demais. Se você ver isso, mude para um modelo padrão.

Posso usar modelos de raciocínio e padrão no mesmo fluxo de trabalho?

Sim, e essa é frequentemente a melhor configuração. Use um modelo padrão para trabalho rápido e de alto volume (resumo, rascunho, classificação) e escale para um modelo de raciocínio para o pequeno número de consultas que precisam de deliberação. O Claude 3.7 Sonnet tornou isso explícito com um controle deslizante de orçamento de pensamento, e a API da OpenAI permite rotear entre GPT-4o e o3 livremente.

O Glasp usa modelos de raciocínio?

O chat com IA do Glasp é otimizado para respostas rápidas e conversacionais sobre seus destaques, então padrão para modelos de chat padrão na maioria das interações. Para casos de uso específicos que se beneficiam de análise mais profunda, como sintetizar entre muitos destaques ou comparar argumentos de múltiplas fontes, modelos de raciocínio fazem parte do conjunto de ferramentas. O princípio é o mesmo que sugeriríamos que você seguisse em seu próprio trabalho: combine o modelo à pergunta.

Modelos de chat padrão eventualmente farão tudo o que modelos de raciocínio fazem?

A diferença está diminuindo. Modelos padrão mais novos incorporam técnicas de treinamento de raciocínio, e modelos de raciocínio estão ficando mais rápidos e mais baratos. Por volta de 2027, a distinção pode se embaçar em um único modelo que gasta mais ou menos computação com base na consulta. Por enquanto, os dois modos são distintos o suficiente para que tratá-los como ferramentas separadas valha a pena.


Conclusão: combine o modelo à pergunta

A grande mudança de 2024 e 2025 não foi que a IA ficou mais inteligente no sentido que costumávamos querer dizer. Um novo tipo de modelo apareceu que troca velocidade por profundidade. Esse trade-off é real e mensurável. Um modelo de raciocínio pode duplicar sua precisão em matemática difícil e perder três pontos em Q&A simples na mesma tarde.

A escolha do modelo agora é parte do ofício. Rápido e barato para a maioria das coisas. Lento e profundo para o pequeno conjunto de problemas em que a computação extra ganha seu sustento. A regra que funciona na prática: pergunte se o problema é de múltiplas etapas, verificável e caro de errar. Se dois desses forem sim, use um modelo de raciocínio. Caso contrário, use um modelo de chat padrão.

Modelos de raciocínio não tornam o pensamento opcional. Eles tornam um tipo específico de pensamento mais barato e mais confiável quando você realmente precisa dele. No resto do tempo, um modelo padrão ainda é sua melhor ferramenta, e sua própria atenção ainda é a parte que mais importa. Esse é o enquadramento que o Glasp sempre empurrou: a IA amplifica o que você já destacou e conectou. Escolha o modelo certo, e você tira mais de cada consulta. Escolha o errado, e você está apenas esperando mais por uma resposta pior.

Start building your knowledge library

Highlight what matters as you read across the web. Save insights from articles, books, and YouTube videos in one place.

Get Started Free