Denkende Maschinen: Wann sollten Sie tatsächlich Reasoning-Modelle einsetzen (o3, Claude Extended Thinking, DeepSeek R1)?

Die leiseste große Veränderung in der KI (ohne das P-Wort zu nutzen)

Den Großteil von 2022 und 2023 bedeutete größere KI größere Trainingsläufe. Mehr Parameter, mehr Daten, mehr GPUs. Man erwartete, dass Skalierung im Pre-Training die Fähigkeit weiter nach oben ziehen würde.

Dann zeigte OpenAI im September 2024 o1 in einer Vorschau, ein Modell, das sich nicht so sehr größer als vielmehr langsamer anfühlte. Stellte man ihm eine Frage, pausierte es, manchmal eine halbe Minute lang, bevor es etwas schrieb. Das vollständige o1 erschien am 5. Dezember mit ChatGPT Pro zu 15 $ / 60 $ pro Mio. Tokens (OpenAI, 2024). Es war kein größeres Modell. Es war ein Modell, das mehr Rechenleistung pro Abfrage aufwendete.

Wenige Wochen später kündigte OpenAI o3 an. DeepSeek veröffentlichte R1 am 20. Januar 2025 als Open Source (DeepSeek-AI, 2025). Anthropic rollte Extended Thinking am 24. Februar 2025 in Claude 3.7 Sonnet aus, mit einem nutzerjustierbaren „Thinking Budget" und sichtbaren rohen Reasoning-Spuren (Anthropic, 2025). Die Funktion übertrug sich auf Claude 4, 4.5 und 4.7.

Der Fachbegriff lautet „Test-Time Compute Scaling". Anstatt nur während des Trainings Rechenleistung zu investieren, bekommt das Modell mehr Rechenleistung zum Denken während der Inferenz. Wie Sebastian Raschka in „Understanding Reasoning LLMs" formuliert: Der leise Wandel betrifft nicht, wie diese Modelle trainiert werden, sondern was passiert, sobald Sie Enter drücken.

Für Wissensarbeiter und Lernende zählt das, weil die Modellwahl nicht mehr nur eine Qualitätsfrage ist. Sie ist auch eine Latenzfrage, eine Kostenfrage und eine Frage der Aufgabentauglichkeit.

Was ein Reasoning-Modell tatsächlich anders macht

Vom Jargon befreit tut ein Reasoning-Modell etwas Einfaches. Bevor es eine Antwort schreibt, schreibt es sich einen privaten Entwurf. Dieser Entwurf kann Hunderte oder Tausende von Tokens lang sein. Er erkundet Ansätze, prüft die Arbeit, macht Rückschritte und legt sich dann auf eine endgültige Antwort fest.

Ein Standard-Chat-Modell wie GPT-4o produziert Tokens von links nach rechts, und diese Tokens sind die Antwort. Welches Reasoning es betreibt, wird in das komprimiert, was in diesen einen Vorwärtsdurchlauf passt. Prompten Sie es mit „denke Schritt für Schritt", erhalten Sie etwas mehr Reasoning auf dem Papier, aber das zugrundeliegende Modell ist nicht zum Deliberieren gebaut.

Ein Reasoning-Modell ist zum Deliberieren gebaut. Drei konkrete Unterschiede zeigen sich in der Praxis:

Mehr Tokens pro Abfrage. Reasoning-Ausgaben enthalten oft fünf- bis zwanzigmal mehr verborgene Tokens als die sichtbare Antwort.
Höhere Latenz. Antworten dauern 10 bis 60 Sekunden statt 1 bis 3.
Andere Fehlermodi. Wenn ein Reasoning-Modell falsch liegt, liegt es oft selbstbewusst und ausführlich daneben. Wenn es bei schwierigen Problemen richtig liegt, liegt es in einer Weise richtig, die ein Standardmodell nicht nachvollziehen kann.

DeepSeeks Arbeit in Nature (2025) liefert eine der klarsten Demonstrationen. Bei AIME 2024 erzielte ihr Basismodell 15,6 % pass@1. Nach Reinforcement Learning, das korrektes Reasoning belohnte, erzielte R1 71,0 % pass@1 und 86,7 % mit Majority Voting. Das Modell hatte keine zusätzlichen Mathedaten gesehen. Es hatte gelernt, Inferenz-Tokens zum Denken zu nutzen.

Die praktische Frage für den Rest von uns ist, wann dieses zusätzliche Denken es wert ist.

Die drei Familien: o3, Claude Extended Thinking, DeepSeek R1

Drei Produkte dominieren die Reasoning-Modell-Landschaft Stand Anfang 2026. Jedes verfolgt einen leicht anderen Ansatz.

OpenAI o3 ist die Benchmark-zerschlagende Option. Im Dezember 2024 angekündigt, überquerte es erstmals die ~85 %-Menschenschwelle bei ARC-AGI und erreichte 87,5 % im High-Compute-Modus und 75,7 % in der Effizienzstufe (Chollet, ARC Prize, 2024). ARC-AGI ist darauf ausgelegt, Mustermemorierung zu widerstehen, und kein früheres Modell war auch nur nahe herangekommen. Bei GPQA-Diamond, einem Benchmark auf Graduiertenniveau für Naturwissenschaften, erzielte o3 87,7 % gegenüber 76,0 % für o1. OpenAI senkte die o3-Preise im Laufe von 2025 um etwa 80 % auf 2 $ / 8 $ pro Mio. Tokens, etwa 7,5-mal günstiger als die ursprünglichen o1-Tarife.

Claude Extended Thinking ist die justierbare Option. Mit Claude 3.7 Sonnet am 24. Februar 2025 eingeführt, können Sie damit pro Abfrage ein „Thinking Budget" festlegen. Das rohe Reasoning ist in der API-Antwort sichtbar, nützlich zum Debuggen und Auditieren. Der Preis bleibt beim Standardtarif von Claude Sonnet von 3 $ / 15 $ pro Mio. Tokens, zusätzliches Denken kostet also mehr Tokens, aber keinen Aufpreis.

DeepSeek R1 ist die Open-Weight-Option. Am 20. Januar 2025 unter der MIT-Lizenz veröffentlicht und später in Nature publiziert, wurde R1 mit Reinforcement Learning trainiert, das direkt auf ein Basismodell angewendet wurde, ohne überwachte Reasoning-Daten in der Anfangsphase. Es erreichte o1-0912 bei AIME 2024 und 71,5 % bei GPQA-Diamond. Destillierte Varianten von 1,5 Mrd. bis 70 Mrd. Parametern machten starkes Reasoning auf einer einzigen GPU lauffähig. Ein Update, R1-0528, hob AIME 2025 auf 87,5 %.

Diese drei decken den Raum ab: proprietär an der Spitze (o3), justierbar und transparent (Claude) und Open-Weight (DeepSeek R1).

Benchmarks, ehrlich gelesen

Zahlen ohne Kontext sind irreführend. So vergleichen sich die wichtigsten Reasoning-Benchmarks, mit einem Standard-Chat-Modell als Baseline.

Modell	GPQA-Diamond	AIME 2024 (pass@1)	ARC-AGI (semi-private)	Typische Kosten pro Abfrage	Latenz pro Antwort
GPT-4o (Standard)	~48 %	~13 %	~5 %	~0,01 $	1 bis 3 Sek.
DeepSeek R1	71,5 %	71,0 % (86,7 % mit Majority Vote)	~15 %	~0,005 $ (gehostet)	15 bis 40 Sek.
Claude 4.5 Extended Thinking	~83 %	~80 %	~50 % (hohes Budget)	~0,05 $ bis 0,30 $	10 bis 40 Sek.
OpenAI o3	87,7 %	~90 %	75,7 % (effizient) / 87,5 % (hoch)	~0,05 $ bis 2,00 $+	20 bis 60 Sek.

Quellen: OpenAI o3 Ankündigung (Dez. 2024), ARC-Prize-Blog (Chollet, 2024), DeepSeek-R1 (Nature 2025), Anthropic Release Notes. Latenz und Kosten variieren mit Prompt-Länge und Thinking Budget.

Einige Dinge sind beim Lesen solcher Zahlen zu beachten:

GPQA-Diamond ist eine Sammlung naturwissenschaftlicher Fragen auf Graduiertenniveau, entworfen, damit Nicht-Experten mit Web-Zugang weiterhin schlecht abschneiden. Ein hoher Wert bedeutet, dass das Modell auf dem Niveau eines Promovierenden denken kann. Er bedeutet nicht, dass es ein besserer Autor oder Zusammenfasser ist.

AIME ist ein Wettbewerb im Vorfeld der Olympiade. Werte über 70 % bedeuten, dass das Modell Probleme lösen kann, die etwa die besten 2 % der US-High-School-Schüler angehen. AIME generalisiert schwach auf Alltagsmathematik wie Prognosen oder Tabellenkalkulationen.

ARC-AGI wurde von François Chollet entwickelt, um Memorierung zu widerstehen. Aufgaben sind visuelle Rätsel, bei denen die Regeln durch Beispiele gezeigt werden. Pre-Reasoning-Modelle erzielten einstellige Werte. o3s Sprung war für Forscher echt überraschend. ARC-AGI ist allerdings kein Stellvertreter für praktische Nützlichkeit. Es misst eine spezifische Form abstrakter Generalisierung.

Ein Modell, das diese Benchmarks dominiert, ist nicht automatisch besser für einen Produkt-Launch-Plan, eine Buchzusammenfassung oder eine Kunden-E-Mail.

Wann Reasoning hilft

Reasoning-Modelle verdienen ihr Geld bei Aufgaben mit drei Eigenschaften: mehreren Schritten, verifizierbaren Antworten und hohen Kosten bei Fehlern.

Mehrstufige Mathematik und quantitatives Reasoning. Steuerberechnungen mit mehreren Bedingungen. Finanzmodelle, bei denen eine vertauschte Ziffer die Antwort verändert. Ingenieursberechnungen mit Einheitenumrechnungen. Der 55-Punkte-Sprung von DeepSeek R1 bei AIME kam genau aus dieser Art von Problemen.

Code-Generierung und Debugging für nicht-triviale Aufgaben. „Schreibe eine Funktion, die eine Liste sortiert" braucht kein Reasoning. Ein 300-Zeilen-Modul unter Beibehaltung des Verhaltens zu refaktorieren, eine Race Condition zu debuggen oder einen Algorithmus aus einer Arbeit zu implementieren dagegen schon.

Rechtliche und regulatorische Analyse. Vertragsprüfung mit querverwiesenen Klauseln. Compliance-Fragen, bei denen die Antwort davon abhängt, wie mehrere Regeln zusammenspielen. Viele Rechtsteams nutzen heute Reasoning-Modelle für First-Pass-Analysen, die ein Anwalt dann prüft.

Komplexes RAG-Routing. Wenn ein Retrieval-System entscheiden muss, welche von zehn Indizes abzufragen ist, die Anfrage umzuformulieren und über Quellen hinweg zu synthetisieren, produziert ein Reasoning-Modell in der Orchestrator-Rolle merklich bessere Pläne.

Literatursynthese. Mehrere Arbeiten zu lesen und zu identifizieren, wo sie übereinstimmen, widersprechen und was fehlt, ist genau die Art von Vergleichs- und Kontrastarbeit, die Reasoning-Modelle gut bewältigen. Wenn Sie Glasps KI-Chat genutzt haben, um Themen über Highlights hinweg zu ziehen, spüren Sie beim Eskalieren zu einem Reasoning-Modell für die finale Synthese den größten Unterschied.

Schwierige wissenschaftliche oder technische Fragen. Wenn Ihre Arbeit Chemie, Physik oder Biologie auf Graduiertenniveau umfasst, übersetzt sich ein 40-Punkte-Benchmark-Abstand in echte Antworten, die das Standardmodell nicht liefern kann.

Heuristik: Wenn Sie möchten, dass ein Kollege die Antwort gegenprüft, bevor Sie ihr vertrauen, ist ein Reasoning-Modell wahrscheinlich das Warten wert.

Wann Reasoning schadet

Reasoning-Modelle scheitern auf interessante Weise. Und bei einem überraschend großen Teil alltäglicher Aufgaben schneiden sie schlechter ab als Standard-Chat-Modelle.

Einfacher faktischer Recall. Wenn die richtige Antwort eine einzelne Tatsache ist, die das Modell bereits kennt, geben zusätzliche Thinking-Tokens ihm mehr Chancen, zu zweifeln. Eine Studie von 2025 berichtete, dass Reasoning-Modelle 2,4 % bis 3,8 % Genauigkeit bei einfachem faktischem Recall verlieren. Die Modelle erwägen Alternativen zur korrekten Antwort und legen sich manchmal auf eine fest.

Übersetzung. Gute Übersetzung ist ein Mustererkennungsproblem, kein Reasoning-Problem. Reasoning-Modelle übersetzen nicht besser als GPT-4o und brauchen 20-mal länger.

Zusammenfassung. Wenn Sie 5.000 Wörter auf 300 verdichten, ist der Engpass die Schreibqualität, nicht die Reasoning-Tiefe. Standard-Chat-Modelle sind schneller und produzieren oft saubere Prosa. Unser Artikel zum KI-Forschungsworkflow geht näher darauf ein.

Klassifizierung. Support-Tickets taggen, E-Mails labeln, Sentiment bewerten. Reasoning fügt Latenz ohne Genauigkeit hinzu.

Einfache Fragenbeantwortung. „In welchem Jahr war die Mondlandung?" wird durch Chain of Thought nicht besser. Standard-Chat erledigt das in einer halben Sekunde.

Kreatives Schreiben, das Stimme braucht. Reasoning-Spuren sind analytisch. Modelle, die stark auf Reasoning trainiert sind, produzieren manchmal Antworten, die mechanisch wirken, wenn nach einem Gedicht oder einer emotionalen Passage gefragt wird. Standard-Chat-Modelle wirken wärmer.

Ein subtileres Versagensmuster wird in arXiv 2509.09677, „Illusion of Diminishing Returns", dokumentiert. Die Autoren finden, dass sich Nutzen bei Langzeitausführungen scharf abflachen. Frühe Gewinne sind real, aber die marginale Genauigkeit von zusätzlichen 10.000 Reasoning-Tokens fällt schnell. Ab einem Punkt macht mehr Denken die Antwort nur später und teurer.

Latenz ist ihr eigenes Problem. Die meisten Nutzer interpretieren 30 Sekunden Stille als defektes System. Produkte fügen oft sichtbare „Thinking"-UI hinzu, um Nutzern zu zeigen, dass etwas passiert. Wenn Sie KI in einen engen Workflow einbetten, zählt diese Reibung.

Eine Entscheidungsregel, die Sie tatsächlich nutzen können

Hier eine praktische Matrix. Grob, aber sie deckt das Meiste ab, was Ihnen begegnen wird.

Aufgabentyp	Reasoning-Modell	Standard-Chat-Modell
Mehrstufige Mathematik oder Beweise	Ja, klar	Nein
Code für nicht-triviale Features	Ja	Nur für einfache Snippets
Juristische / Vertragsanalyse	Ja	Nein
Komplexes RAG-Abfrage-Routing	Ja	Nein
Wissenschaftliche oder technische Q&A (PhD-Niveau)	Ja	Nein
Literatursynthese über 5+ Quellen	Ja (finaler Durchgang)	Ja (erster Durchgang)
Übersetzung	Nein	Ja
Zusammenfassung	Nein	Ja
E-Mail-Entwurf	Nein	Ja
Klassifizierung / Tagging	Nein	Ja
Kurze faktische Q&A	Nein	Ja
Kreatives Schreiben mit Stimme	Meist nein	Ja
Chat-Oberflächen mit enger Latenz	Nein	Ja
Brainstorming	Manchmal	Meist ja

Die Regel lässt sich verdichten. Stellen Sie drei Fragen:

Ist das Problem mehrstufig? Erfordert es mehrere logische Züge aneinandergereiht?
Ist die Antwort verifizierbar? Können Sie erkennen, wann sie richtig oder falsch ist?
Sind die Kosten eines Fehlers hoch? Würde ein Fehler erhebliche Zeit oder Geld verschwenden?

Wenn mindestens zwei mit Ja beantwortet werden, nutzen Sie ein Reasoning-Modell. Sonst sparen Sie sich die Latenz. Wenn Sie unsicher sind, probieren Sie zuerst das Standardmodell und eskalieren Sie, falls die Antwort wacklig wirkt.

Dieses Muster, günstig zu starten und nur bei Bedarf zu eskalieren, ist eine der am meisten unterschätzten Fähigkeiten im Umgang mit KI. Wir sind im KI-Forschungsworkflow tiefer darauf eingegangen.

Was das für Lesen und Forschen bedeutet

Wenn Sie Lesen, Lernen und Forschen als Teil Ihrer Arbeit betreiben, passen Reasoning-Modelle in einen bestimmten Slot, nicht in den gesamten Workflow.

Der Großteil der Arbeit des Lernens ist nicht Reasoning. Es ist Aufmerksamkeit. Sie wählen, welche Quellen zählen, fokussieren auf Neues und bauen im Laufe der Zeit eine persönliche Landkarte von Ideen auf. Kein Modell macht das für Sie. Deshalb ist Glasps Web-Highlighter zuerst um den menschlichen Schritt herum gebaut: Sie markieren, was zählt, und die KI kommt später als Denkpartner, nicht als Ersatz, hinzu.

Für die meisten alltäglichen Leseaufgaben ist ein Standard-Chat-Modell das richtige Werkzeug:

Fasse einen Artikel zusammen, den ich gerade gelesen habe. Standardmodell, schnell und sauber.
Erkläre ein Konzept, das ich in dieser Arbeit nicht verstanden habe. Standardmodell. Falls das Konzept eine wissenschaftliche Behauptung auf PhD-Niveau ist, eskalieren.
Ziehe alle Zitate zum Thema KI-Sicherheit aus meinen Highlights dieses Monats heraus. Standardmodell.
Generiere Karteikarten aus meinen Notizen. Standardmodell.

Reasoning-Modelle verdienen ihren Platz bei einer kleineren Reihe von Aufgaben:

Synthetisiere den Dissens zwischen fünf Autoren zu einem Thema. Reasoning-Modell, vorzugsweise nachdem Sie die relevanten Passagen markiert haben.
Ordne das Argument dieses Papers meinen vorhandenen Notizen zu und markiere Widersprüche. Reasoning-Modell.
Entwirf einen Leseplan, der meine Lücken basierend auf dem Gelesenen schließt. Reasoning-Modell.
Leite einen Beweis her oder arbeite ein komplexes technisches Argument von Grund auf durch. Reasoning-Modell.

Der YouTube Summary-Flow ist ein gutes Beispiel. Einen 40-minütigen Vortrag zusammenzufassen ist klar eine Aufgabe für Standardmodelle. Aber wenn der Vortrag technisch ist und Sie prüfen möchten, ob das Argument des Sprechers gegen drei Gegenargumente besteht, die Sie anderswo gespeichert haben, verdient das Eskalieren zu einem Reasoning-Modell mit Ihren Highlights als Kontext seinen Preis.

Dieser zweistufige Ansatz hängt mit einem breiteren Punkt aus KI und Lernen und Die KI-Denkfalle zusammen: KI ist am nützlichsten, wenn sie Denken verstärkt, das Sie bereits geleistet haben, nicht wenn sie Denken ersetzt, das Sie nicht geleistet haben. Reasoning-Modelle heben die Decke dessen an, was die KI beitragen kann. Sie verändern nicht den Boden, der davon gesetzt wird, wie tief Sie sich mit Ihrem Material beschäftigt haben.

DeepSeek R1s MIT-Lizenz durchbrach ebenfalls ein Muster. Bis 2025 war starkes Reasoning proprietär. Jetzt kann jeder einen 70B-destillierten Reasoner auf eigener Hardware laufen lassen. Für Teams, die sich um Datenschutz, Kosten in großem Maßstab oder Fine-Tuning sorgen, ändert das die Rechnung. Wir haben das in Open-Source- vs. Closed-AI-Strategie behandelt.

Häufig gestellte Fragen

Brauche ich für den Großteil meiner Arbeit ein Reasoning-Modell?

Wahrscheinlich nicht. Zum Lesen, Schreiben, Zusammenfassen und für allgemeine Q&A ist ein Standard-Chat-Modell schneller, günstiger und oft genauer. Reasoning-Modelle verdienen ihren Platz bei Problemen mit mehreren logischen Schritten und verifizierbaren Antworten.

Was ist der Unterschied zwischen Chain-of-Thought-Prompting und einem Reasoning-Modell?

Chain-of-Thought-Prompting ist eine Technik, bei der Sie einem Standardmodell im Prompt sagen, es solle „Schritt für Schritt denken". Ein Reasoning-Modell wird speziell darauf trainiert, vor der Antwort viel längere interne Reasoning-Spuren zu generieren, mittels Reinforcement Learning, das korrektes Reasoning belohnt. Sie erhalten einen Teil des Nutzens allein durch Chain-of-Thought-Prompting, aber der Abstand bei schwierigen Benchmarks zwischen geprompter GPT-4o und o3 ist weiterhin groß, oft 20 bis 40 Prozentpunkte.

Warum kostet o3 so viel weniger als o1?

OpenAI senkte den o3-Preis im Laufe von 2025 um etwa 80 % und landete bei rund 2 $ pro Mio. Input-Tokens und 8 $ pro Mio. Output-Tokens. Die Reduktionen kamen aus Modell-Destillation, Inferenzoptimierungen und erhöhter Hardwareeffizienz. Reasoning-Modelle bleiben pro Abfrage teurer als Standard-Chat-Modelle, weil sie weit mehr Tokens generieren, aber der Preisabstand pro Token hat sich deutlich verengt.

Ist DeepSeek R1 wirklich wettbewerbsfähig mit o3?

Bei Mathe-Benchmarks wie AIME 2024 und bei GPQA-Diamond ist R1 nah an o1, aber noch hinter o3. Bei ARC-AGI hat o3 einen klaren Vorsprung. Wo R1 gewinnt, ist Flexibilität. Es ist Open-Weight unter MIT-Lizenz, Sie können es selbst hosten, und destillierte Varianten von 1,5B bis 70B Parametern machen es auf Commodity-Hardware praktikabel. Für Teams, denen Data Residency, Fine-Tuning oder Kosten im großen Maßstab wichtig sind, ist R1 oft die bessere Wahl, selbst wenn es in Benchmarks einige Prozentpunkte zurückliegt.

Woran erkenne ich, ob ein Reasoning-Modell meine Frage überdenkt?

Zwei Anzeichen. Erstens, die Latenz fühlt sich für die gestellte Frage absurd an, etwa 45 Sekunden für „Was bedeutet dieses Wort?". Zweitens, die Antwort hedgt mehr als nötig und führt Vorbehalte ein, die die Frage nicht brauchte. Der 2,4 % bis 3,8 % Genauigkeitsrückgang bei einfachem faktischem Recall, der in der Forschung 2025 dokumentiert wurde, kommt hauptsächlich aus diesem Überdenk-Muster. Wenn Sie es sehen, wechseln Sie zu einem Standardmodell.

Kann ich Reasoning- und Standardmodelle im selben Workflow nutzen?

Ja, und das ist oft das beste Setup. Nutzen Sie ein Standardmodell für schnelle Arbeit mit hohem Volumen (Zusammenfassen, Entwerfen, Klassifizieren) und eskalieren Sie zu einem Reasoning-Modell für die wenigen Abfragen, die Deliberation brauchen. Claude 3.7 Sonnet machte das mit einem Thinking-Budget-Schieberegler explizit, und OpenAIs API erlaubt freies Routing zwischen GPT-4o und o3.

Nutzt Glasp Reasoning-Modelle?

Glasps KI-Chat ist für schnelle, konversationelle Antworten zu Ihren Highlights optimiert und setzt standardmäßig für die meisten Interaktionen auf Standard-Chat-Modelle. Für spezifische Anwendungsfälle, die von tieferer Analyse profitieren, etwa das Synthetisieren über viele Highlights hinweg oder das Vergleichen von Argumenten aus mehreren Quellen, sind Reasoning-Modelle Teil des Werkzeugkastens. Das Prinzip ist dasselbe, das wir Ihnen für Ihre eigene Arbeit nahelegen würden: Passen Sie das Modell zur Frage an.

Werden Standard-Chat-Modelle irgendwann alles können, was Reasoning-Modelle tun?

Der Abstand schließt sich. Neuere Standardmodelle integrieren Techniken aus dem Reasoning-Training, und Reasoning-Modelle werden schneller und günstiger. Bis 2027 könnte sich die Unterscheidung in ein einzelnes Modell verschwimmen, das je nach Abfrage mehr oder weniger Rechenleistung aufwendet. Vorerst sind die beiden Modi unterschiedlich genug, dass es sich auszahlt, sie als separate Werkzeuge zu behandeln.

Fazit: Das Modell zur Frage passen

Der große Wandel von 2024 und 2025 bestand nicht darin, dass KI intelligenter wurde in dem Sinne, den wir früher meinten. Ein neuer Modelltyp kam auf, der Geschwindigkeit gegen Tiefe tauscht. Dieser Tausch ist real und messbar. Ein Reasoning-Modell kann Ihre Genauigkeit bei schwieriger Mathematik verdoppeln und am selben Nachmittag drei Punkte bei einfachen Q&A verlieren.

Die Modellwahl ist jetzt Teil des Handwerks. Schnell und günstig für das meiste. Langsam und tief für die kleine Menge an Problemen, bei denen der zusätzliche Aufwand sich lohnt. Die Regel, die in der Praxis funktioniert: Fragen Sie, ob das Problem mehrstufig, verifizierbar und teuer bei einem Fehler ist. Wenn zwei davon ja sind, nutzen Sie ein Reasoning-Modell. Sonst ein Standard-Chat-Modell.

Reasoning-Modelle machen Denken nicht optional. Sie machen eine bestimmte Art des Denkens günstiger und zuverlässiger, wenn Sie sie tatsächlich brauchen. Den Rest der Zeit ist ein Standardmodell weiterhin Ihr bestes Werkzeug, und Ihre eigene Aufmerksamkeit ist weiterhin der Teil, der am meisten zählt. Das ist der Rahmen, in den Glasp schon immer drängt: Die KI verstärkt, was Sie bereits markiert und verbunden haben. Wählen Sie das richtige Modell, und Sie holen mehr aus jeder Abfrage. Wählen Sie das falsche, und Sie warten nur länger auf eine schlechtere Antwort.