Die Zukunft des YouTube-Lernens: Wie KI-Agenten, Audio-Overviews und interaktive Transkripte Videos in abfragbares Wissen verwandeln

YouTube wurde nie fürs Lernen gebaut. Es wurde trotzdem zum Klassenzimmer der Welt.

YouTube startete 2005 als Ort für kurze Clips. Die Gründer wollten nicht das größte Vorlesungsarchiv der Menschheitsgeschichte bauen. Das geschah zufällig. Khan Academy definierte den Mathematikunterricht neu. 3Blue1Brown ließ lineare Algebra wie Kunst aussehen. Eine Generation selbst gelehrter Programmierer, Musiker, Chirurgen und Zimmerleute wuchs auf und lernte von Fremden vor der Kamera.

Das Werkzeug hielt mit dem Anwendungsfall nie Schritt. Video ist lernerfeindlich. Sie können eine Vorlesung nicht mit Strg-F durchsuchen. Sie können eine zehnminütige Erklärung des Bayes-Theorems nicht überfliegen, wie Sie eine Seite überfliegen. Sie können die 47. Sekunde nicht annotieren. Die auf Watch-Time optimierte Belohnungsschleife der Plattform ist nicht auf Verstehen optimiert. Wir haben diese Spannung in Wie man von YouTube lernt: Die Wissenschaft des Videolernens behandelt: Der größte Teil des Bildungswerts von YouTube entstand dadurch, dass Zuschauer zusätzliche Arbeit leisteten, die die Plattform nie unterstützte.

Was sich 2026 ändert, ist nicht YouTube selbst. Eine neue Schicht von KI-Systemen setzt sich darauf und erledigt die Arbeit, die die Plattform nie tat. Sie transkribieren, kapiteln, übersetzen, fassen zusammen, beantworten Fragen. Und zunehmend schauen sie die Videos an, damit Sie es nicht tun müssen.

Dieser letzte Satz ist die These. Ob Sie ihn wunderbar oder beängstigend finden, hängt davon ab, wofür Video Ihrer Meinung nach da ist.

Drei Generationen des YouTube-Lernens

Das videobasierte Lernen hat drei verschiedene Ären durchlaufen, und jede veränderte, was ein Lernender tatsächlich mit dem Material tut.

Ära	Jahre	Primäres Werkzeug	Was der Lernende tut	Engpass
Vor-KI	2005-2021	YouTube, manuelle Notizen, Untertitel	In Echtzeit anschauen, pausieren, zurückspulen, Notizen von Hand tippen	Lineare Zeit; keine Suche innerhalb eines Videos
LLM-Zusammenfassungs-Ära	2022-2024	ChatGPT + Transkript-Extraktoren, frühe YouTube-Summary-Tools, Glasp	Transkript ins LLM einfügen oder pipen, Rekap lesen, Zeitstempel nachschauen	Oberflächliche Zusammenfassungen; Halluzinationen
Agenten-Ära	ab 2025	Gemini natives Video, NotebookLM, Operator, Claude Computer Use, Glasp + Community-Highlights	Eine KI bitten, zu schauen, Zitate auszuwählen, zu übersetzen, zu debattieren; Mensch kuratiert, was zählt	Quellentreue; aktives Lernen; Vertrauen

Die interessante Bewegung ist der Schritt von der zweiten in die dritte Ära. Die zweite Ära war additiv: Sie schauten das Video weiterhin, hatten aber eine Synopsis daneben. Die dritte Ära ist subtraktiv. Die KI schaut. Der Mensch entscheidet, ob überhaupt zugeschaut wird.

Das verändert die Rolle des Lernenden. Sie werden vom Konsumenten von Videoinhalten zum Leiter der Untersuchung. Die Frage ist nicht mehr „Was hat diese Person gesagt?". Sie lautet „Was muss ich daraus wissen, und was würde meine Meinung ändern?".

Was sich 2024-2025 änderte: Video wurde endlich für KI lesbar

Den größten Teil der 2010er Jahre lag das maschinelle Verständnis von Video deutlich hinter Text zurück. Modelle konnten Bilder beschriften und Audio transkribieren. Aber das „Verstehen" einer fünfzigminütigen Vorlesung, einschließlich Folien, Gesten, Tafelmathematik und dem Off-Script-Exkurs, war für Produktivsysteme unerreichbar. Zwischen Ende 2023 und Anfang 2025 drehten sich drei Dinge.

Erstens kamen native multimodale Long-Context-Modelle. Googles Gemini 1.5 erschien mit der Fähigkeit, bis zu einer Stunde Video direkt aufzunehmen, nicht ein Transkript, sondern die tatsächliche Videodatei (DeepMind, 2024). Gemini 2.0 erweiterte Kontext und Zuverlässigkeit. Claude und GPT folgten durch Frame-Sampling und Transkript-Integration. Das zählt, weil eine gute Vorlesung nicht nur aus ihren Worten besteht. Eine Chemie-Demonstration oder eine Live-Coding-Sitzung übermittelt Bedeutung durch Visuelles, das reine Transkripte verpassen.

Zweitens sprang die Transkriptqualität. YouTubes Auto-Untertitel sind seit etwa 2020 ML-gesteuert, aber das Upgrade der Gemini-Ära verbesserte Interpunktion, Sprechertrennung und die Genauigkeit seltener Begriffe so weit, dass Folgemodelle ihnen vertrauen konnten. Auto-Chapters wechselten vom Marketing-Feature zur zuverlässigen Navigationshilfe.

Drittens hörte Reasoning über langen Text auf, ein Salontrick zu sein. Claude 4.5 und 4.7 mit Extended Thinking können jetzt über ein zweistündiges Transkript reasonieren und Widersprüche, versteckte Annahmen und schwache Aussagen aufdecken, statt nur zu paraphrasieren. Glasps YouTube Summary und Glasps KI-Chat funktionieren so: Das Modell hat das vollständige Transkript als Kontext und kann „Was war das stärkste Gegenargument, das der Sprecher ansprach?" beantworten, ohne etwas vorzutäuschen.

Zusammengenommen haben Sie das Fundament der Agenten-Ära. Video wurde zu etwas, das ein LLM lesen konnte.

Der NotebookLM-Moment

Im September 2024 startete Google Audio Overviews in NotebookLM, und etwa drei Wochen lang war es das Einzige, worüber man in KI-Twitter sprach. Füttern Sie es mit einem YouTube-Video, einem PDF, einem Google Doc. Erhalten Sie einen Podcast im Stil von zwei Hosts zurück, etwa zehn Minuten lang, mit zwei KI-Stimmen, die Ihr Quellenmaterial diskutieren wie alte College-Freunde. Das Audio war entwaffnend natürlich. Menschen teilten Episoden über ihre eigenen Abschlussarbeiten, die Memoiren ihres Großvaters, die Zutatenliste einer Pringles-Dose.

Zwei Dinge ließen es zünden. Das Format: Ein podcastartiger Dialog fühlt sich an wie das Belauschen kluger Leute, die Ihr Ding gelesen haben, psychologisch anders als eine Stichpunktzusammenfassung. Und die Stimmen: Geminis Synthese hatte eine Schwelle überschritten, bei der das Audio nicht mehr offensichtlich maschinenerzeugt war. Google fügte später einen Interactive Mode hinzu, damit Nutzer mitten in der Episode unterbrechen und Fragen stellen konnten.

Die Flitterwochen endeten schnell. Simon Willison wies Ende 2024 auf seinem Blog darauf hin, dass die Hosts routinemäßig Dinge erfinden. Sie verweisen auf persönliche Anekdoten („Erinnert mich daran, als ich ein Kind war und mein Vater immer..."), behaupten Meinungen, die nicht in der Quelle sind, und konfabulieren mit der Selbstsicherheit von Leuten, die das Dokument tatsächlich gelesen haben. Das ist kein Fehler, den man patchen kann. Es ist die Ausgabe eines generativen Modells, das darauf trainiert ist, spannende Konversation zu produzieren, angewendet auf Quellenmaterial, dem es treu bleiben soll. Die beiden Ziele stehen in Spannung.

The Verge und andere schrieben dasselbe Problem durch. Audio Overviews sind großartig als Köder. Sie sind gefährlich als Primärquelle. Wenn Ihre einzige Berührung mit einer Forschungsarbeit ein zehnminütiges Gespräch zwischen zwei fiktiven Podcastern ist, lernen Sie nicht aus dieser Arbeit. Sie lernen aus einer Fan-Fiction davon.

Generatives Audio ist keine neutrale Kompression. Es fügt Persona, Wärme und Selbstsicherheit hinzu. Jede Einheit Persona, die es hinzufügt, ist eine Einheit Quellentreue, die es riskiert zu verlieren. Für Abwägungen zwischen konkurrierenden Tools siehe NotebookLM-Alternativen: Die besten KI-Forschungsassistenten 2026.

Browser-Agenten können jetzt für Sie zusehen

Der nächste Schritt nach „KI fasst ein Video zusammen" ist „KI schaut ein Video an, klickt sich durch die Oberfläche und berichtet zurück". Das war früher Science-Fiction. Seit Anfang 2025 ist es ein Produkt.

OpenAIs Operator, veröffentlicht im Januar 2025, ist ein Browser-steuernder Agent. Er kann durch YouTube navigieren, zu Zeitstempeln scrubben, Transkripte ausklappen und strukturierte Antworten zurückgeben. Anthropics Claude Computer Use, veröffentlicht im Oktober 2024, steuert einen virtuellen Bildschirm und eine Tastatur. Beide können auf eine Playlist mit Vorlesungen gerichtet werden und gebeten werden, „jede Aussage über katalytische Effizienz, die Primärforschung zitiert", zu extrahieren.

Die Implikationen sind unterschätzt. Ein Lernender kann fragen: „Fasse den Stand dieser Debatte über diese zwölf Videos hinweg zusammen" und eine Maschine das Ende-zu-Ende machen lassen, ohne Transkripte zu kopieren und einzufügen. Der Agent produziert in Minuten eine videoübergreifende Synthese, für die ein Doktorand ein Wochenende gebraucht hätte.

Es gibt echte Risiken. Agenten halluzinieren. Sie klicken sich vertippen. Sie verwechseln die Position eines Sprechers mit der Position, die der Sprecher kritisiert. Sie können Satire nicht von Ernsthaftigkeit unterscheiden. Und sie konsumieren Quellenmaterial in einem Volumen, das heikle Fragen für Creator aufwirft, die auf menschliche Zuschauerschaft angewiesen sind. YouTubes Geschäftsmodell basiert auf Anzeigen, die Menschen gezeigt werden, nicht auf Agenten, die Transkripte in ihrem Auftrag ernten.

Dennoch ist die Richtung gesetzt. Sobald eine Fähigkeit technisch möglich und günstig ist, werden Lernende sie nutzen. Das Muster folgt KI und Lernen: Wie ChatGPT und Claude verändern, wie wir denken, lesen und uns erinnern: Das Werkzeug kommt, die Kultur kommt in Bewegung.

KI-Synchronisation und das kommende sprachfreie Klassenzimmer

Von allen Verschiebungen, die im Videolernen passieren, ist diejenige, die in einem Jahrzehnt am meisten zählen könnte, die am wenigsten diskutierte: Übersetzung.

YouTubes Aloud, ursprünglich ein Area-120-Spinoff, der 2023 breiter wurde und 2024 für Englisch-zu-Spanisch und Portugiesisch allgemein verfügbar wurde, synchronisiert Videos automatisch mit KI-Stimmen, die den Ton des Originalsprechers annähern. 2025 folgten weitere Sprachen. ElevenLabs bietet Synchronisation in über neunundzwanzig Sprachen mit Stimmenklon, sodass die übersetzte Version wie der Originalsprecher klingt. HeyGen fügte lippensynchronisierte Videoübersetzung hinzu, die 2023 und 2024 weltweit Schlagzeilen machte (die viralen Messi- und Kim-Kardashian-Demos sind die kanonischen Beispiele).

Was dadurch zusammenbricht, ist die größte Barriere der Online-Bildung: Sprache. Eine am MIT aufgenommene Physikvorlesung, ein auf Mandarin aufgenommenes Schweißtutorial, ein auf Tamilisch aufgenommenes Kochvideo, jedes wird nativ in der bevorzugten Sprache des Zuschauers verfügbar sein, mit der Stimme des Originalsprechers. Studierende in Nairobi werden von Karpathys Videos zu neuronalen Netzen lernen, als unterrichte Karpathy auf Swahili. Das ist keine Kleinigkeit.

Es gibt Reibungen. Synchronisationsqualität variiert. Fachvokabular bricht. Idiome überleben nicht immer. Stimmenklon wirft offensichtliche Einwilligungsfragen auf. Aber die Trajektorie ist unverkennbar, und sie geschieht schneller, als die meisten Bildungseinrichtungen ahnen. Kombinieren Sie Auto-Synchronisation mit Transkriptzusammenfassung und agentengetriebener Synthese, und Sie erhalten eine universelle Vorlesungsebene: Jeder Sprecher, jede Sprache, abfragbar, in Minuten.

Warum Zusammenfassungen nicht genug sind

All das oben Gesagte ist spannend. Es ist aber für sich allein unvollständig.

Richard Mayers Forschung zum multimedialen Lernen, synthetisiert in seiner dritten Auflage von Multimedia Learning 2020, legt Prinzipien dar, die gegen das reine Zusammenfassungsmodell sprechen. Das Prinzip der generativen Aktivität besagt, dass Lernende mehr behalten und übertragen, wenn sie aktiv mit dem Material etwas tun: selbst erklären, vorhersagen, mit Vorwissen verbinden. Das Redundanz-Prinzip besagt, dass dichter, redundanter verbaler Input (einem KI-Zwei-Host-Podcast zuzuhören, der eine Vorlesung zusammenfasst, die Sie nie gesehen haben) die kognitive Kapazität überlastet, ohne die Enkodierung zu verbessern.

Aktuelle arXiv-Arbeiten zum LLM-augmentierten Videoverstehen greifen das auf. Studien von 2024 zeigen, dass Lernende, die KI-Zusammenfassungen mit aktiver Annotation kombinieren, bei Behaltensleistung und Transfer besser abschneiden als solche, die sich allein auf Zusammenfassungen verlassen. Der Auftrieb kommt nicht von der KI. Er kommt von der menschlichen Aktivität, die die KI Raum macht.

Der gewinnende YouTube-Lernstack wird nicht „eine KI, die das Video für mich anschaut und mir sagt, was gesagt wurde" sein. Er wird ein Stack sein, der das richtige Zitat im richtigen Moment hervorbringt, den Lernenden markieren lässt, was zählt, und das eigene Urteilsvermögen des Lernenden als wichtigstes Signal in der Schleife behandelt. Deshalb haben Highlight-first-Tools Bestand in einer Welt unendlicher KI-Zusammenfasser. YouTube-Universität: Wie man kostenlos eine Weltklasse-Ausbildung erhält führte den breiteren Fall an; das ist der Mechanismus dahinter.

Fähigkeitsmatrix: Der Video-Lernstack 2026

Verschiedene Werkzeuge lösen verschiedene Probleme. Hier ein Vergleich der wichtigsten Systeme entlang der Achsen, die für das Lernen wirklich zählen.

Tool	Native Videoaufnahme	Long-Context-Transkript-Reasoning	Markieren / annotieren	Audio-Overview	Sprachsynchronisation	Agentenbasiertes Browsing	Community-Ebene
NotebookLM	Über YouTube-URL	Stark	Nein	Best-in-Class	Nein	Nein	Nein
Gemini (App)	Bis zu ~1 Stunde nativ	Stark	Nein	Begrenzt	Begrenzt	Begrenzt	Nein
ChatGPT (Video)	Frame-Sampling + Transkript	Stark	Nein	Nein	Nein	Teilweise (Agent-Modus)	Nein
OpenAI Operator	Über Browser	Von GPT geerbt	Nein	Nein	Nein	Ja	Nein
Claude Computer Use	Über Browser	Stark, Extended Thinking	Nein	Nein	Nein	Ja	Nein
YouTube (nativ)	Quelle der Wahrheit	Nur Auto-Chapters + Untertitel	Nein	Nein	Aloud-Synchronisation	Nein	Kommentare
Glasp	Über YouTube-URL	Stark (transkript-nativ)	Ja (auf Transkriptebene)	Nein	Nein	Nein	Ja (Highlights geteilt)
ElevenLabs / HeyGen	Audio / Video	Nein	Nein	Nein	Best-in-Class	Nein	Nein

Kein einzelnes Tool macht alles, und die Achse, die die meisten Tools ignorieren, ist diejenige, die fürs Lernen am meisten zählt: menschliche Auswahl. Jede Zeile außer Glasp behandelt den Lernenden als passiven Empfänger von KI-Ausgabe. Das ist eine Wette darauf, dass Content-Generierung der Engpass ist. Wir denken, der Engpass ist und bleibt menschliches Urteilsvermögen darüber, was zählt.

Wie die nächsten drei Jahre wahrscheinlich aussehen

Vorhersagen in der KI altern schlecht, deshalb sind diese vorsichtig formuliert.

Bis Ende 2026 werden die meisten ernsthaften Video-Lernstacks transkriptbasierte Suche, KI-Synchronisation in standardmäßig mindestens zehn Sprachen und eine „Frag das Video"-Oberfläche umfassen, die für faktischen Recall zuverlässig genug ist. Das existiert in Nischen. Es wird zum Boden werden.

Bis 2027 wird agentengetriebene videoübergreifende Synthese für Wissensarbeiter üblich sein. Ein Produktmanager, der einen Wettbewerber recherchiert, wird einen Agenten bitten, die letzten zwanzig Vorträge dieses Executives anzusehen, und eine gerankte Positionszusammenfassung mit Zitaten und Zeitstempeln zurückbekommen. Akademische Forscher werden dasselbe für Konferenzvorträge tun.

Bis 2028 wird die Unterscheidung zwischen „ein Video anschauen" und „eine Arbeit über ein Video lesen" verschwimmen. Viele Lernende werden die Quelle nie ansehen. Sie werden mit einer abfragbaren Repräsentation davon interagieren, möglicherweise synchronisiert, möglicherweise von einer benutzerdefinierten Persona narrativ vorgetragen, möglicherweise in fünf Minuten Audio verdichtet. Das ist schneller und erreicht mehr Menschen. Es trennt auch die Bindung zwischen Lernenden und Creator, die YouTube-Bildung emotional anhaftend machte.

Die offene Frage ist, ob Plattformen das belohnen oder bestrafen. YouTubes Anreize begünstigen noch immer Watch Time. Wenn agentenvermittelte Zuschauerschaft dominant wird, verschiebt sich die Monetarisierung, und damit verschieben sich die produzierten Inhalte. Creator könnten explizit für KI-Lesbarkeit optimieren: sauberere Kapitel, bessere Bildschirmtexte, reichhaltigere Beschreibungen. Für ein paralleles Muster siehe Wie KI den Forschungsworkflow verändert.

Glasps Ansicht: Highlights als die fehlende Ebene

Wir bauen Glasp seit 2021 um eine Überzeugung herum, die nur stärker geworden ist: Zusammenfassungen sind günstig, Highlights sind kostbar.

Eine KI-Zusammenfassung einer Vorlesung ist eine von einer Million möglichen Zusammenfassungen. Sie ist nicht Ihre. Ein Highlight ist eine bewusste Entscheidung. Er sagt: Diese Zeile, in dieser Vorlesung, war mir wichtig. Es ist ein Fingerabdruck der Aufmerksamkeit. Aggregieren Sie diese Fingerabdrücke über eine Community neugieriger Zuschauer, und Sie erhalten etwas, das keine Modellkapazität erzeugen kann: eine Karte dessen, was Menschen beim gründlichen Nachdenken für wichtig hielten.

Auf YouTube angewendet ist das, was YouTube Summary tut. Das Transkript wird importiert. Die KI erzeugt eine erste Zusammenfassung, um die Einstiegskosten zu senken. Das eigentliche Produkt ist der nächste Schritt: Der Zuschauer markiert Sätze, die zählen, und diese Highlights werden durchsuchbar, teilbar, später nutzbar. Glasps KI-Chat operiert über das vollständige Transkript, sodass Sie Fragen stellen können, ohne den Faden zurück zur Quelle zu verlieren. Weil Highlights standardmäßig öffentlich sind, kumuliert sich das Ergebnis über Nutzer hinweg. Für den praktischen Workflow siehe Wie man YouTube-Videos mit KI zusammenfasst und Von YouTube zu Studiennotizen: Ein vollständiger Workflow.

In einer Welt, in der jedes Video auf Abruf zusammengefasst werden kann, liegt der Wert nicht mehr in der Zusammenfassung. Er liegt darin zu wissen, welche Teile man behalten soll.

Häufig gestellte Fragen

Werden KI-Agenten das Ansehen von Videos irgendwann komplett ersetzen?

Für die meisten faktischen Recall-Aufgaben wahrscheinlich ja. Sie sehen sich schon heute keinen sechsminütigen Nachrichtenclip an, wenn die Drei-Satz-Textzusammenfassung korrekt ist. Aber für den Erwerb von Fähigkeiten (Chirurgie, Musik, Sport, Handwerk), für die emotionale Verbindung zu einem Sprecher und für Situationen, in denen die visuelle Demonstration der ganze Punkt ist, bleibt das Zuschauen unerlässlich. Die Frage ist nicht Ersatz, sie ist Triage.

Ist NotebookLMs Audio Overview zuverlässig, um aus einem Video zu lernen?

Es ist zuverlässig als Köder, unzuverlässig als Ersatz. Audio Overviews fügen routinemäßig erfundene persönliche Anekdoten hinzu, legen sich auf nicht in der Quelle enthaltene Meinungen fest und glätten ungelöste Fragen. Behandeln Sie sie als Trailer, nicht als Quelle.

Wie genau sind YouTube-Auto-Transkripte 2026?

Für Englisch und andere gut ausgestattete Sprachen rund 90-95 % Wortgenauigkeit bei klarem Audio, mit solider Interpunktion und Kapitelsegmentierung. Für seltene Fachbegriffe, Eigennamen und akzentuierte Sprache erwarten Sie mehr Fehler. Zitate gegen das Audio prüfen, bevor Sie sie zitieren.

Was ist 2026 das beste KI-Tool, um aus einer langen Vorlesung zu lernen?

Dasjenige, das Sie die Hoheit darüber übernehmen lässt, was zählt. NotebookLM gibt Ihnen das beste Audio Overview. Gemini gibt Ihnen native Videoaufnahme. Claudes Extended Thinking gibt Ihnen das tiefste Transkript-Reasoning. Glasp gibt Ihnen die Highlight- und Community-Ebene, die Sie aktiv statt passiv hält. Die meisten ernsthaften Lernenden nutzen zwei oder drei in Kombination.

Ruiniert KI-Synchronisation die Bedeutung des Originalsprechers?

Normalerweise nicht, bei klarer deklarativer Sprache. Sie kämpft mit Idiomen, Humor und schnellem Hin und Her. Erwarten Sie, dass eine synchronisierte Stanford-Vorlesung die Übersetzung unbeschadet überlebt. Erwarten Sie, dass ein synchronisiertes Standup-Special das meiste verliert, was es lustig machte.

Sind Browser-Agenten, die YouTube ansehen, ein Urheberrechts- oder Policy-Risiko?

Möglicherweise. Der rechtliche Status agentenbasierter Zuschauerschaft ist ungeklärt. Viele Plattform-AGB untersagen automatisiertes Browsen ausdrücklich. Bis YouTube eine klare Policy veröffentlicht, behandeln Sie agentengetriebene Zuschauerschaft als Grauzone für den beruflichen oder kommerziellen Einsatz, besonders wenn Sie die extrahierten Inhalte erneut veröffentlichen.

Wo gewinnt passives Zuschauen noch?

Bei Motivation und dem Modellieren einer Denkweise. Jemandem zuzuschauen, der in seinem eigenen Tempo laut denkt, ist etwas, das keine Zusammenfassung reproduziert. Wenn Ihr Ziel ist, wie ein Domänenexperte reasoniert zu absorbieren, schauen Sie zu. Wenn Ihr Ziel die Antwort ist, lassen Sie die KI es erledigen.

Fazit: Vom Zuschauen zum Abfragen

YouTube wurde zum größten Klassenzimmer der Welt, ohne dass es jemand plante. Zwanzig Jahre lang füllten Zuschauer die Lücke mit Grit und handschriftlichen Notizen. Die Verschiebung 2025-2026 ist das erste Mal, dass die Werkzeuge ernsthaft angekommen sind. Video ist jetzt für Maschinen lesbar. Transkripte sind durchsuchbar. Agenten können zuschauen. Synchronisationen überqueren Sprachen. Audio Overviews verpacken das Ganze in ein Gespräch.

Das ist überwiegend gut. Es senkt den Preis von Wissen. Es löst die Sprachbarriere auf. Es verwandelt YouTube von einem Videorecorder in eine Bibliothek.

Aber der Wert einer Bibliothek hängt davon ab, wer darin liest und was er zu behalten beschließt. Den Teil, den die KI nicht für Sie erledigt, ist der, der am meisten zählt: die Wahl, worauf man seine Aufmerksamkeit richtet. Die Zusammenfassung ist günstig. Die Auswahl gehört Ihnen.

Wenn Sie nicht wissen, wo Sie anfangen sollen, öffnen Sie eine Vorlesung, die Sie schon lange sehen wollten, ziehen Sie sie in Glasp und versuchen Sie, drei Sätze zu markieren, bevor Sie die KI irgendetwas fragen. Diese kleine Handlung, hundertfach über Videos wiederholt, ist das, was Video in Wissen verwandelt. Alles andere ist Vorspiel.