TL;DR / Key Takeaways
Die Prophezeiung 2026 vom KI-Chef von Google
Axios stellte Demis Hassabis eine einfache Frage: Welche Veränderungen in der KI werden wir in einem Jahr spüren? Er antwortete mit einer Roadmap, die weit über die üblichen Anpassungen von Modellparametern hinausgeht und eine Welt skizziert, in der Googles Gemini aufhört, ein Chatfenster zu sein, und beginnt, sich wie eine Infrastruktur für das tägliche Leben zu verhalten.
Auf dem Axios AI+ Gipfel wiederholte Hassabis einen engen Zeitrahmen: Die nächsten 12 Monate gehören der multimodalen Konvergenz. Gemini verarbeitet bereits Texte, Bilder, Videos und Audio; er sagt, der echte Sprung erfolgt, wenn diese Modalitäten nicht mehr nur hinzugefügt werden, sondern beginnen, sich gegenseitig zu befruchten, wodurch Sprachmodelle direkt über visuelle, akustische und bewegte Inhalte in einem integrierten System rationale Schlüsse ziehen können.
Hassabis verwies auf Googles neuestes Bildsystem – das Video nennt es „Nano Banana Pro“ – als Beweis für das Konzept. Das Modell erstellt nicht nur schöne Bilder; es erzeugt präzise Infografiken, analysiert komplexe Szenen und verbessert seine eigenen Ausgaben, wobei es weniger wie ein Filter und mehr wie ein visueller Analyst agiert, der mit einem Sprachmodell verbunden ist.
Diese gleiche Philosophie bestimmt die übergeordnete Positionierung von Gemini. Hassabis beschreibt Gemini als „universellen Assistenten“, nicht als eine einzelne App oder Website, sondern als eine Schicht, die auf Handys, Laptops, Autos und schließlich Brillen läuft, Fragen beantwortet, beobachtet, was Sie tun, und Dokumente, Tabellenkalkulationen sowie Code in Ihrem Google-Konto bearbeitet.
In Hassabis' kurzfristiger Betrachtung delegierst du eine gesamte Aufgabe – plane eine Reise, entwerfe einen Vertrag, debugge einen Code – und ein von Gemini unterstützter Agent kommt "nah" daran, sie von Anfang bis Ende zu erledigen. Er argumentiert, dass aktuelle Agenten scheitern, weil sie Werkzeuge und APIs lose jonglieren; ein eng integriertes multimodales Gemini könnte beobachten, zuhören, lesen und in einem kontinuierlichen Loop agieren.
Das YouTube-Video, das diese Erzählung des „2026-Masterplans“ auslöste, nimmt die 12-monatige Axios-Prognose und dehnt sie zu einem vollständigen Omnimodell-Horizont aus. Bis 2026, so wird behauptet, wird Gemini sechs Modalitäten in einem einzigen Stapel abdecken: - Text - Bilder - Video - Audio - 3D - Robotik
Das ist eine aggressivere Zeitlinie als die, die Hassabis auf der Bühne genannt hat. Seine öffentliche Wette konzentriert sich auf das nächste Jahr der multimodalen Fusion und assistentähnlichen Verhaltensweisen, während die Schöpfer einen Endpunkt im Jahr 2026 extrapolieren, an dem Gemini aufhört, eine Produktfamilie zu sein, und beginnt, wie ein einziges, weltmodellierendes Gehirn für Googles gesamtes Ökosystem auszusehen.
Entschlüsselung des 'Full Omnimodel' Stacks
Omnimodel ist Googles neues Schlagwort für einen einzelnen KI-Stack, der gleichzeitig sechs Modalitäten umfasst: Text, Bilder, Video, Audio, 3D und Robotik. Anstelle von separaten Spezialmodellen, die mit brüchigen APIs zusammengefügt werden, beschreibt Hassabis ein konvergentes System, in dem eine Fundamentmodellfamilie, Gemini, alle diese Sprachen der Welt nativ spricht.
Die heutigen „multimodalen“ Systeme integrieren meist die Vision in die Sprache oder fügen Audio-Ein- und -Ausgabe auf Textbasis hinzu. Ein vollständiges Omnimodell geht weiter, indem es einen gemeinsamen Repräsentationsraum teilt, sodass dieselben internen Neuronen über einen Satz, ein Videobild, ein Raumlayout oder einen Sensordatenstream eines Roboters nachdenken.
Dieser einheitliche Kern lässt Fähigkeiten über Grenzen hinweg fließen. Ein besseres visuelles Verständnis durch Modelle wie Googles neuestes Bildsystem (das Video nennt es „Nano Banana Pro“) führt zu einer besseren sprachlichen Verankerung, die dann die schrittweise Planung und den Einsatz von Werkzeugen schärft.
In einem Omnimodel-Stack trainieren sich alle Modalitäten aktiv gegenseitig. Googles Vision sieht ungefähr so aus: - Text: Geminis Denk-, Programmierungs- und Planungsstruktur - Bilder/Video: Wahrnehmung über Modelle der Veo/V3-Reihe und interaktive Videosysteme wie Genie - Audio: Gemini Live mit latenzarmen Gesprächen und Echtzeitleitungen - 3D: Weltmodelle, die Geometrie und Affordanzen aus Video ableiten - Robotik: Gemini Robotics 1.5 steuert Arme, mobile Basen und humanoide Roboter mit demselben Gehirn
Ein einheitliches Training ermöglicht es dem Modell, „lege die grüne Frucht auf den grünen Teller“ auf Pixel, Tiefe und Motorbefehle abzubilden, ohne manuell konstruierte Verbindungen. Ein Reparaturtutorial, das als Video angesehen wird, verwandelt sich in eine 3D-Szene, die der Roboter navigieren kann, mit einer in natürlicher Sprache narrativen Beschreibung und Audiohinweisen, die mit physischen Aktionen übereinstimmen.
Das ist der Sprung über die aktuellen multimodalen Chatbots hinaus, die größtenteils im Browser gefangen sind. Ein Omnimodell kann Ihre Umgebung durch eine Kamera beobachten, darüber mit demselben Stack nachdenken, der Code und Zusammenfassungen erstellt, und dann über einen Roboter oder agenten auf Telefon-Ebene darauf reagieren.
Für Google ist dies der strategische Weg zu allgemeiner KI: eine Modellfamilie, die lesen, schauen, hören, simulieren und die reale Welt manipulieren kann. Wer als Erster ein zuverlässiges Omnimodell auf den Markt bringt, gewinnt nicht nur die Suche; er besitzt die Schnittstelle sowohl zur digitalen als auch zur physischen Realität.
Gemini Robotics: Von der Obstsortierung zu humanoiden Helfern
Gemini Robotics 1.5 ist Googles Versuch, große Sprachmodelle in physische Arbeiter zu verwandeln, nicht nur in gesprächige Co-Piloten. In Googles Demo verwendet ein Aloha-Roboterarm Gemini, um visuell eine Tabelle mit Früchten zu analysieren, Schritt für Schritt durch Farbzuordnungsregeln zu denken und dann eine mehrstufige Sortieraufgabe mit verbalen Erklärungen für jeden Schritt auszuführen. Das System führt nicht einfach ein hartcodiertes Skript aus; es „denkt laut“, was eine interne Kette von Überlegungen zwischen Wahrnehmung und Handlung offenbart.
Eine weitere Demo bringt dasselbe Modell in einen Apollo-Humanoiden, der Wäsche sortiert. Ein Mensch wechselt plötzlich die Behälter während der Aufgabe, und Apollo aktualisiert seinen Plan im Handumdrehen, was die Fähigkeit von Gemini zeigt, sein Verständnis der Szene neu zu verankern und sich anzupassen. Gemini Robotics 1.5 nutzt zudem das Internet: Der Aloha-Arm verwendet die Abfallrichtlinien von San Francisco, die er gerade aus dem Internet abgerufen hat, um Müll, Recycling und Kompost zu klassifizieren.
Der wahre Durchbruch verbirgt sich hinter der Dramatik: ein einziges Modell, das äußerst unterschiedliche Roboterkörper steuert, ohne eine feine Anpassung pro Roboter. Google behauptet, dass Gemini Robotics 1.5 auf all seinen Plattformen – Aloha-Armen, mobilen Basen, Humanoiden – mit denselben Gewichten und derselben hochrangigen Aktionsschnittstelle läuft. Das deutet auf ein echtes „Omnimodell“ für die Verkörperung hin, bei dem ein Gehirn über Formfaktoren, Aufgaben und Umgebungen hinweg generalisiert.
Hardware bleibt Googles Schwachstelle. Boston Dynamics, Figure, Tesla und Agility Robotics versenden oder testen physische Plattformen in größerem Maßstab, während Google größtenteils laborgestützte Prototypen zeigt. Selbst Apollo, gebaut von Apptronik, verdeutlicht, dass Google bei KI-Steuerstack anführt, nicht bei Aktuatoren, Batterien oder robusten Versorgungsketten.
Bis 2026 wird sich ein plausibles Gemini Robotics 2.x weniger wie ein Demovideo und mehr wie eine Plattform präsentieren. Erwarten Sie: - Zuverlässige Handhabung von unordentlichen Haushaltsumgebungen, nicht nur von inszenierten Tischen - Mehrstündige, mehrstöckige Arbeitsabläufe wie „die Küche aufräumen und die Geschirrspülmaschine einräumen“ - Industrielles Kommissionieren und Verpacken, Zusammenstellen von Komponenten und grundlegende Inspektionen in echten Lagerhäusern
Die eigenen AGI-Zeitpläne und öffentlichen Kommentare von Google, einschließlich Demis Hassabis über die Zukunft der KI – Google DeepMind (Fortune Global Forum fireside), deuten auf schnelle Fortschritte in Planung und multimodalem Denken in den nächsten 2–5 Jahren hin. Sollten diese Fortschritte in Robotern umgesetzt werden, könnte Gemini Robotics 2.x die heutigen kunterbunten Früchte-Sortiertricks in leise kompetente Haushalts- und Fabrikarbeiten verwandeln.
Jenseits von Sora: Googles Streben nach Video- und Bildherrschaft
Vergiss Chatbots. Für Demis Hassabis kommt die wahre Schockwelle in den nächsten 12 bis 24 Monaten auf den Bildschirm: Videos und Bilder, die nicht nur real aussehen, sondern tatsächlich verstehen, was sie zeigen. Googles Veo (oft in Demos als „V3“ bezeichnet) steht im Mittelpunkt dieses Vorstoßes und wird leise zu einem der fähigsten generativen Videosysteme auf dem Markt.
Veo erzeugt qualitativ hochwertige Clips aus Text oder einem einzelnen Bild, mit konsistenten Charakteren, kohärenter Kamerabewegung und physikalisch plausiblen Szenen. In internen und Partner-Demos hat es bereits die frühen OpenAI Sora Clips in Bezug auf zeitliche Kohärenz und Aufforderungstreue entweder erreicht oder übertroffen, auch wenn Google es vorsichtiger eingeführt hat.
Hassabis argumentiert, dass Veos echter Vorteil nicht in filmischen Tricks, sondern im Denken liegen wird. Da Gemini von Natur aus multimodal ist, kann Veo grundsätzlich Folgendes verarbeiten: - Ein Skript oder eine Gliederung - Referenzbilder oder Storyboards - Vorgaben zu Kontinuität und Stil
und dann Videos produzieren, die die narrative Logik respektieren, anstatt nur oberflächlichen Stil. Das ist die Kluft zwischen "cooler Demo" und "brauchbarem Tool" für Film, Werbung und Simulation.
Auf der Bildseite deutet Googles neuestes Modell – scherzhaft als „Nano Banana Pro“ auf der Bühne bezeichnet – darauf hin, in welche Richtung es geht. Anstatt einen einzigen direkten Übergang von Aufforderung zu Pixeln zu haben, verhält es sich eher wie ein Agent: es generiert, prüft seine eigene Ausgaben, erkennt Fehler und regeneriert dann mit Korrekturen.
Fordern Sie eine komplexe Infografik an, und Nano Banana Pro kann Achsen, Legenden und Beschriftungen so anordnen, dass sie tatsächlich zu den zugrunde liegenden Daten passen. Es kann beispielsweise ein Balkendiagramm zum Marktanteil von Smartphones erstellen, erkennen, dass eine Beschriftung einen Balken überlappt, diese verschieben und Farben für die Barrierefreiheit anpassen – alles ohne menschliches Eingreifen.
Hassabis ist der Meinung, dass der wahre Durchbruch kommt, wenn diese visuellen Systeme eng mit großen Sprachmodellen verschmelzen. Ein zukünftiges Gemini könnte einen 20-seitigen Bericht lesen, die Zahlen überprüfen, ein Infografik designen und ihn dann in ein 30-sekündiges Erklärvideo umwandeln, und das alles bei gleichbleibender interner Konsistenz.
Strategisch ist das wichtiger als Fotorealismus. Für Google bedeutet es, dieses Rennen zu gewinnen, Modelle zu entwickeln, die Visualisierungen erzeugen, die nicht nur hochauflösend, sondern auch genau, kontextbewusst und so fundiert sind, dass Nutzer und Regulierungsbehörden ihnen tatsächlich vertrauen können.
Ihr KI-Co-Pilot wird jetzt Realität: Gemini Live
Gemini Live macht das Konzept des „KI-Co-Piloten“ endlich greifbar. In dem viralen Ölwechsel-Clip hält ein Nutzer sein Telefon auf einen Motorraum, spricht natürlich und erhält schrittweise Anleitung dazu, was er abschrauben, ablassen und was er nicht anfassen soll. Kein Pausieren, um Fragen einzugeben, kein Durchsuchen von YouTube, nur ein beständiger, gesprächiger Assistent, der an seiner Seite ist.
Unter der Haube vereint Gemini Live drei komplexe Herausforderungen in einer einzigen Erfahrung. Zuerst ist da niedrig-latenzfähige Sprach-zu-Sprach-Kommunikation, bei der das Modell in nahezu Echtzeit hört, denkt und antwortet, anstatt die typischen 2–5 Sekunden Verzögerung von Cloud-Assistenten zu haben. Zweitens ist da Echtzeit-Visuelles Denken: Das System analysiert den Live-Kamerafeed, verfolgt Objekte wie Öl- und Filterkappen und aktualisiert die Anweisungen, während sich das Bild verändert.
Die dritte Säule ist der Zugang zu Googles gigantischem Wissensgraph und Webindex. Gemini Live sieht nicht nur eine Schraube; es verbindet diese Schraube mit Reparaturanleitungen, Foreneinträgen und Sicherheitshinweisen und verdichtet dies dann zu einem einzigen umsetzbaren Schritt. Diese Synthese lässt es weniger wie eine Sprachsuche und mehr wie einen dedizierten Experten erscheinen, der aufmerksam über deine Schulter schaut.
Infolgedessen ist Gemini Live der klarste Schritt in Richtung des „universellen Assistenten“, den Hassabis immer wieder anpreist. Anstatt Künstliche Intelligenz auf Dokumente und Code zu beschränken, beginnt sie damit, chaotische, reale Arbeitsabläufe zu behandeln: Autowartung, Reparaturen im Haushalt, Kochen, sogar grundlegende Diagnosen von Unterhaltungselektronik. Die Ölwechsel-Demonstration dient als Stellvertreter für jede Aufgabe, bei der man normalerweise ein Anleitungsvideo, ein PDF und einen Reddit-Thread jonglieren würde.
Bis 2026 wird man erwarten, dass dieser Stack unter der Oberfläche ganz anders aussehen wird. Die Latenz wird wahrscheinlich unter 300 ms end-to-end sinken, wodurch Sprachwechsel effektiv instantan wirken und natürlicheres Eingreifen und Unterbrechen ermöglicht wird. Das visuelle Verständnis sollte sich von statischen Teilen auf dynamische Systeme erweitern, indem man nicht nur Lecks erkennt, sondern auch modelliert, wie Flüssigkeit durch einen Motor oder ein Gerät fließen sollte.
Tiefere Überlegungen werden wichtiger sein als Geschwindigkeit. Ein Gemini Live im Jahr 2026 könnte mehrstündige Aufgaben in Teilaufgaben zerlegen, den Fortschritt über Tage verfolgen und Pläne anpassen, wenn Werkzeuge, Teile oder Umgebungen sich ändern. An diesem Punkt hört "Co-Pilot" auf, eine Metapher zu sein, und beginnt, wie eine präzise Stellenbeschreibung zu klingen.
Neue Realitäten erschaffen mit Genie 3 Weltmodellen
Weltenmodelle verwandeln generative KI von passivem Inhalt in spielbare Realität. Anstatt einen festen 10-Sekunden-Clip auszugeben, lernt ein Weltenmodell die zugrunde liegenden Dynamiken einer Umgebung – wie Objekte sich bewegen, kollidieren und reagieren –, sodass Nutzer oder Agenten eintauchen und in Echtzeit interagieren können. Denken Sie weniger an „KI-Video-Filter“ und mehr an „KI-generierte Level in einer Spiel-Engine“, die sich aktualisieren, während Sie sie erkunden.
Genie 3, die neueste Weltmodell-Linie von Google DeepMind, treibt diese Idee konsequent voran. Aus einem einzigen Textprompt – „regennasse Cyberpunk-Gasse“, „marsianischer Canyon bei Dämmerung“, „überschwemmte U-Bahn-Station“ – kann Genie 3 eine erkundbare 2D- oder pseudo-3D-Welt mit kohärenter Physiik und Navigation synthetisieren. Anstelle von vorgefertigten Kamerapfaden erhält man einen steuerbaren Avatar, kontinuierliche Bewegung und Objekte, die sich in den verschiedenen Szenen konsistent verhalten.
Entscheidend ist, dass Genie 3 nicht jedes Mal zurückgesetzt wird, wenn Sie einen Knopf drücken. Das System behält Weltgedächtnis bei, verfolgt Zustände, Positionen und frühere Interaktionen von Objekten, sodass das Umstoßen einer Kiste oder das Öffnen einer Tür während Ihrer Erkundung erhalten bleibt. Darüber hinaus fügt Google „aufforderbare Ereignisse“ hinzu: Sie können neue Anweisungen während der Simulation einfügen – „ein Erdbeben auslösen“, „einen Stromausfall starten“, „eine Rettungsdrohne beschwören“ – und die Welt wird in Echtzeit aktualisiert, während sie physisch und visuell konsistent bleibt.
Gaming ist der очевид очевидная первый пункт. Modelle im Genie-Stil könnten spielbare Level, Nebenquests oder ganze Mikrowelten automatisch generieren, die auf die Fähigkeiten oder narrative Entscheidungen eines Spielers zugeschnitten sind. Designer könnten eine Atmosphäre in Text skizzieren und dann an einem lebenden Prototyp arbeiten, anstatt jede Kachel und Kollision Box von Hand zu gestalten.
Das tiefere Spiel liegt außerhalb der Unterhaltung. Roboterentwickler benötigen Milliarden von sicheren Versuch-und-Irrtum-Interaktionen, bevor sie einem Roboter im Umgang mit Menschen vertrauen können. Weltmodelle wie Genie 3 können synthetische Trainingsumgebungen schaffen, in denen virtuelle Agenten lernen, zu greifen, sich zu orientieren und sich von Grenzfällen zu erholen, lange bevor sie ein echtes Lagerhaus oder Krankenhaus betreten. Katastrophenplaner könnten steuerbare Simulationen von Waldbränden, Chemieunfällen oder städtischen Überschwemmungen erstellen und Evakuierungspläne wiederholt auf ihre Belastbarkeit testen.
Hassabis hat argumentiert, dass das Lehren von KI gesunden Menschenverstand und Physik diese Art von geerdeter Simulation erfordert, nicht nur mehr Webtexte. Weltmodelle geben Systemen der Gemini-Klasse eine Testumgebung, um Ursache und Wirkung, Objektpermanenz und Einschränkungen wie Reibung oder Schwerkraft zu erlernen. Diese Philosophie zieht sich auch durch Googles breitere multimodale Initiative, die in Introducing Gemini: Googles fähigstes multimodales KI-Modell detailliert beschrieben wird, wo Text, Vision und Handlung zu einem einzigen Stapel verschmolzen werden, der bereit ist, sowohl virtuelle als auch physische Welten zu bewohnen.
Die Morgendämmerung wirklich zuverlässiger KI-Agenten
Zuverlässige KI-Agenten bleiben das fehlende Puzzlestück in Googles Masterplan 2026. Demis Hassabis sagte Axios, dass die heutigen Systeme bei langen, mehrstufigen Aufgaben immer noch zu oft versagen, um ihnen eine echte „einrichten und vergessen“-Delegation anvertrauen zu können. Sie halluzinieren Werkzeuge, lassen Teilschritte weg oder kommen zum Stillstand, wenn sich APIs ändern.
Hassabis zog auch eine kurzfristige Grenze: Innerhalb von etwa 12 Monaten erwartet er, dass Agenten, die „nahe“ dran sind, zuverlässig komplexe End-to-End-Aufgaben akzeptieren und ausführen. Das bedeutet, vom „hilf mir, diese E-Mail zu schreiben“ zu „plane und buche meine gesamte Reise, bearbeite Änderungen und halte mich auf dem Laufenden“ mit minimaler Aufsicht. Zuverlässigkeit, nicht roher IQ, wird zum entscheidenden Faktor.
Google führt bereits kontrollierte Experimente mit agentischen Systemen in der Forschung durch. Hassabis hat einen „Co-Wissenschaftler“ beschrieben, der: - Hypothesen aus der Literatur generieren kann - Simulationen oder Laborabläufe entwerfen und durchführen kann - Ergebnisse interpretieren und Folgeexperimente vorschlagen kann
Die gleichen Muster zeigen sich auch im aufkommenden Tool-Nutzungs-Stack von Gemini. Gemini kann bereits Kalender, Gmail, Docs und externe APIs aufrufen, Aktionen verknüpfen und Pläne anpassen, wenn sich die Bedingungen ändern. Frühe interne Agenten übernehmen Aufgaben wie mehrstufige Kundenservice-Workflows oder die Optimierung von Werbekampagnen, aber Google hält sie hinter Schutzvorrichtungen, da Fehler nach wie vor mit realen Kosten verbunden sind.
Um die Zuverlässigkeitsschwelle von Hassabis zu überschreiten, benötigen Agenten drei Dinge: stärkere Logik, robuste Werkzeugorkestrierung und kontinuierliches Feedback aus der Umgebung. Google greift jede Ebene mit dem Omnimodel-Vorstoß an. Ein nützlicher Agent kann nicht nur Texte lesen; er muss sehen, zuhören und handeln.
Binden Sie Gemini Robotics 1.5, Veo, Nano Banana Pro und Genie 3 zusammen und Sie erhalten einen Plan für diesen Agenten. Eine zukünftige Gemini-Instanz könnte den Fabrikboden über Video beobachten, gesprochene Anweisungen von Arbeitern interpretieren, CAD-Modelle in 3D konsultieren und Roboter zur Neugestaltung einer Produktionslinie ausschicken. Das gleiche Rückgrat könnte in einem Browser leben, während es stillschweigend Ihre Abonnements verwaltet und gleichzeitig einen humanoiden Roboter anleitet, um ein undichtes Waschbecken zu reparieren.
Google setzt darauf: Sobald ein einzelnes Modell zuverlässig Texte, Bilder, Videos, Audios, 3D und Robotik abdeckt, hören "KI-Agenten" auf, eine UX-Schicht zu sein, und werden zur Infrastruktur.
Googles unfaire Vorteile: Rechenleistung, Daten und Intelligenz
Google setzt auf KI in seinen Rechenzentren, nicht in seinen Demos. Während Konkurrenten GPUs von Cloud-Anbietern mieten, läuft Google auf einem vertikal integrierten Stack, der auf seinen maßgeschneiderten TPU v5p und der Next-Gen TPU v6 Trillium-Beschleuniger basiert. Diese Kontrolle ermöglicht es DeepMind und dem Gemini-Team, alles von Compilern bis hin zu Kühlschleifen anzupassen und aus jedem Megawatt mehr Trainingsläufe herauszuholen.
TPU v5p zielt auf großangelegte Trainings mit Pod-Konfigurationen, die auf Zehntausende von Chips skalierbar sind, während v6 Trillium die Leistung pro Watt für fortschrittliche multimodale Modelle noch weiter steigert. Google behauptet, dass v6 Trillium wesentliche Effizienzgewinne im Vergleich zu v5e liefert, das bereits die früheren Generationen von Gemini unterstützte. Die Kontrolle über den Silikonfahrplan verringert die Abhängigkeit von Engpässen in der Lieferkette von Nvidia und gibt Google vorhersehbare Stückkosten für Milliarden-Parameter-Experimente.
Hardware allein gewinnt das Rennen nicht; Google besitzt auch das weltweit wertvollste multimodale Trainingscorpus. Die Milliarden von Videos auf YouTube, eng verbunden mit Audio, Kommentaren und Interaktionsdaten, bilden ein unvergleichliches Fundament für Video- und Audiomodelle wie Veo und die Wahrnehmungsarchitektur von Gemini. Google Bilder und jahrzehntelanges Crawlen im Web liefern beschriftete Fotos, Diagramme und Screenshots in nahezu jedem Bereich.
Diese Datentiefe ist besonders wichtig für die „Omnimodell“-Vision, von der Demis Hassabis spricht. Ein einziges Modell zu trainieren, das über Text, Bilder, Video, Audio, 3D und Robotik hinweg denken kann, erfordert synchronisierte Signale zwischen den Modalitäten: Bilder, die mit Transkripten übereinstimmen, Aktionen, die mit Ergebnissen übereinstimmen, Szenen, die mit Sprache übereinstimmen. Allein YouTube liefert Google Petabytes genau dieser Art von gepaarten Daten, in globalem Maßstab und in Dutzenden von Sprachen.
Dann gibt es die Forschungsabteilung von Google DeepMind, die wohl die stärkste in diesem Bereich ist. AlphaFold hat nicht nur Proteinstrukturen vorhergesagt; es hat die Erwartungen daran, was Deep Learning in wissenschaftlichen Bereichen leisten kann, neu definiert, indem mehr als 200 Millionen vorhergesagte Strukturen der Gemeinschaft zur Verfügung gestellt wurden. Frühere Arbeiten wie AlphaGo, AlphaZero und MuZero haben eine Kultur von langfristigen Wetten etabliert, die Theorie, Systemtechnik und massive Rechenleistung kombinieren.
Diese Kultur fließt nun direkt in Gemini, Genie-Weltmodelle und die neue Welle agentischer Systeme ein. Die Forscher von DeepMind verfeinern nicht nur Modelle; sie erfinden neue Architekturen, Trainingsschemata und Bewertungsmethoden und bringen sie dann in Produktionsmaßstäbe. Nur wenige Wettbewerber können mit diesem Prozess vom grundlegenden Konzept bis zur globalen Bereitstellung mithalten.
Kombinieren Sie diese drei Säulen – maßgeschneiderte Rechenleistung, proprietäre Daten und erstklassige Forschungstalente – und Google hat mehr als nur einen Vorsprung. Es verfügt über einen strukturellen Schutz, der sich im Laufe der Zeit verstärkt, da jedes neue Modell sowohl Daten verbraucht als auch generiert, die die nächste Generation weiter trainieren.
Steht AGI vor der Tür? Was Hassabis wirklich denkt
AGI liegt für Demis Hassabis nur knapp jenseits des Hype-Zyklus von 2026. Während er in Bezug auf kurzfristige „vollständige Omnimodelle“ und robuste Agenten zuversichtlich klingt, bleibt sein Horizont für Künstliche Allgemeine Intelligenz bei etwa 5–10 Jahren, nicht zwei oder drei.
Er definiert AGI als mehr als die auffälligen Demos von heute. Systeme müssen echte Erfindungen, anhaltende Kreativität und tiefere abstrakte Denkfähigkeiten zeigen, nicht nur das Remixen von Trainingsdaten oder Ketten von Gedankenanstoßen. Die aktuellen Gemini-Modelle sind weiterhin nicht in der Lage, zuverlässig neuartige wissenschaftliche Hypothesen oder Ingenieurlösungen ohne umfangreiche menschliche Unterstützung zu generieren.
Hassabis argumentiert, dass es zwei Zutaten erfordert, die parallel zueinander verlaufen müssen, um dorthin zu gelangen. Erstens eine aggressive Fortführung des Skalierungsansatzes: größere Modelle, reichhaltigere multimodale Daten und eine dichtere Integration von Text, Code, Bildern, Videos, Audio, 3D und Robotik. Er verknüpft dies ausdrücklich mit Googles TPU-Roadmap und der Fähigkeit, führende Modelle zu niedrigeren Grenzkosten zu trainieren.
Zweitens betont er, dass das bloße Skalieren nicht ausreichen wird, um AGI freizuschalten. Er erwartet „ein oder zwei bedeutende wissenschaftliche Durchbrüche“ – neue Architekturen, Lernalgorithmen oder Darstellungen, die es Modellen ermöglichen, ursächliche Weltmodelle aufzubauen und zu manipulieren, nicht nur statistische Korrelationen. Arbeiten wie DeepMinds Genie 3 und die in Die Zukunft der KI – Google DeepMind beschriebenen Forschungen skizzieren die Richtung, aber er betrachtet es als eine frühe Phase.
Hassabis’ Optimismus geht mit einem klaren Risikoregister einher. Er weist wiederholt auf Cyber-Terror-Szenarien hin, bei denen leistungsstarke Modelle die Entdeckung von Schwachstellen, Spear-Phishing und tiefenweichentechnisch unterstützte soziale Manipulation in großem Maßstab automatisieren. Außerdem macht er sich Sorgen über agentische Abweichungen – autonome Systeme, die einmal mit langfristigen Aufgaben und Werkzeugzugriff ausgestattet, nicht übereinstimmende Teilziele verfolgen.
Diese Mischung aus Ambition und Vorsicht prägt die öffentliche Haltung von Google. Hassabis betrachtet Sicherheitsarbeit – wie Red-Teaming, Evaluierungen, Forschungsarbeiten zur Ausrichtung und politische Einbindung – als Bedingung, um auf AGI hinzuarbeiten, nicht als optionalen Bremsmechanismus. Für ihn besteht die Herausforderung nicht nur darin, allgemeine Intelligenz zu entwickeln, sondern sie auch kontrollierbar zu halten, wenn sie endlich erreicht wird.
Was Googles KI-Vision für Sie im Jahr 2026 bedeutet
Willkommen in einem Jahr 2026, in dem Gemini still und leise hinter fast allem sitzt, was Sie mit einem Bildschirm, einer Kamera oder einem Motor tun. Das "Full Omnimodel"-System von Hassabis bedeutet, dass ein Gehirn Texte, Bilder, Videos, Audio, 3D und Robotik umfasst, sodass Ihr Assistent sich nicht mehr wie eine Sammlung von Apps anfühlt – er erscheint wie ein einheitliches, beständiges System, das erinnert, schlussfolgert und handelt.
Der Alltag verschiebt sich von „Werkzeuge nutzen“ zu „Ergebnisse zuweisen“. Ein zuverlässiger Agent nimmt ein vages Briefing – „Plane und buche einen dreitägigen Kundenoffsite unter 15.000 Dollar, priorisiere Züge gegenüber Flügen, behalte die Zeitpläne der Kinder aller im Auge“ – und führt es über Gmail, Docs, Sheets, Slack und deinen Kalender aus, und fordert nur dann Klarstellung an, wenn sich Einschränkungen überschneiden.
Auf deinem Handy und Laptop begleitet dich Gemini als universelle Schicht, nicht als Chatbot-Registerkarte. Beginne damit, ein Strategie-Deck auf deinem Desktop zu entwerfen, verfeinere die Folienlayouts per Sprache während deiner Fahrt, und lasse dann Gemini automatisch eine narrativ beauftragte Videoversion für Stakeholder erstellen, die niemals Folien öffnen – alles aus demselben zugrunde liegenden Projektstatus.
Brillen oder leichte tragbare Geräte verwandeln Gemini Live in einen Echtzeit-Coach. Richten Sie Ihren Blick auf einen Motor, ein Server-Rack oder ein medizinisches Gerät und erhalten Sie Schritt-für-Schritt-Übersichten, Sicherheitsprüfungen und live Fehlerkorrekturen, unterstützt von fusionierten Vision-Language-Modellen und einer Latenz, die in Zehntelmillisekunden anstelle von Sekunden gemessen wird.
Kreativindustrien spüren den Schock zuerst. Interaktive Weltmodelle wie Genie 3 ermöglichen es einem einzelnen Creator, eine Spielmechanik in Text zu skizzieren, eine spielbare 3D-Szene zu generieren, durch Gespräche mit der Welt zu iterieren („Schwerkraft verringern, zwei Gegner hinzufügen, den Grafikstil auf Cel-Shading ändern“) und dies ohne Berührung eines traditionellen Engines ins Web zu veröffentlichen.
Die Videoproduktion verwandelt sich in Prompt-Engineering und Regie. Ein Filmemacher skizziert ein Storyboard, fügt Referenzbilder hinzu und nutzt Modelle der Veo-Klasse, um Szenen zu generieren, die von Editoren geschnitten, koloriert und zusammengesetzt werden. Damit wird aus einem früheren VFX-Pipeline mit 30 Personen eine Hybridlösung aus menschlichem Geschmack und maschinell gerenderten Dailies.
Nichts davon geschieht magisch. Googles vertikal integrierter Stack – TPU v5p und v6 Trillium-Hardware, Daten im Petabyte-Maßstab und die Forschungsbasis von DeepMind – verleiht seinem Fahrplan außergewöhnliche Glaubwürdigkeit, selbst wenn sich die Zeitpläne verzögern. Hassabis' Vision für 2026 liest sich weniger wie Science-Fiction und mehr wie ein Produktplan für KI, die direkt in sowohl deine Browser-Tabs als auch deinen Geschirrspüler integriert ist.
Häufig gestellte Fragen
Was ist das Konzept von Googles 'Omnimodell'?
Ein 'Omnimodell' bezieht sich auf ein einzelnes, einheitliches KI-System oder eine Modellfamilie, die nahtlos mehrere Datentypen (Modalitäten) verarbeitet, einschließlich Text, Bilder, Video, Audio, 3D-Umgebungen und Robotersteuerung. Das Ziel ist es, eine wirklich universelle KI zu schaffen.
Was hat Demis Hassabis für KI bis 2026 vorhergesagt?
Er prognostiziert erhebliche Fortschritte in der multimodalen Konvergenz, bei der Sprachmodelle vollständig mit Bild- und Video-Funktionen verschmelzen. Außerdem erwartet er, dass KI-Agenten zuverlässig genug werden, um komplexe, mehrstufige Aufgaben autonom zu bewältigen.
Was sind Googles 'Weltmodelle' wie Genie 3?
Genie 3 ist ein interaktives Videomodel, das es Nutzern ermöglicht, virtuelle Welten mithilfe von Textvorgaben zu generieren und zu erkunden. Es bewahrt Gedächtnis und Konsistenz und ermöglicht Echtzeitinteraktionen. Es stellt einen entscheidenden Schritt in Richtung Training leistungsfähigerer verkörperter Agenten dar.
Wie wird Googles Gemini in der Robotik eingesetzt?
Gemini Robotics 1.5 ermöglicht physischen Robotern, ihre Umgebung wahrzunehmen, Schritt für Schritt zu denken, um Probleme zu lösen, und komplexe Aufgaben auszuführen. Dasselbe Modell kann ohne Feinabstimmung über verschiedene Roboterformen hinweg verwendet werden, was vielseitigere und leistungsfähigere Maschinen ermöglicht.