Das erste 'AGI'-Modell ist hier.

Ein Start-up behauptet, das weltweit erste AGI-fähige Modell entwickelt zu haben, aber die eigentliche Geschichte ist, wie neue Sichtmodelle bereits alles verändern. Entdecken Sie, warum Ihre KI-Fähigkeiten kurz davor sind, obsolet zu werden.

Stork.AI
Hero image for: Das erste 'AGI'-Modell ist hier.
💡

Zusammenfassung / Kernpunkte

Ein Start-up behauptet, das weltweit erste AGI-fähige Modell entwickelt zu haben, aber die eigentliche Geschichte ist, wie neue Sichtmodelle bereits alles verändern. Entdecken Sie, warum Ihre KI-Fähigkeiten kurz davor sind, obsolet zu werden.

Die bombastische Behauptung: AGI ist bereits da?

Weltweit erstes AGI-AGI-fähiges Modell. So hat Integral AI heute Morgen sein neues System vorgestellt und behauptet, es sei nicht nur ein weiteres großes Sprachmodell, sondern eine Architektur, die „autonom planen, lernen und handeln kann über Modalitäten hinweg“, ohne aufgabenspezifisches Fine-Tuning. Das Unternehmen gibt an, dass das Modell Text, Code, Bilder und Live-Tools in einem einzigen Loop verarbeitet und vermarktet es ausdrücklich als AGI-AGI-fähig, nicht nur als „fortschrittlich“.

Im Mittelpunkt der Ankündigung steht der Gründer von Integral AI, Daniel Kwan, ein ehemaliger leitender Forscher bei Googles Brain- und DeepMind-Teams, wo er Berichten zufolge an großangelegtem Reinforcement Learning und multimodalen Transformern gearbeitet hat. Kwans Lebenslauf – Publikationen zu Policy-Gradient-Methoden, frühe Arbeiten an transformer-basierten Agenten und Aufenthalte an internen Gemini-Prototypen – verleiht Integral ein Maß an technischer Glaubwürdigkeit, das die meisten KI-Startups nicht fälschen können.

Integral behauptet, dass sein System über ein 400‑Billionen-Parameter-Backbone mit einem Mixture-of-Experts-Layout verfügt, das im Geiste ähnlich wie Nvidias Neotron 3 und andere spärliche Modelle ist, aber mit einem „agentischen Controller“ verbunden ist, der Werkzeuge aufrufen, im Web browsen und Software-Schnittstellen bedienen kann. Das Unternehmen demonstriert bereits, wie das Modell mehrstufige Tabellenkalkulationen löst, große Codebasen refaktoriert und sich durch unbekannte Benutzeroberflächen navigiert, allein durch Bildschirmpixel und textliche Anweisungen.

Die Märkte reagierten sofort, aber ungleichmäßig. Auf X verglichen mehrere bedeutende Forscher die AGI-Sprache mit früheren überhypeten Einführungen und verwiesen auf die vorsichtigere Formulierung von OpenAI und Google bezüglich der Modelle der Klasse GPT-5 und Gemini. Die frühen Benchmark-Ausschnitte, die Integral teilte – MMLU, GSM8K und maßgeschneiderte „Wissenarbeit“-Suiten – zeigen starke, aber nicht eindeutig übermenschliche Ergebnisse, was eine Welle des Skeptizismus von Akademikern und unabhängigen Evaluatoren auslöste.

Investoren und Unternehmenskäufer haben es jedoch nicht kategorisch abgelehnt. Werkzeuganrufagenten, die zuverlässig mit echter Software arbeiten können, sind genau das, was die Automatisierungsteams der Fortune 500-Unternehmen wünschen, und Integral behauptet, dass Pilotkunden das Modell bereits in den Bereichen Finanzen, Recht und Betriebsabläufe einsetzen. Wenn die Demos die Überprüfung durch Dritte überstehen, hört sich „AGI-AGI-fähig“ nicht mehr nur wie ein beschreibendes Adjektiv in einer Präsentation an, sondern beginnt, wie eine neue Produktkategorie auszusehen.

Das wirft eine deutliche Frage über die gesamte Branche auf: Läuft Integral AI mit dem Begriff AGI der Aufmerksamkeit voraus, oder hat ein ehemaliger Google-Mitarbeiter leise das weltweit erste System entwickelt, das weniger wie ein Chatbot und mehr wie ein Junior-Kollege agiert?

Dekodierung von 'AGI-fähig': Hype vs. Horizont

Illustration: Entschlüsselung von 'AGI-fähig': Hype vs. Horizont
Illustration: Entschlüsselung von 'AGI-fähig': Hype vs. Horizont

Integral AI stützt seine Behauptung „AGI-AGI-fähig“ auf eine enge, technische Idee: ein Modell, das autonom aus seiner Umgebung lernen kann, anstatt auf umfangreiche, vorab kuratierte Datensätze angewiesen zu sein. In ihrer Darstellung beobachtet das System rohe Datenströme aus Bildern, Schnittstellen, Dokumenten und Sensordaten und aktualisiert dann in Echtzeit seine eigenen internen Richtlinien, mehr wie ein Verstärkungslern-Agent als ein statisches großes Sprachmodell. Das Unternehmen argumentiert, dass man, sobald man sich kontinuierlich so anpassen kann, das Substrat hat, auf dem künstliche allgemeine Intelligenz entstehen könnte.

Diese Definition umschifft leise, was die meisten Forscher mit AGI meinen. In der Mainstream-Forschung zur Künstlichen Intelligenz bedeutet AGI allgemein menschliches Niveau der allgemeinen Intelligenz: die Fähigkeit, flexibel zu verstehen, zu planen und in fast jedem Bereich zu handeln, mit Robustheit, Transfer und gesundem Menschenverstand, der mit dem eines Menschen vergleichbar ist. Nach diesem Maßstab klingt „AGI-AGI-fähig“ eher nach „architektonisch interessant“ als nach „Maschinen sind nun unsere kognitiven Gleichgestellten.“

Wo Integral AI in Richtung des Feldes ausgerichtet ist, ist der Drang, Modelle zu entwickeln, die wahrnehmen, urteilen und handeln können als einheitliche Agenten. Das Unternehmen beschreibt ein einzelnes System, das Folgendes verarbeitet: - Texte, Bilder und Videos - GUI-Zustände und API-Antworten - Möglicherweise Daten von realen Sensoren oder Robotern

und wählt dann Aktionen: das Klicken durch Schnittstellen, das Aufrufen von Werkzeugen, das Ausgeben von Code oder das Aktualisieren eines Plans. Das ist der gleiche agentische, multimodale Stapel, den Unternehmen wie OpenAI, Google und Zhipu (mit GLM‑4.6V bei 106B Parametern plus einer 9B Flash-Variante) zu entwickeln versuchen.

Die Lücke wird sichtbar, wenn man sich Beweise anschaut. Die öffentlichen Demos von Integral AI erinnern bisher an Forschungsprototypen in der frühen Phase: kurze Clips zur UI-Navigation, Spielzeugrobotik und eingeschränktes Lösen von Rätseln, ohne harte Zahlen. Es gibt keine standardisierten Benchmarks, keine direkten Vergleichsergebnisse in Suiten wie MMLU, MMBench oder AgentBench und keine Ablationsstudien, die zeigen, dass autonomes Lernen konventionelles Fine-Tuning übertrifft.

Diese Disconnect zwischen Rhetorik und Realität ist entscheidend. Die Behauptung, man sei „die erste AGI-AGI-fähige“ Technologie, weckt Erwartungen an ein Modell der Klasse GPT‑4, das willkürliche Aufgaben robust bewältigen, sich online anpassen und sein Denken erklären kann. Stattdessen deutet das Ausliefern einer Handvoll enttäuschender Demos auf eine vertraute Geschichte hin: Die zugrunde liegende Forschung könnte echt sein, aber das Marketing ist bereits mehrere Runden vor der Wissenschaft vorausgesprintet.

Chinas visionärer Sprung mit GLM-4.6V

Chinas KI-Ökosystem hat gerade einen konkreten Gegenpol zu vagen „AGI-AGI-fähigen“ Behauptungen produziert: Zhipu AIs GLM-4.6V, ein multimodales Modell, das bereits über ernsthafte visuelle und reasoning Fähigkeiten verfügt. Während die Integral AI AGI-Ankündigung auf einem kühnen Versprechen autonomen Lernens basiert, setzt GLM-4.6V ein Zeichen in etwas, das einfacher zu überprüfen ist: Benchmarks, Parameter und funktionierenden Code.

GLM-4.6V kommt als ein Open-Source-Multimodales Vision-Language-Modell, das Text, Bilder, Screenshots und vollständige Dokumentenseiten in einem einzigen Durchgang verarbeitet. Es erstellt nicht nur Bildunterschriften; es analysiert dichte PDFs, überladene Benutzeroberflächen, Diagramme und mathematische Grafiken, während der langfristige Kontext erhalten bleibt.

Zhipu bietet zwei Varianten an, die auf unterschiedliche Bereitstellungsrealitäten ausgerichtet sind. Das vollständige GLM-4.6V kommt auf etwa 106 Milliarden Parameter für Cloud-Scale-Anwendungen, während GLM-4.6V-Flash auf etwa 9 Milliarden Parameter für Anwendungen mit geringer Latenz auf Geräten oder am Edge reduziert ist.

Beide Modelle unterstützen Kontextfenster im Bereich von 128K-Token, was für reale Dokumente von Bedeutung ist, die sich über Dutzende oder Hunderte von Seiten erstrecken. Diese Kapazität ermöglicht Aufgaben wie die durchgängige Vertragsprüfung, die Analyse technischer Paper oder das Durcharbeiten von Multi-Screen-Apps, ohne Inhalte in verlustbehaftete Fragmente zu zerteilen.

In Benchmarks positioniert Zhipu GLM-4.6V als Spitzenreiter unter den offenen visuellen Sprachmodellen mit vergleichbaren Parametergrößen. Interne und externe Tests heben starke Ergebnisse in folgenden Bereichen hervor: - Dokumentenverständnis - Screenshot- und GUI-Analyse - Diagramm- und Chart-Interpretation - Visuelles Fragenbeantworten und mathematisches Denken

Was GLM-4.6V von vielen westlichen Konkurrenzprodukten abhebt, ist das native gemeinsame Denken über verschiedene Modalitäten hinweg. Sie können einen Screenshot, ein gescanntes Formular und eine Textanfrage gemeinsam eingeben, und das Modell behandelt Layout, Text und visuelle Hinweise als ein einziges Denkproblem, anstatt OCR auf ein LLM zu überlagern.

Dieses Design macht GLM-4.6V zu einem glaubwürdigen offenen Konkurrenten zum Gemini Vision-Stack von Google und der GPT-4.1/4.2V-Stufe von OpenAI. Entwickler erhalten ein Modell, das sie selbst hosten, anpassen und in Agents für die UI-Automatisierung, die Unternehmenssuche oder Compliance-Workflows integrieren können, ohne alles an geschlossene APIs abzugeben.

Warum Ihre Eingabeaufforderungen kurz davor sind, veraltet zu werden

Eingabeaufforderungen verwandeln sich allmählich in veraltete Benutzeroberflächen. Modelle wie GLM‑4.6V lesen nicht nur Ihre Worte; sie sehen Ihren Bildschirm, analysieren Ihre PDFs und verfolgen die Struktur über 100.000+ Tokens aus gemischtem Text und Bildern. Das verändert das, was Sie einer KI "sagen" von umfangreicher Prosa hin zu etwas, das näher an einer Produktspezifikation ist.

Anstatt eine paragraphlange Anfrage zu formulieren, übergibst du dem Modell einen Screenshot deines Analyse-Dashboards und schreibst: „Automatisiere das basierend auf monatlichen Trends und sende mir Anomalien über Slack.“ GLM‑4.6V kann die Achsen des Diagramms, die Legende, Filter und sogar die Benutzeroberfläche analysieren, um das zugrunde liegende Datenmodell zu erfassen. Dein Text wird zu einem Ziel, und der Screenshot wird zum Kontext, über den das Modell tatsächlich nachdenkt.

Der Schlüssel zu diesem Nutzen ist die native multimodale Funktionsaufruf. Anstatt Sie zu zwingen, ein Bild per OCR zu verarbeiten oder manuell ein Layout zu beschreiben, übergibt GLM‑4.6V rohe Bilder, Diagramme oder Dokumentseiten direkt an Werkzeuge und Agenten. Ein einziger Aufruf kann bündeln: - Einen 20-seitigen gescannten Vertrag - Einen Screenshot eines Produkts - Eine kurze Textanweisung

Dieses Paket durchläuft eine Werkzeugkette, die Code suchen, umschreiben, ausführen oder externe APIs auslösen kann, alles basierend auf dem, was das Modell „gesehen“ hat.

Prompt-Engineering, als Handwerk ausgefeilter Formulierungen, beginnt veraltet zu wirken. Es ist nicht mehr nötig, zu sagen: „Im oberen rechten Feld mit der Bezeichnung 'MRR' identifizieren Sie die monatlichen Veränderungen…“, wenn das Modell das MRR-Widget visuell lokalisieren und die Zahlen lesen kann. Der schwierige Teil wandelt sich von der Formulierung hin zur Abgrenzung: die Definition von Einschränkungen, Datenquellen, Berechtigungen und akzeptablen Fehlermodi.

Die Interaktion wechselt von einem gesprächigen Hin- und her zu Zielsetzung für autonome Agenten. Sie zeigen auf ein Figma-Board und sagen: „Verwandle diesen Ablauf in ein funktionierendes Onboarding-Erlebnis und verknüpfe es mit unserem Stripe-Sandbox.“ Der Agent nutzt den Vision-Stack von GLM-4.6V, um Layout, Hierarchie und Text zu verstehen, und ruft dann Codierungswerkzeuge, Designsysteme und Bereitstellungspipelines auf, ohne dass Sie jeden Schritt erläutern müssen.

Während Modelle besser im gemeinsamen visuellen und textuellen Denken werden, ähneln Aufforderungen zunehmend Missionsbriefings. Sie liefern Artefakte – Screenshots, Fotos von Whiteboards, Dashboards – und ein prägnantes Ziel. Das System übernimmt die Übersetzung von dem, was Sie ihm zeigen, zu dem, was ausgeführt werden muss.

Die Wirtschaftlichkeit von KI hat sich gerade gewendet.

Illustration: Die Wirtschaftlichkeit von KI hat sich gerade gewandelt.
Illustration: Die Wirtschaftlichkeit von KI hat sich gerade gewandelt.

Hochwertige multimodale KI bestraft derzeit jeden, der mit Video arbeitet. Frontier-APIs von OpenAI, Anthropic und Google berechnen pro Token, und Video-Pipelines explodieren die Token-Zahlen: Jeder Frame oder jeder ausgewählte Schlüssel-Frame wird zu Text, jeder Untertitel und jedes Transkript-Stück summiert sich. Lässt man einige Stunden 1080p-Material durch GPT‑4o oder Claude 3.5 Sonnet laufen, kann man zusehen, wie die Rechnung in die Hunderte von Dollar springt.

GLM‑4.6V geht das Problem aus zwei Perspektiven an: offene Gewichte und aggressive Preisgestaltung. Zhipu AI bietet das 106B-Parameter-Cloud-Modell zu Preisen an, die die westlichen Wettbewerber erheblich unterbieten, wobei einige chinesische Anbieter weniger als 0,30 USD pro Million Eingabetoken und 0,90 USD pro Million Ausgabetoken anbieten. Wenn Sie täglich mit Zehntausenden von Token auf Überwachungsdatenströmen, UI-Aufzeichnungen oder Kundenservice-Screenings arbeiten, wird dieser Unterschied zu einer Budgetposition.

Dann gibt es GLM‑4.6V‑Flash, das 9B-Parameter-Schwester-Modell, das für lokale und Edge-Bereitstellungen optimiert ist. Teams können es auf ein paar leistungsstarken GPUs oder einer gut ausgestatteten Workstation betreiben, einmal für die Hardware bezahlen und im Grunde unbegrenzt Screenshots, PDFs und Diagramme verarbeiten. Bei kontinuierlichen Arbeitslasten - Sicherheitskameras, industrielle Überwachung, Gameplay-Analytik - wandelt lokale Inferenz die Wirtschaftlichkeit von einer mietabhängigen Kostenerfassung zu einer fixen Infrastruktur.

Dieser Preisdruck trifft auf einen Markt, in dem OpenAI und Anthropic weiterhin wie Premium-SaaS-Anbieter agieren. Ihre multimodalen Stufen bündeln: - Höhere Preise pro Token für Bild- und Videoeingaben - Strenge Nutzungsobergrenzen - Intransparente Überziehungsrichtlinien

GLM‑4.6V und ähnliche Modelle von Qwen, LLaVA und NVIDIA NeMo laden zu einer anderen Strategie ein: Besitze den gesamten Stack und miete nur, wenn es unbedingt notwendig ist. Das unterbietet die bestehenden Anbieter bei großen, vorhersehbaren Arbeitslasten und schiebt proprietäre APIs in Nischenrollen, die „nur wenn wir Grenzleistungen benötigen“ relevant sind.

Günstigere, leistungsstarke Modelle für die Bild- und Sprachverarbeitung verändern ebenfalls, wer in der Lage ist, komplexe KI-Systeme zu entwickeln. Ein Startup in Jakarta kann GLM-4.6V-Flash auf lokalen Rechnungen und Versandformularen anpassen, ohne ein siebenstellige API-Budget zu benötigen. Ein zweiköpfiges Indie-Studio kann einen In-Game-Coach entwickeln, der dein HUD und die Minikarte in Echtzeit liest und ganz auf dem PC des Spielers läuft.

Während multimodale Modelle sowohl zugänglich als auch ausreichend leistungsfähig werden, verschiebt sich die Beschränkung von Geld zu Vorstellungskraft. Die nächste Welle von KI-Produkten – autonome UI-Tester, ständig aktive Fabrikinspektoren, dokumenten-native Co-Piloten – gehört nicht mehr ausschließlich zu den Unternehmen, die sich großangelegte Grenztoken leisten können.

Nvidias stille Revolution: Leistung für Ihren PC

Nvidias neuester Schritt in Richtung lokaler KI-Power ist Neotron 3, ein 30B-Parameter-Mischmodell für Sprachverarbeitung mit offenen Gewichten. Entwickelt für Geschwindigkeit und Effizienz, zielt es auf die Lücke zwischen kleinen Modellen für Geräte und cloud-basierten Top-Systemen ab. Nvidia behauptet, dass Neotron 3 andere ~30B-Modelle wie GPT-4.1-OSS und Qwen 3 30B bei den Standardbenchmarks übertrifft und dabei schlank genug für eine praktische Implementierung bleibt.

Mixture-of-Experts, oder MoE, verändert die üblichen wirtschaftlichen Aspekte dichter Modelle. Anstatt alle Parameter für jedes Token zu aktivieren, nutzt Neotron 3 128 Experten, von denen nur 6 pro Token aktiv sind, so dass die meisten der 31,6 Milliarden Parameter in jedem Schritt inaktiv bleiben. Sie erhalten die Kapazität eines deutlich größeren Modells mit dem Rechenaufwand, der näher an einem mittelgroßen LLM liegt.

Dass Architektur von Bedeutung ist, wenn Sie starke KI direkt auf Ihrer eigenen Hardware ausführen möchten. MoE ermöglicht es Neotron 3, eine hohe Durchsatzrate auf modernen GPUs zu erreichen und dabei die Latenz niedrig genug für interaktive Anwendungen zu halten: Coding-Assistenten, lokale Co-Piloten oder private Dokumenten-Chats, die Ihr Gerät niemals verlassen. Sie tauschen etwas an absoluter Spitzenleistung gegen vorhersehbare, kontrollierbare Geschwindigkeit.

Privatsphäre und Souveränität stehen im Mittelpunkt dieses Wandels. Ein Modell wie Neotron 3 kann auf einem Arbeitsplatzrechner, einem Edge-Server oder einem kleinen Unternehmens-NAS betrieben werden und verwaltet: - Sensible Verträge und E-Mails - Quellcode und Build-Protokolle - Interne Analysen und Dashboards

Keine Eingaben oder Embeddings müssen durch die Cloud eines Anbieters übertragen werden. Das steht im krassen Gegensatz zu den cloudbasierten Ansprüchen der „Weltweit ersten AGI-AGI-fähigen“ Systeme von Akteuren wie Integral AI, die massive zentralisierte Systeme anpreisen, anstelle von persönlicher Infrastruktur; siehe Integral AI Enthüllt das Weltweit Erste AGI-AGI-fähige Modell - Business Wire für diese Vision.

Neotron 3 signalisiert, wohin Nvidia den Markt als Nächstes steuert: nicht nur hyperskalierte Rechenzentren, sondern Werkzeuge der AGI-Ära für PCs, bei denen Individuen und kleine Teams ernsthafte Modelle lokal und nach ihren eigenen Bedingungen betreiben.

Die überraschende Wende von GPT-5.2 zu 'wirtschaftlichem Wert'

GPT-5.2 kam für viele Alltagsnutzer mit einem Knall. Soziale Feeds wurden mit Vergleichen überschwemmt, die es als „mittelmäßig“, „rückläufig“ oder „nicht besser als 5.1“ für kreatives Schreiben, Programmiertricks oder lockere Gespräche bezeichneten. Doch innerhalb von Unternehmen berichteten frühe Anwender leise von etwas anderem: einem Modell, das plötzlich unheimlich kompetent in Wissensarbeit wirkte.

OpenAIs eigene Diagramme erklären die Diskrepanz. Anstatt marginale Gewinne bei akademischen Benchmarks zu verfolgen, schneidet GPT-5.2 bei GDP-V – kurz für „Bruttoinlandsprodukt-Wertvoll“, einem synthetischen Benchmark, der misst, wie gut ein Modell wirtschaftlich nützliche Aufgaben erfüllt – hervor. In dieser Kategorie behauptet OpenAI, dass GPT-5.2 die Punktzahl von 5.1 ungefähr verdoppelt, was einen der größten Sprünge zwischen einzelnen Generationen darstellt, die sie bisher gezeigt haben.

GDP‑V testet die Dinge, die tatsächlich in einer Bilanz auftauchen: das Erstellen von RFPs, das Strukturieren von Berichten, das Befassen mit unordentlichen Tabellen und das Umwandeln vager Stichpunkte in präsentationsbereite Executive-Decks. GPT‑5.2 spiegelt diese Neigung wider. Es ist darauf abgestimmt, PowerPoint-Präsentationen aus Rohbriefings zu erstellen, Daten in Excel zu bereinigen und zu konsolidieren sowie durch mehrstufige Geschäftsabläufe mit weniger Halluzinationen und weniger Unterstützung zu navigieren.

Kreatives Schreiben, ausgefallenes Brainstorming und offene Gespräche wirken flacher, weil sie nicht die Zielgruppe sind. Nutzer, die GPT-5.2 wie ein leistungsstärkeres GPT-4 für Fiktion, Fan-Art-Vorschläge oder philosophische Diskussionen behandeln, stoßen direkt auf seine neue Persönlichkeit: konservativer, wörtlicher, mehr „Berater“ als „Co-Autor“. Für einen CFO ist das ein Vorteil. Für einen Romanautor fühlt es sich wie ein Rückschritt an.

Dieser Pivot zeigt auf, wo sich der Markt hin bewegt hat. Frontier-Modelle kosten jetzt Zehntausende von Millionen Dollar für Training und Betrieb; sie können diese Kosten nicht durch kostenlose Chatbots und Gute-Nacht-Geschichten rechtfertigen. OpenAI optimiert ausdrücklich für Sektoren, die das BIP beeinflussen: Finanzen, Beratung, Recht, Betrieb, Unternehmenssoftware und interne Automatisierung.

Sie können die strategische Bindung erkennen, die sich bildet. Ein Modell, das weltweit führend ist in:

  • 1PowerPoint- und Aufsichtsratsunterlagen
  • 2Excel-Modellierung und Szenarioanalyse
  • 3Richtlinien-, Vertrags- und Compliance-Workflows

Slots direkt in Microsoft 365, Kunden-CRMs und interne Tools. GPT‑5.2 ist weniger ein Upgrade für einen allgemein einsetzbaren Chatbot und mehr ein Signal, dass das „erste AGI‑fähige Rennen der Welt“ nun durch die vierteljährlichen Einnahmen verläuft.

Der Aufstieg der KI-Super-Agenten

Illustration: Der Aufstieg der KI-Superagenten
Illustration: Der Aufstieg der KI-Superagenten

Die Macht verschiebt sich von rohen Modellen zu den Super-Agenten, die sie umgeben. Manis 1.6 und Poetic zeigen, wie dünne Schichten der Orchestrierung, des Gedächtnisses und der Selbstkritik generische LLMs in Systeme verwandeln können, die verdächtig wie autonome Mitarbeiter aussehen, anstatt wie Chatbots, die auf Eingaben warten.

Manis 1.6 nutzt dies, indem es mehrere Werkzeuge und Unteragenten um ein Basismodell herum miteinander verknüpft. Es zerlegt eine Anfrage in atomare Aufgaben, leitet jede an spezialisierte Routinen weiter und verbindet dann die Ergebnisse. So wird „recherchieren Sie diesen Markt und entwerfen Sie einen Launch-Plan“ zu Stunden automatisiertes Surfen, Clustern und Schreiben mit minimaler menschlicher Steuerung.

Poetic geht sogar noch weiter in der Denkfähigkeit. Basierend auf bestehenden LLMs hat es den ARC-AGI-Benchmark nicht durch das Training eines neuen Grenzmodells übertroffen, sondern durch die Hinzufügung eines cleveren Denkgerüsts und eines Selbst-Audits-Loops, der das System zwingt, seine eigenen Hypothesen zu testen und zu verfeinern, bevor es sich auf eine Antwort festlegt.

ARC-AGI ist bekanntlich feindlich gegenüber Mustererkennung; es verlangt abstraktes Denken über kleine visuelle Rätsel. Poetisch hüllt das Basismodell in einen Prozess ein, der: - Kandidatenregeln auflistet - Jede Regel an Beispielen simuliert - Inkonsistente Hypothesen verwirft - Solange iteriert, bis eine passende Regelmenge entsteht

Diese Architektur hat die ARC-AGI-Leistung von Poetic weit über die typischen LLM-Baselines hinaus gesteigert und deutet darauf hin, dass AGI-AGI-fähiges Verhalten eher von besseren „Gehirnen um das Gehirn“ stammen könnte, als nur von größeren Parameterzahlen. Die Entscheidungen im Produktdesign — wie man Aufgaben zerlegt, Ausgaben überprüft und Agenten Werkzeuge nutzen lässt — werden ebenso wichtig wie die zugrunde liegenden Gewichtungen.

Deshalb fühlt sich „AGI wird vermutlich aus dem Produktdesign hervorgehen“ weniger wie ein Slogan und mehr wie eine Roadmap an. Agentische Unterstützung verwandelt statische Modelle in Systeme, die planen, erinnern und sich selbst korrigieren – von abrufunterstützten Forschungsagenten bis hin zu Code-Refaktorisierern, die Tests durchführen, Fehler reproduzieren und regressionsbedingte Probleme eigenständig beheben.

Benutzer erleben dies bereits als autonome Arbeit, nicht als Gespräch. Poetisch gestaltete Agenten arbeiten sich durch Benchmark-Suiten und Evaluierungsanwendungen; Manis-ähnliche Plattformen verwalten mehrstündige Workflows, die sich über Browser, CLIs und Cloud-APIs erstrecken, und liefern Ihnen dann einen fertigen Bericht, ein Dashboard oder eine Codebasis-Differenz.

Verknüpft mit Modellen wie GLM-4.6V und Neotron 3, können diese Super-Agenten sehen, lesen und agieren über Screenshots, PDFs und lokale Dateien, ohne ständige Aufforderung. Die Chatbot-Benutzeroberfläche wird zu einem Arbeitsauftrag: Sie beschreiben das Ergebnis, der Agent zerlegt, führt aus, überprüft und meldet sich nur, wenn eine echte Entscheidung einen Menschen benötigt.

Signal vom Rauschen im KI-Goldrausch trennen

Marketingabteilungen verkünden lautstark die Fähigkeiten von AGI-AGI-fähigen Modellen; Ingenieure liefern leise Systeme aus, die tatsächlich die Arbeitsabläufe verändern. GLM-4.6V, Neotron 3 und agentische Plattformen wie Poetic weisen alle in die gleiche Richtung: praktische, automatisierte, multimodale KI, die weniger wie ein Chatbot und mehr wie Infrastruktur agiert.

Die multimodale Fähigkeit bedeutet jetzt mehr als nur „Bilder sehen können“. GLM-4.6V verarbeitet Screenshots, PDFs und Diagramme neben Text, führt Langtext-Argumentation über 100K+ Token durch und steuert Agenten, die durch Benutzeroberflächen navigieren oder ganze Verträge analysieren. Die Aufforderung wird von Absätzen voller Anweisungen auf ein einzelnes übergeordnetes Ziel verkürzt, das das System selbstständig untergliederte.

Gleichzeitig brechen effiziente lokale Modelle das Monopol der Cloud-KI. NVIDIAs Neotron 3 quetscht ein 30B-Parameter Mixture-of-Experts-Modell in Hardwarebudgets, die früher bei 7B endeten, mit 128 Experten und nur 6 aktiven pro Token. GLM-4.6V-Flash bringt die Sicht-Sprach-Logik in ein 9B-Parameter-Paket, das auf einer Workstation oder Edge-Box anstelle eines Hyperscaler-GPU-Farms betrieben werden kann.

Agentische Stacks bauen auf diesem Substrat auf. Systeme wie Manis 1.6 oder Poetic orchestrieren mehrere Modelle, Werkzeuge und Abruf-Pipelines zu persistenten „AI-Super-Agenten“, die Kontext speichern, Aufgaben planen und über verschiedene Anwendungen hinweg agieren. Der Wertzuwachs entsteht weniger aus einem einzelnen IQ-Sprung in einem Basis-Modell, sondern vielmehr aus der Verbindung dieser Modelle mit Werkzeugen, Speicher und Autonomie.

Im Gegensatz zu den auffälligen Schlagzeilen über die „weltweit erste AGI“ bleiben die Behauptungen von Integral AI über eine weltweit erste AGI-AGI-fähige Technologie und ähnliche Ansprachen, wie die des hier profilierten Startups: Ex-Google-Veteranens Startup behauptet, das weltweit erste AGI-Modell entwickelt zu haben, weitgehend unbestätigte Erzählungen. Die Benchmark-Gewinne von GLM-4.6V, die Effizienzwerte von Neotron 3 und der Fokus von GPT-5.2 auf den GDP-Wert sind messbar.

Die Industrie ist weit entfernt von allgemeiner Intelligenz, die jede Aufgabe wie ein Mensch lernen kann. Sie steht jedoch sehr nah an etwas kommerziell Explosivem: gestapelten, automatisierten, multimodalen Systemen, die leise aus „eine KI nutzen“ „KI hat es einfach erledigt“ machen.

Ihr nächster Schritt in der neuen KI-Landschaft

Beginnen Sie damit, sich mit dem neuen Open-Source-Multimodal-Stack vertraut zu machen. Starten Sie GLM‑4.6V‑Flash (9B) lokal über Ollama oder vLLM und kombinieren Sie es mit einem offenen visuellen Encoder wie SigLIP oder CLIP, um Prototypen für Screenshot-Agenten, PDF-Reader und GUI-Bots zu erstellen, ohne dabei GPT‑5.2-Tokens für über 10 $ pro langem Video oder Dokument aufzubrauchen.

Entwickler sollten Eingaben rund um Dateien neu gestalten, nicht um Chatfenster. Erstellen Sie Abläufe, in denen Benutzer Folgendes hineinziehen können: - 200-Seiten-PDFs - Figma-Exporte - Excel-Screenshots - Kurze Videoclips

Lassen Sie das Modell dann Layout, Tabellen und Diagramme direkt verwalten, anstatt die Benutzer zu zwingen, Text zu kopieren und einzufügen.

Technologieführer müssen aufhören, in Begriffen von „ein Modell, ein Prompt“ zu denken, und anfangen, Modell-Orchestrierung zu denken. Für einen Produktionsworkflow sollten Sie ein kleines lokales Modell (Neotron 3 mit 30B Parametern) für kostengünstige Weiterleitung und Klassifizierung mit einem leistungsstärkeren Cloud-Modell für komplexe Schlussfolgerungen und spezialisierten Tools für Suche, RAG und Codeausführung kombinieren.

Wenn Sie ein Startup führen, besteht Ihre Wettbewerbsvorteil nicht mehr darin, dass „wir GPT‑5.2 verwenden“. Ihr Wettbewerbsvorteil ist das agentische Systemdesign: wie Ihr Stack Probleme in Schritte zerlegt, Werkzeuge auswählt, Modelle aufruft und sich von Misserfolgen erholt. Statten Sie jeden Agenten mit Protokollierung, Nachverfolgungen und Kosten pro Schritt aus, damit Sie verstehen können, warum ein Arbeitsablauf 0,03 $ oder 3 $ kostet.

Enthusiasten sollten absichtlich über das Prompt-Engineering hinaus üben. Klonen Sie ein Repository wie AutoGen, CrewAI oder einen offenen Poetic-Style-Agenten und tauschen Sie dann GLM-4.6V für Vision und eine lokale Neotron 3-Instanz für Text aus, um zu sehen, wie die Koordination von mehreren Agenten tatsächlich unter Last funktioniert.

Überdenken Sie jeden Workflow, der noch von ausschließlich textbasierten Eingaben ausgeht. Vertragsprüfung bedeutet annotierte PDFs, nicht eingefügte Klauseln. Kundenservice bedeutet Protokolle, Screenshots und Telefontranskripte. Analysen bedeuten CSVs, Dashboards und Diagrammbilder, die alle in ein multimodales Kontextfenster eingespeist werden.

Voraus zu sein bedeutet jetzt, dass Sie verstehen, wie man: - Das richtige offene Modell für Kosten und Latenz wählt - Agenten entwirft, die selbstständig Werkzeuge nutzen, browsen und planen - Richtlinien, Speicher und Feedbackschleifen anpasst

Prompt-Engineering wird zu einem kleinen Teil eines größeren Jobs: Systeme zu entwerfen, die beobachten, lesen, entscheiden und handeln können.

Häufig gestellte Fragen

Was ist ein 'AGI-fähiges' Modell?

Ein "AGI-fähiges" Modell ist ein Begriff, der verwendet wird, um KI-Systeme zu beschreiben, die neue Aufgaben autonom lernen können, ohne dass vorher vorhandene Datensätze erforderlich sind, insbesondere in der Robotik oder in agentischen Umgebungen. Es unterscheidet sich von wahrer AGI, die menschliches Niveau in allen kognitiven Aufgaben impliziert.

Wie verändert GLM-4.6V das AI-Prompting?

GLM-4.6V verändert die Aufforderungen, indem es über Text hinausgeht. Sein natives multimodales Tool-Handling ermöglicht es den Nutzern, Bilder, Dokumente und Screenshots direkt als Kontext bereitzustellen, wodurch die KI in der Lage ist, visuelle Informationen 'zu sehen' und darauf zu reagieren, ohne manuelle Textbeschreibungen.

Warum sind lokale LLMs wie NVIDIA's Neotron 3 wichtig?

Lokale LLMs sind wichtig für Datenschutz, Geschwindigkeit und Kostenkontrolle. Durch die Ausführung auf dem Gerät verhindern sie, dass sensible Daten in die Cloud gesendet werden, reduzieren die Latenz und beseitigen API-basierte Token-Kosten bei häufiger Nutzung.

Was ist die Bedeutung, dass Poetic die ARC-AGI-Benchmark übertroffen hat?

Der Erfolg von Poetic zeigt, dass Durchbrüche nicht nur von größeren Modellen abhängen, sondern von intelligenterer Architektur. Durch den Aufbau einer denkenden und selbstprüfenden Schicht über bestehenden LLMs erzielte es überlegene Leistungen zu weniger als der Hälfte der Kosten und bewies damit die Kraft der agentischen Struktur.

Häufig gestellte Fragen

Die bombastische Behauptung: AGI ist bereits da?
Weltweit erstes AGI-AGI-fähiges Modell. So hat Integral AI heute Morgen sein neues System vorgestellt und behauptet, es sei nicht nur ein weiteres großes Sprachmodell, sondern eine Architektur, die „autonom planen, lernen und handeln kann über Modalitäten hinweg“, ohne aufgabenspezifisches Fine-Tuning. Das Unternehmen gibt an, dass das Modell Text, Code, Bilder und Live-Tools in einem einzigen Loop verarbeitet und vermarktet es ausdrücklich als AGI-AGI-fähig, nicht nur als „fortschrittlich“.
Was ist ein 'AGI-fähiges' Modell?
Ein "AGI-fähiges" Modell ist ein Begriff, der verwendet wird, um KI-Systeme zu beschreiben, die neue Aufgaben autonom lernen können, ohne dass vorher vorhandene Datensätze erforderlich sind, insbesondere in der Robotik oder in agentischen Umgebungen. Es unterscheidet sich von wahrer AGI, die menschliches Niveau in allen kognitiven Aufgaben impliziert.
Wie verändert GLM-4.6V das AI-Prompting?
GLM-4.6V verändert die Aufforderungen, indem es über Text hinausgeht. Sein natives multimodales Tool-Handling ermöglicht es den Nutzern, Bilder, Dokumente und Screenshots direkt als Kontext bereitzustellen, wodurch die KI in der Lage ist, visuelle Informationen 'zu sehen' und darauf zu reagieren, ohne manuelle Textbeschreibungen.
Warum sind lokale LLMs wie NVIDIA's Neotron 3 wichtig?
Lokale LLMs sind wichtig für Datenschutz, Geschwindigkeit und Kostenkontrolle. Durch die Ausführung auf dem Gerät verhindern sie, dass sensible Daten in die Cloud gesendet werden, reduzieren die Latenz und beseitigen API-basierte Token-Kosten bei häufiger Nutzung.
Was ist die Bedeutung, dass Poetic die ARC-AGI-Benchmark übertroffen hat?
Der Erfolg von Poetic zeigt, dass Durchbrüche nicht nur von größeren Modellen abhängen, sondern von intelligenterer Architektur. Durch den Aufbau einer denkenden und selbstprüfenden Schicht über bestehenden LLMs erzielte es überlegene Leistungen zu weniger als der Hälfte der Kosten und bewies damit die Kraft der agentischen Struktur.
🚀Mehr entdecken

Bleiben Sie der KI voraus

Entdecken Sie die besten KI-Tools, Agenten und MCP-Server, kuratiert von Stork.AI.

Zurück zu allen Beiträgen