nanobot
Shares tags: ai
VisionClaw ist ein quelloffener Echtzeit-KI-Assistent für Smart Glasses und Telefone, der Sprache und Sehen nutzt, um Umgebungen zu verstehen und Aufgaben durch Integration mit Gemini Live und OpenClaw auszuführen.
<a href="https://www.stork.ai/en/visionclaw" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/visionclaw?style=dark" alt="visionclaw - Featured on Stork.ai" height="36" /></a>
[](https://www.stork.ai/en/visionclaw)
overview
visionclaw ist ein Echtzeit-Tool für multimodale KI-Assistenten, das von Xiaoan Sean Liu entwickelt wurde und es Entwicklern, Unternehmen, Kreativen und Einzelpersonen ermöglicht, die Umgebung des Benutzers wahrzunehmen und Aufgaben mittels Sprachbefehlen auszuführen. Es integriert Live-Video- und Audio-Streams von Smart Glasses oder Telefonkameras mit Googles Gemini Live API und OpenClaw für die agentische Aufgabenausführung. Das Projekt wurde Anfang 2026 als Open-Source veröffentlicht, und ein Forschungsartikel, der seine Architektur detailliert beschreibt, wurde im April 2026 auf arXiv publiziert. VisionClaw läuft auf dem Desktop, empfängt Befehle von Messaging-Kanälen und führt Aufgaben autonom aus, wobei es seine Always-on Wearable AI Agent-Funktionen für die reale Automatisierung nutzt.
quick facts
| Attribut | Wert |
|---|---|
| Entwickler | Xiaoan Sean Liu |
| Geschäftsmodell | Freemium |
| Preisgestaltung | Freemium |
| Plattformen | iOS (17.0+), Android, Meta Ray-Ban smart glasses, iPhone, Desktop |
| API Verfügbar | Nein |
| Integrationen | Google Gemini Live API (gemini-2.5-flash-native-audio-preview), OpenClaw |
| Gegründet | Anfang 2026 |
| Status Feed Typ | offiziell |
| Statusseiten-URL | https://status.cloud.google.com/ai-studio |
features
VisionClaw bietet eine Reihe von Funktionen, die für Echtzeit- und multimodale KI-Unterstützung entwickelt wurden und fortschrittliche Wahrnehmung mit agentischer Aufgabenausführung integrieren. Seine Kernfunktionalität dreht sich darum, die Umgebung des Benutzers durch Live-Audio- und Video-Streams zu verstehen und auf Sprachbefehle zu reagieren.
use cases
VisionClaw wurde für eine vielfältige Benutzergruppe entwickelt, von einzelnen Verbrauchern bis hin zu Unternehmen und Entwicklern, die Echtzeit-, kontextbewusste KI-Unterstützung für die freihändige Aufgabenausführung und Informationsbeschaffung in physischen Umgebungen benötigen. Seine Fähigkeiten erstrecken sich über verschiedene berufliche und persönliche Bereiche.
pricing
VisionClaw basiert auf einem Freemium-Modell. Das Kernprojekt ist Open-Source, sodass Benutzer den KI-Assistenten ohne direkte Lizenzkosten bereitstellen und anpassen können. Dieses Modell impliziert typischerweise, dass grundlegende Funktionalitäten kostenlos verfügbar sind, wobei Benutzer oft ihre eigene Infrastruktur verwalten müssen (z. B. API-Schlüssel für Gemini Live). Spezifische Details zu kostenpflichtigen Stufen oder Premium-Funktionen sind in den verfügbaren Informationen nicht explizit aufgeführt, aber ein Freemium-Modell deutet auf das Potenzial hin, dass erweiterte Funktionen, verwaltete Dienste oder Support auf Unternehmensebene in Zukunft kostenpflichtig angeboten werden könnten.
competitors
VisionClaw positioniert sich in der aufkommenden Landschaft der verkörperten KI und unterscheidet sich von traditionellen KI-Assistenten und dedizierten KI-Geräten durch die Nutzung bestehender Hardware und einen quelloffenen, multimodalen Ansatz. Es zielt darauf ab, ein integrierteres und kontextbewussteres Erlebnis zu bieten als viele Alternativen.
visionclaw ist ein Echtzeit-Tool für multimodale KI-Assistenten, das von Xiaoan Sean Liu entwickelt wurde und es Entwicklern, Unternehmen, Kreativen und Einzelpersonen ermöglicht, die Umgebung des Benutzers wahrzunehmen und Aufgaben mittels Sprachbefehlen auszuführen. Es integriert Live-Video- und Audio-Streams von Smart Glasses oder Telefonkameras mit Googles Gemini Live API und OpenClaw für die agentische Aufgabenausführung.
Ja, VisionClaw basiert auf einem Freemium-Modell. Das Kernprojekt ist Open-Source, sodass Benutzer den KI-Assistenten ohne direkte Lizenzkosten bereitstellen und anpassen können. Während grundlegende Funktionalitäten kostenlos verfügbar sind, sind spezifische Details zu potenziellen kostenpflichtigen Stufen für erweiterte Funktionen oder verwaltete Dienste nicht explizit aufgeführt.
Zu den Hauptmerkmalen von VisionClaw gehören die Fähigkeit, auf dem Desktop zu laufen, Befehle von Messaging-Kanälen zu empfangen und Aufgaben autonom auszuführen. Es fungiert als Always-on Wearable AI Agent, der Live-Wahrnehmung (Sprache und Sehen) mit agentischer Aufgabenausführung integriert. Als Open-Source-Projekt nutzt es Googles Gemini Live API für multimodales Verständnis und OpenClaw für die Aufgabenausführung.
VisionClaw eignet sich für Entwickler, Unternehmen, Kreative und verschiedene Einzelpersonen. Dazu gehören sehbehinderte Benutzer für Echtzeit-Szenenbeschreibungen, Fachleute wie Immobilienmakler und Mechaniker für Unterstützung unterwegs sowie Unternehmen für Prozessautomatisierung wie Bestandsprüfungen und Qualitätskontrollen. Sein Open-Source-Charakter spricht auch Entwickler an, die daran interessiert sind, die Fähigkeiten von KI-Agenten zu erweitern.
VisionClaw unterscheidet sich dadurch, dass es ein quelloffener, multimodaler Echtzeit-KI-Assistent ist, der bestehende Hardware wie Meta Ray-Ban Brillen und iPhones nutzt und sich mit leistungsstarken KI-Modellen wie Gemini Live und Agenten-Frameworks wie OpenClaw integriert. Im Gegensatz zu dedizierten KI-Geräten wie dem Humane AI Pin oder Rabbit R1 vermeidet es die Notwendigkeit neuer Hardware. Es bietet breitere agentische Aktionen als Metas native KI und liefert visuellen Kontext, den traditionelle KI-Assistenten wie Braina oder Microsoft Copilot vermissen lassen.