So führen Sie Reinforcement Learning (RLVR) lokal auf NVIDIA-GPUs aus

💡

Zusammenfassung / Kernpunkte

Die KI-Technologie hinter AlphaGo ist nicht länger nur für massive Rechenzentren geeignet. Dieses Tutorial zeigt Ihnen, wie Sie Ihren NVIDIA Gaming-PC nutzen können, um ein leistungsstarkes KI-Modell von Grund auf zu trainieren.

Die KI-Revolution hat gerade dein Gaming-Rig erreicht.

Übermenschliche Spiel-KI lebte einst in Forschungsberichten und fensterlosen Rechenzentren. AlphaGo, OpenAI Five, DeepMinds StarCraft II Bots – Systeme wie diese benötigten Tausende von GPUs und Forschungsbudgets, die aussahen wie kleine Börsengänge. Jetzt kann dasselbe Reinforcement Learning-Spielbuch, das Go-Großmeister besiegte, auf einem einzigen RTX-betriebenen Gaming-PC unter deinem Schreibtisch laufen.

Seit Jahren erforderte das Trainieren von Agenten, um Spiele zu meistern oder Autos zu fahren, Cluster, die Millionen von Dollar kosteten. Man benötigte Racks mit Beschleunigern, maßgeschneiderte Netzwerke und ein Team von Doktoranden, die fragile Pipelines überwachten. Heute kann ein RTX AI-PC mit einer Konsumenten-NVIDIA-GPU lokal durch dieselbe Kategorie von Algorithmen arbeiten, wobei Skalierung gegen Zugänglichkeit eingetauscht wird und experimentelles Arbeiten im Frontier-Stil für Einzelentwickler erreichbar wird.

Dieser Wandel wird in diesem hands-on Leitfaden untersucht. Mit NVIDIA als Sponsor des Builds verwenden wir einen RTX AI PC als Testumgebung für lokales verstärkendes Lernen, wobei wir das Tutorial zum verstärkenden Lernen aus Matthew Bermans "Reinforcement Learning Tutorial - RLVR with NVIDIA & Unsloth" befolgen. Das Ziel ist keine Spielzeug-Demo, die nur vorgegebene Bewegungen abspielt, sondern ein echtes Lernsystem, das sich durch Versuch und Irrtum verbessert.

Das Rezept baut auf RLVR – Reinforcement Learning mit verifizierbaren Belohnungen – auf, das auf dem hochoptimierten Trainings-Stack von Unsloth läuft. Anstatt dass ein Mensch die Ausgaben des Modells mit „gut“ oder „schlecht“ bewertet, bewertet eine Belohnungsfunktion automatisch jeden Schritt und entzieht den Menschen den Prozess. Das gleiche Muster bildet die Grundlage dafür, wie Grenzlabore Modelle bei verifizierbaren Aufgaben wie Mathematik, Programmierung und Spielen absichern.

Um das konkret zu machen, werden wir eine KI trainieren, um das Puzzle-Spiel 2048 von Grund auf zu meistern. Der Agent beginnt als ein grundlegendes GPT-OSS-Modell, das die Regeln, das Ziel oder irgendwelche Strategien nicht kennt. Durch tausende von Selbstspiel-Interaktionen lenkt eine Belohnungsfunktion ihn zu besseren Kachelfusionen, höheren Punktzahlen und schließlich zu konsistenten Siegen.

Sie werden sehen, wie man dies von Anfang bis Ende auf einem Gaming-PC einrichtet: NVIDIA-App, CUDA Toolkit, WSL, Unsloth und das 2048-Notebook, alles lokal ausgeführt. Am Ende wird Ihr PC nicht nur Spiele spielen; er wird eine KI trainieren, um sie zu schlagen.

Jenseits menschlichen Feedbacks: Die Kraft von RLVR

Verstärkendes Lernen klingt fancy, aber die Grundidee ist vertraut: Ein Agent experimentiert in einer Umgebung, erhält Belohnungen oder Bestrafungen und lernt langsam, was funktioniert. Stellen Sie sich einen Hund vor, der Tricks lernt, nur dass der „Hund“ ein neuronales Netzwerk ist und die „Tricks“ Züge in einem Spiel, Codezeilen oder Schritte in einem Mathematikbeweis sind. Jede Handlung aktualisiert die interne Richtlinie des Modells, sodass es beim nächsten Mal öfter auf hochbelohnte Aktionen zurückgreift.

Traditionelles Reinforcement Learning benötigte riesige Cluster, um Millionen von Schach-, Go- oder StarCraft-Spielen zu spielen. Jetzt bringen RTX-Klasse GPUs diesen Vorgang auf einen Gaming-PC, und ein neuer Ansatz namens Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) macht den gesamten Prozess deutlich skalierbarer. Anstatt dass Menschen das Verhalten bewerten, vergibt ein programmatischer „Verifizierer“ automatisch Belohnungen.

RLVR ersetzt einen Menschen im Prozess durch eine strenge, maschinell überprüfbare Regel. Sie definieren eine Belohnungsfunktion, die besagt: „Gegeben den Zustand der Umgebung und die Handlung des Modells, berechne einen numerischen Wert.“ Keine Gefühle, keine Meinungen – nur Mathematik. Wenn das Ergebnis dem entspricht, was die Regeln als korrekt betrachten, erhält das Modell Punkte; andernfalls verliert es welche.

Die 2048-Demo aus Matthew Bermans Tutorial zur Verstärkenden Lernen verwendet diese Idee in ihrer reinsten Form. Die Umgebung ist das 4x4-Raster; die Aktionen sind Wischbewegungen nach oben, unten, links und rechts. Der Verifier ist buchstäblich der Code des Spiels, der Folgendes kann:

1Illegale Züge ablehnen
2Füge eine Belohnung hinzu, wenn Kacheln zusammengeführt werden und die Punktzahl steigt.
3Bestrafen Sie Züge, die das Spiel verzögern oder vorzeitig beenden.

Da die Spiel-Engine bereits den Punktestand kennt und ob du verloren hast, kann sie als objektiver Richter für jeden Zug fungieren. Beginne mit GPT‑OSS, einem Modell, das die 2048-Strategie nie „gesehen“ hat, und nachdem es genügend RLVR-Updates erhalten hat, beginnt es, Züge aneinanderzureihen, die konstant höhere Wertsteine erzeugen und das Füllen des Boards vermeiden. Kein Mensch kennzeichnet einen „guten“ oder „schlechten“ Zug.

Das steht im scharfen Kontrast zu Reinforcement Learning from Human Feedback (RLHF), bei dem Menschen die Ausgaben von Modellen vergleichen und ein Belohnungsmodell trainieren, um ihre Präferenzen zu imitieren. RLHF funktioniert für nebulöse Ziele – Höflichkeit, Hilfsbereitschaft, Tonfall – hat jedoch erhebliche Skalierungsprobleme und führt zu Verzerrungen. RLVR gedeiht immer dann, wenn Aufgaben überprüfbare Ergebnisse haben: mathematische Benchmarks wie GSM8K, Code, der entweder kompiliert und Tests besteht oder nicht, sowie Spiele wie 2048, Schach und Go. Für diese Aufgaben verwandeln automatisierte Verifier und Tools wie Unsloth und RTX-GPUs Ihren Gaming-PC in ein Trainingslabor im Grenzgebiet.

Dein Home-Labor: Bereitmachen für lokales RL

Frontier RL auf einem Gaming-PC beginnt mit einer kurzen Hardware- und Software-Checkliste, nicht mit einem Forschungslabor. Sie benötigen eine NVIDIA RTX GPU, die neueste NVIDIA App für Treiber, das CUDA Toolkit und das Windows-Subsystem für Linux (WSL), das Ubuntu ausführt. Diese Ausstattung spiegelt wider, was Matthew Berman in seinem Reinforcement Learning Tutorial verwendet, um GPT-OSS im Spiel 2048 zu trainieren.

Sie benötigen keine RTX 5090 Monsterkarte. Jede aktuelle RTX-Grafikkarte mit Tensor Cores funktioniert: RTX 3060, 3070, 4070 oder eine Laptop-RTX 40-Serie wird RLVR ausführen; das Training skaliert einfach mit Kernen, VRAM und Leistung. Erwarten Sie langsamere Iterationen bei Midrange-Karten, aber den genau gleichen Codepfad und die gleichen Ergebnisse.

Betrachten Sie die RTX-GPU als das Arbeitstier für RL. Sie bearbeitet Matrixmultiplikationen für Policy-Updates und Umwelt-Rollouts und verwandelt Millionen von 2048 Zügen in Gradienten. Mehr VRAM ermöglicht es Ihnen, Batch-Größen, Kontextfenster oder Modellgrößen zu erhöhen, ohne dass es zu Speicherüberlauffehlern kommt.

CUDA sitzt eine Ebene über dem Silizium. Das CUDA Toolkit bietet die parallelisierte Laufzeit und Bibliotheken (cuBLAS, cuDNN), auf die Frameworks wie PyTorch und Unsloth angewiesen sind. Ohne CUDA fällt deine "GPU-beschleunigte" RL-Sitzung heimlich auf die CPU zurück und kriecht vor sich hin.

WSL vervollständigt das Bild, indem es Windows-Nutzern eine echte Linux-Umgebung ohne Dualboot bietet. Sie installieren Ubuntu über WSL, um dann Python, Jupyter, Unsloth und das GPT-OSS RLVR-Notebook genau so auszuführen, wie es in den Unsloth-Dokumentationen beschrieben wird. Kommandozeilen-Tools wie `nvidia-smi` bestätigen, dass WSL Ihre RTX-GPU erkennen kann.

Hier ist die minimale Einrichtungsliste mit offiziellen Links, die den Ressourcen des Videos entsprechen: - NVIDIA App: https://www.nvidia.com/en-eu/software/nvidia-app/ - CUDA Toolkit: https://developer.nvidia.com/cuda-downloads - WSL + Ubuntu-Anleitungen (über Unsloth Docs): https://docs.unsloth.ai/get-started/install-and-update/windows-installation - Unsloth: https://unsloth.ai/ - Unsloth Docs RLVR-Tutorial: https://docs.unsloth.ai/new/gpt-oss-reinforcement-learning/tutorial-how-to-train-gpt-oss-with-rl Für tiefere Theorien zu Richtlinien, Belohnungen und GRPO verbindet Unsloths Reinforcement Learning (RL) Guide | Unsloth-Dokumentation die Hardware, die Sie gerade eingerichtet haben, mit den Algorithmen, die Sie ausführen werden.

Die WSL-Brücke: Warum Linux auf Windows Ihre beste Wahl ist

WSL fungiert als Brücke zwischen Ihrem Windows-Gaming-PC und dem Linux-ersten KI-Ökosystem, das Tools wie Unsloth erwarten. Nach der Überprüfung mehrerer Ansätze – nativem Windows Python, vollständigem Dual-Boot, Docker auf Windows – hat sich WSL aufgrund seiner Stabilität, GPU-Unterstützung und der Schonung Ihres bestehenden Setups als überlegen erwiesen. Sie behalten Ihren gewohnten Windows-Arbeitsablauf bei und gewinnen gleichzeitig eine nahezu native Linux-Umgebung für RLVR-Experimente.

Die Installation reduziert sich auf einen einzigen Befehl in PowerShell oder Windows Terminal, ausgeführt als Administrator: `wsl.exe --install ubuntu-24.04`. Windows lädt den Linux-Kernel herunter, richtet Ubuntu 24.04 ein und fordert Sie beim ersten Start auf, einen Unix-Benutzernamen und ein Passwort zu erstellen.

Sobald Ubuntu innerhalb von WSL gestartet ist, möchten Sie zwei Dinge bestätigen: Linux läuft tatsächlich und es kann Ihre RTX-GPU erkennen. Geben Sie im Ubuntu-Terminal ein: `nvidia-smi` Wenn alles geklappt hat, sehen Sie eine Tabelle, die Ihre NVIDIA GPU (z.B. „GeForce RTX 5090“), die Treiberversion und die CUDA-Version anzeigt, anstatt eines Fehlers.

Du kannst auch überprüfen, ob du im WSL bist, indem du `wsl.exe --status` in einem Windows-Terminal ausführst oder indem du prüfst, ob deine Linux-Eingabeaufforderung einen typischen Pfad wie `/home/benutzername` anzeigt, anstatt `C:\Users\...`. Wenn `nvidia-smi` fehlschlägt, behebe die Treiber und CUDA unter Windows, bevor du an irgendeinem RL-Code arbeitest.

Für jeden, der noch nie mit Linux in Berührung kam, ist WSL kein beängstigendes „zweites Betriebssystem“. Es verhält sich eher wie ein sicheres, sandboxed Entwicklungs-Container, der neben Ihren Windows-Anwendungen lebt. Sie können VS Code, Ihren Browser und Ihren Spielelauncher in Windows öffnen, während Ihre RL-Trainingsjobs in Ubuntu laufen.

Dieses containerisierte Modell reduziert auch das Risiko. Sie können Python-Umgebungen, CUDA-kompatible Bibliotheken und experimentelle RLVR-Stacks installieren, zurücksetzen und löschen, ohne Ihre Hauptinstallation von Windows zu verunreinigen. Wenn Unsloth Docs, das Reinforcement Learning Tutorial oder zukünftige Werkzeugketten „Linux + CUDA“ voraussetzen, erfüllt WSL stillschweigend dieses Kriterium auf Ihrem bestehenden RTX-PC.

Entfessle Unsloth: Das Geheimnis für blitzschnelles Training

Unsloth steht im Zentrum dieses gesamten lokalen RLVR-Stacks. Die Open-Source-Bibliothek hat fast 50.000 GitHub-Sterne gesammelt, nicht wegen des Hypes, sondern weil sie das Training großer Sprachmodelle auf Consumer-GPUs tatsächlich praktikabel statt masochistisch macht.

Traditionelles Feintuning stößt oft schnell an die Grenzen deines VRAM. Unsloth umgeht das, indem es den Speicherverbrauch um mehr als 60 % reduziert und mehr nützliche Arbeit aus jedem CUDA-Kern herausholt, was in deutlich schnelleren Trainingsdurchläufen auf derselben RTX-Karte resultiert.

Der Trick: Unsloth setzt stark auf LoRA (Low-Rank Adaptation) und maßgeschneiderte CUDA-Kernels. LoRA hält die meisten Gewichtungen eines Modells eingefroren und lernt nur eine kleine Menge an Low-Rank-Adaptern, sodass Sie 7B–20B-Parameter-Modelle auf einer einzelnen Gaming-GPU feinabstimmen können, ohne dass Ihr System überlastet oder abstürzt.

Optimierte Kerne bearbeiten die schweren Tensorberechnungen viel effizienter als die Standard-PyTorch-Operationen. Das bedeutet eine bessere GPU-Auslastung, weniger Speicherkopien und weniger Overhead pro Schritt – genau das, was Sie möchten, wenn Sie tausende von RLVR-Rollouts in einem Jupyter-Notebook auf Ihrem Desktop ausführen.

Die Installation in Ihrer WSL-Umgebung bleibt erfrischend langweilig. Sobald Ihr Python-Virtualenv aktiv ist und PyTorch mit CUDA-Unterstützung installiert ist, führen Sie einfach einen Befehl aus: `pip install unsloth` und WSL lädt die neueste Version von PyPI herunter, ohne dass benutzerdefinierte Wheels oder obskure Flags erforderlich sind.

Weil Sie sich im WSL befinden, kommuniziert Unsloth direkt mit den NVIDIA-Treibern und dem CUDA Toolkit, die Sie zuvor eingerichtet haben. Sie erhalten vollen Zugriff auf Ihre RTX-GPU von den Linux-Tools, während Sie weiterhin auf einem Windows-Desktop arbeiten, was genau der hybride Workflow ist, den die meisten Heimlabore wünschen.

Unsloth wird auch mit modernsten RL-Algorithmen geliefert, einschließlich GRPO (Group Relative Policy Optimization). GRPO wahrt den Geist von PPO, verzichtet jedoch auf überflüssigen Ballast: Es vermeidet separate Bewertungs- und Wertmodelle, was den Speicherbedarf reduziert und den Trainingsablauf vereinfacht.

Dieses Design macht GRPO deutlich effizienter als traditionelle PPO-Ansätze, insbesondere bei RLVR-Rezepten, bei denen eine Verifizierungsfunktion die Ausgaben direkt bewertet. Für einen 2048-Agenten oder einen Mathe-/Code-Tutor bedeutet das mehr Rollouts pro Sekunde, mehr Gradienten-Schritte pro Stunde und schnellere Verbesserungs-Kurven auf exakt derselben Hardware.

Die Bühne bereiten: Ihr erstes RL-Training absolvieren

Frische WSL-Installation bereit, Ihr nächster Schritt ist es, eine saubere Python-Sandbox einzurichten, damit RL-Experimente nicht mit dem Rest Ihres Systems kollidieren. Aktualisieren Sie die Pakete von Ubuntu, und installieren Sie dann Python und die Unterstützung für venv: `sudo apt update` gefolgt von `sudo apt install python3 python3-full python3-pip python3-venv -y`. Mit diesem Stack erhalten Sie die Werkzeuge, um Abhängigkeiten zu isolieren und CUDA-freundliche Builds von PyTorch unter Kontrolle zu halten.

Erstellen Sie eine dedizierte virtuelle Umgebung für RLVR-Arbeiten. Führen Sie von Ihrem Home-Verzeichnis aus `python3 -m venv unslothrl` aus und aktivieren Sie sie mit `source unslothrl/bin/activate`. Ihre Eingabeaufforderung sollte nun `(unslothrl)` anzeigen, was signalisiert, dass alle `pip install` in diese isolierte Umgebung erfolgen.

Mit der aktiven venv installieren Sie eine GPU-fähige PyTorch-Version mit CUDA-Unterstützung. Folgen Sie dazu dem Radindex von NVIDIA oder den Anweisungen von Unsloth, beispielsweise: `pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121`. Überprüfen Sie nach Abschluss mit `python -c "import torch; print(torch.cuda.is_available())"` und erwarten Sie `True` auf einer richtig konfigurierten RTX-Karte.

Als Nächstes holen Sie sich die Werkzeuge, die dieses Erlebnis wie ein modernes ML-Labor erscheinen lassen. Installieren Sie Jupyter Notebook und Unsloth in einem Schritt: `pip install jupyter unsloth`. Diese Kombination bietet Ihnen die RL-Trainingsprimitive sowie ein browserbasiertes Kontrollpanel, um jeden Schritt des Gehirns des 2048-Agenten zu erkunden.

Sie benötigen jetzt das tatsächliche 2048 RL-Rezept. Gehen Sie zu dem OpenAI GPT-OSS-Notizbuchlink, der von Unsloth verwendet wird: das Reinforcement Learning-Tutorial verweist auf `reinforcement-fine-tuning.ipynb`, das auf Colab gehostet ist. Öffnen Sie es in Ihrem Browser, klicken Sie auf Datei → Herunterladen und speichern Sie die `.ipynb`-Datei in einem Ordner, den Ihre WSL-Instanz sehen kann, wie Ihr Linux-Home-Verzeichnis oder einen gemounteten Windows-Downloads-Pfad.

Gehen Sie im WSL-Terminal zum Verzeichnis, das das Notizbuch enthält, und starten Sie Jupyter mit `jupyter notebook`. Der Server gibt eine `http://localhost:8888/?token=...` URL aus; kopieren Sie diese in Ihren Windows-Browser, und der Datei-Browser von Jupyter wird angezeigt. Klicken Sie auf die heruntergeladene `.ipynb`, um die gesamte RLVR 2048-Pipeline zu öffnen.

Notebooks verändern, wie sich das Experimentieren mit Reinforcement Learning anfühlt. Sie führen den Trainingsstapel Zelle für Zelle aus, passen Hyperparameter an, beheben einen fehlerhaften Import oder starten einfach einen einzelnen Schritt neu, ohne einen mehrstündigen Job zu zerschlagen. Dies ist derselbe iterative Prozess, den NVIDIA für größere LLM-Arbeiten in Leitfäden wie Train an LLM on NVIDIA Blackwell with Unsloth—and Scale for Production präsentiert, nur auf Ihren Gaming-PC und ein täuschend einfaches Fliesen-Spiel verkleinert.

Im Inneren des Notizbuchs: Vom leeren Blatt zum Spielleiter

Leere Jupyter-Zelle, blinkender Cursor, RTX-Lüfter im Leerlauf. Sie beginnen damit, Unsloth zu importieren, es in PyTorch zu integrieren und auf OpenAIs Open-Source-GPT-OSS-Checkpoint zu verweisen. Eine Zeile lädt das 20B-Parameter-Modell; eine andere verbindet den GRPO-gestützten RLVR-Trainer von Unsloth, der schließlich dieses generische Textmodell in einen 2048-Spezialisten verwandeln wird.

Als Nächstes zeigt das Notebook leise einen ganz typischen 2025-Trick: Die gesamte 2048-Spielengine, die Sie gleich verwenden werden, wurde von einer KI geschrieben. Die Python-Implementierung des Grids, der Verschmelzung der Kacheln und der Punktelogik stammt von GPT-4, entnommen aus dem offiziellen GPT-OSS 2048-Beispiel. KI-generierte Werkzeuge werden zur Experimentierumgebung, in der eine andere KI lernt, zu spielen.

Bevor Sie mit dem Training beginnen, stellen Sie sicher, dass die Sandbox funktioniert. Zuerst definieren Sie eine schlanke `Game2048`-Klasse und instanziieren dann ein Spielfeld, das als 4×4-Matrix von Ganzzahlen ausgegeben wird. Sie können die Züge direkt im Notebook durchgehen, indem Sie Hilfsfunktionen aufrufen, um die Kacheln nach oben, unten, links oder rechts zu schieben und zu beobachten, wie sich das Spielfeld nach jeder Aktion aktualisiert.

Manuelles Spielen ist nicht nur zum Spaß; es überprüft die Umgebung auf ihre Richtigkeit. Sie stellen sicher, dass: - Ungültige Züge das Blatt unverändert lassen - Gültige Züge gleichwertige Kacheln korrekt zusammenführen - Der Punktestand und das „Spiel beendet“-Flag wie erwartet aktualisiert werden

Sobald die Regeln solide aussehen, wechselt das Notizbuch von Mensch zu Modell. Eine Eingabevorlage beschreibt den Spielzustand als ein 4×4 Array plus den aktuellen Punktestand und fordert GPT-OSS auf, eine Python-Funktion auszugeben, die seine Bewegungsstrategie kodiert. Anstatt mit "OBEN" oder "LINKS" zu antworten, muss das Modell Code generieren, der eine der gültigen Aktionen zurückgibt.

Prompt-Engineering übernimmt hier die Hauptarbeit. Die Vorlage: - Legt den Funktionsnamen und die Signatur fest - Auflistung der erlaubten Bewegungen (`"oben"`, `"unten"`, `"links"`, `"rechts"`) - Fordert syntaktisch gültiges Python ohne externe Imports an

Diese Einschränkung verwandelt ein LLM in einen programmierend synthetisierenden Agenten. Jede Antwort wird zu einer ausführbaren Strategie, die der RLVR-Loop in der 2048-Umgebung ausführen, automatisch bewerten und in Unsloths Trainingspipeline zurückspeisen kann.

Die Belohnungsmaschine: Wie die KI tatsächlich lernt

Belohnungsfunktionen fungieren als der geheime Vertrag zwischen Ihrem RTX-gesteuerten Agenten und dem 2048-Spielbrett. In RLVR vergeben Sie keine goldenen Sterne manuell; Sie kodieren sie in Python. Diese kleinen Funktionen, die im Notizbuch verborgen sind, bestimmen, wie „gut“ in jedem einzelnen Zug aussieht.

Im Zentrum dieser Einrichtung stehen drei Verifizierer: `function_works`, `no_cheating` und `strategy_succeeds`. Jeder von ihnen prüft die vom Modell vorgeschlagene Zugfolge und gibt eine klare, maschinenlesbare Bewertung zurück. Gemeinsam bilden sie ein Miniaturgericht, das jeden Versuch Ihres GPT-OSS-Agenten bewertet.

`function_works` spielt den Türsteher. Es überprüft, ob die Antwort des Modells als gültiger Code oder als gültige Bewegungsbeschreibung interpretiert werden kann, ob die Argumente übereinstimmen und ob die Spiele-Engine das tatsächlich ausführen kann, ohne eine Ausnahme auszulösen. Wenn der Code abstürzt oder Unsinn produziert, sinkt die Belohnung, und die Strategie weicht in der nächsten Aktualisierung leise von diesem Verhalten ab.

`no_cheating` behandelt die dunklen Künste: Belohnungsmanipulation und Regelinterpretation. Große Sprachmodelle sind darauf spezialisiert, unscharfe Anweisungen auszunutzen, daher scannt dieser Verifier nach Zügen, die die Mechanik von 2048 brechen, den Spielstand manipulieren oder die erlaubte API umgehen. Wenn das Modell versucht, direkt das Raster zu bearbeiten oder Züge zu überspringen, wird es von `no_cheating` mit einer starken negativen Belohnung bestraft.

`strategy_succeeds` konzentriert sich auf den tatsächlichen Fortschritt im Spiel. Es führt die vorgeschlagenen Züge in der 2048-Umgebung aus und überprüft konkrete Signale: Punktesteigerung, Zusammenführungen von Kacheln und ob das Spielfeld überlebt, anstatt festzufahren. Erfolgreiche Strategien erhalten positive Punkte; stagnierende oder verlierende Züge werden bestraft, was das Modell in Richtung höherpunktierender und längerer Spielverläufe drängt.

Gemeinsam schaffen diese Verifier eine automatisierte Rückkopplungsschleife. Jeder Trainingsschritt folgt demselben Rhythmus: Das Modell schlägt eine Strategie vor, die Verifier setzen sie um und bewerten sie, und RLVR nutzt diese skalare Belohnung, um die Parameter des Modells anzupassen. Über Hunderte oder Tausende von Iterationen verschiebt sich die Strategie von zufälligen Versuchen zu etwas, das beginnt, wie ein von Menschen erstellter 2048-Leitfaden auszusehen.

Reward-Hacking schwebt immer im Hintergrund des RL. Robuste Verifier wie diese – explizite Code-Überprüfungen, Betrugsabwehr und ergebnisbasiertes Scoring – zwingen den Agenten dazu, die tatsächliche Aufgabe zu erlernen, anstatt deine Metriken auszutricksen. So hält RLVR dein selbstentwickeltes Grenzmodell ehrlich, während es sich seinen Weg zur Meisterschaft bahnt.

Von Misserfolg zu Flüssigkeit: Den Training-Zyklus starten

Der Start des Trainings reduziert sich auf eine einzige Zeile in deinem Notizbuch: `trainer.train()`. Dieser Aufruf übergibt die Kontrolle an die RL-Engine von Unsloth, die beginnt, deine Eingaben zu bearbeiten, Generationen zu erzeugen und diese durch die verifizierbare Belohnungspipeline zu schicken, die du zuvor konfiguriert hast.

Sobald die Schleife beginnt, schlägt das GPT-OSS-Modell wiederholt Strategien für das 2048-Brett vor. Die Umgebung führt diese Züge aus, die Prüfer werteten sie aus, und RLVR wandelt diese Bewertungen in Gradienten um, die die Gewichte des Modells anpassen. Jeder Schritt verdrahtet das Netzwerk leicht um und neigt es zu Aktionssequenzen, die höhere Belohnungen hervorgebracht haben.

Unter der Haube ähnelt das stark einem Spiel aus Millionen von kleinen Einsätzen. Für jedes Eingangszeichen wählt das Modell eine Bewegungsfolge aus, die Umgebung gibt eine numerische Belohnung zurück, und der Optimierer aktualisiert die Parameter, sodass nächstes Mal wahrscheinlicher höhere Belohnungen erreicht werden. Über Hunderte oder Tausende von Schritten verwandelt dieser Versuch-und-Irrtum-Prozess willkürliches Herumhampeln in eine erkennbare Strategie.

Einer der lehrreichsten Momente in Matthew Bermans Tutorial zu Reinforcement Learning tritt auf, als das Modell unvollständigen Code für die Spiel-Logik generiert. Der Prüfer schlägt sofort fehl: kein Kompilieren, keine Belohnung. Dieses harte „0“ ist kein toter Punkt; es ist genau das negative Signal, das der Optimierer benötigt, um das Modell von halbfertigen Code-Pfaden wegzuführen.

Fehler werden zu Trainingsdaten. Wenn unvollständige oder logische fehlerhafte Fragmente wiederholt schlecht abschneiden, unterdrücken Gradient-Updates diese Muster und verstärken vollständige, überprüfbare Lösungen. Man sieht regelrecht, wie RLVR „läuft kaum“ in „besteht jede Prüfung“ verwandelt, indem es Fehler strategisch nutzt.

Während all dies passiert, kann Ihr Bildschirm trügerisch ruhig aussehen. Die Notebook-Zelle, die `trainer.train()` ausführt, kann für längere Zeit auf „In [*]“ stehen bleiben, insbesondere bei einer Mittelklasse RTX-Karte. Das bedeutet normalerweise, dass Ihre GPU ausgelastet ist, nicht, dass etwas abgestürzt ist.

Um den Fortschritt zu bestätigen, behalten Sie Folgendes im Auge: - Terminalprotokolle, die Trainingsschritte, Belohnungen und Verlustwerte ausgeben - `nvidia-smi`, das eine GPU-Auslastung von nahe 90–100% zeigt - VRAM-Nutzung, die sich entsprechend Ihrer Modell- und Batchgröße erhöht

Für tiefere Einblicke in die internen Abläufe beschreibt das Repository unslothai/unsloth - GitHub, wie der Trainer Eingaben in Batches verarbeitet, GRPO-ähnliche Updates anwendet und Schnittstellen bereitstellt, falls Sie die Schleife weiter anpassen möchten.

Die Zukunft ist lokal: Was Sie als Nächstes aufbauen können

Du hast gerade einen Stunt hingelegt, der vor ein paar Jahren in ein DeepMind-Papier gehört hätte: Du hast einen Frontier-Style-RL-Agenten auf einer Consumer-GPU, unter Windows, mit WSL, NVIDIA’s CUDA-Stack und Unsloth trainiert. Kein verwalteter Kubernetes-Cluster, keine mysteriöse Cloud-Rechnung—nur ein Gaming-PC, der ein GPT-OSS-Modell lehrt, ein Puzzlespiel durch reines Ausprobieren zu schlagen.

2048 ist die Demo, nicht das Ziel. Das exakt gleiche RLVR-Rezept – Policy-Modell, verifizierbare Umgebung, automatisierte Belohnung – treibt bereits offene Modelle bei mathematischen Benchmarks wie GSM8K voran, wo die Antwort objektiv richtig oder falsch ist, und bei der Code-Generierung, wo eine Unit-Test-Suite zu Ihrer Belohnungsfunktion wird. Wenn ein Programm kompiliert, Tests besteht und innerhalb der Zeitlimits läuft, erhält es Punkte; wenn es fehlschlägt, fließt der Gradient in die andere Richtung.

Dieser Wandel ist wichtig, da verifizierbare Bereiche überall vorhanden sind. Sie können einen Mathematikwettbewerb, ein LeetCode-Archiv oder die privaten Integrationstests eines Unternehmens in ein Trainingsfeld verwandeln. Anstatt Präferenzen zu kennzeichnen, definieren Sie Regeln: - Für Mathematik: exakte numerische oder symbolische Gleichheit - Für Code: bestandene Tests, Laufzeit, Speicherverbrauch - Für Spiele/Sims: Punktzahl, Überlebenszeit, Gewinnrate

Hardwarebarrieren sinken ebenfalls. Unsloth hat kürzlich die FP8-Unterstützung für sein GRPO-ähnliches Training hinzugefügt, wodurch Modelle in weniger VRAM untergebracht werden und mehr Token pro Sekunde auf Mid-Range RTX-Karten verarbeitet werden. Man opfert ein wenig numerische Präzision für ein viel höheres Durchsatzvolumen, was tiefere Trainingsläufe auf GPUs bedeutet, die zuvor nur für „Inference“ genutzt wurden.

Von hier aus wird das Experimentieren zur Hauptbeschränkung. Sie können das 2048-Notebook klonen, GSM8K einfügen, einen lokalen Richter einrichten und beobachten, wie ein Modell seine eigene private Rangliste erklimmt. Lokales, verifiziertes Reinforcement Learning hört auf, ein Forschungsbuzzword zu sein, und sieht aus wie eine neue Plattform – eine, auf der Entwickler, Forscher und Hobbyisten alle Experimente der Spitzenforschung ohne Erlaubnis von jemandem durchführen können.

Häufig gestellte Fragen

Was ist Verstärkendes Lernen mit Verifizierbaren Belohnungen (RLVR)?

RLVR ist eine Art von KI-Training, bei dem ein Modell durch Versuch und Irrtum in einer Umgebung mit automatisierten, regelbasierten Belohnungen lernt. Im Gegensatz zu RLHF, das menschliches Feedback nutzt, ist RLVR ideal für Aufgaben mit klaren Erfolgskriterien, wie das Lösen von Matheproblemen oder das Gewinnen eines Spiels wie 2048.

Welche Hardware benötige ich, um diesem Tutorial zu folgen?

Sie benötigen einen Windows-PC mit einer modernen NVIDIA RTX-Grafikkarte. Obwohl das Video eine hochmoderne Karte zeigt, funktioniert der Prozess auch mit jeder handelsüblichen RTX-Grafikkarte, wobei die Trainingszeiten bei günstigeren Modellen jedoch länger sein können.

Warum wird Unsloth für lokales RL-Training empfohlen?

Unsloth ist eine Open-Source-Bibliothek, die auf Geschwindigkeit und Speichereffizienz optimiert ist. Sie ermöglicht Techniken wie GRPO und nutzt Funktionen wie LoRA, um große Modelle auf Verbraucherhardware feinabzustimmen, wodurch der Speicherverbrauch im Vergleich zu traditionellen Methoden um über 60 % drastisch reduziert wird.

Kann ich diese RLVR-Methode auch auf Aufgaben außerhalb von Spielen anwenden?

Ja. RLVR ist äußerst effektiv für jede Aufgabe, bei der die Leistung automatisch und objektiv überprüft werden kann. Dazu gehören Codegenerierung, mathematisches Denken und andere logikbasierte Probleme.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Häufig gestellte Fragen

Was ist Verstärkendes Lernen mit Verifizierbaren Belohnungen (RLVR)?

Welche Hardware benötige ich, um diesem Tutorial zu folgen?

Warum wird Unsloth für lokales RL-Training empfohlen?

Kann ich diese RLVR-Methode auch auf Aufgaben außerhalb von Spielen anwenden?

Betreiben Sie Frontier KI auf Ihrem Gaming-PC

Zusammenfassung / Kernpunkte

Die KI-Revolution hat gerade dein Gaming-Rig erreicht.

Jenseits menschlichen Feedbacks: Die Kraft von RLVR

Dein Home-Labor: Bereitmachen für lokales RL

Die WSL-Brücke: Warum Linux auf Windows Ihre beste Wahl ist

Entfessle Unsloth: Das Geheimnis für blitzschnelles Training

Die Bühne bereiten: Ihr erstes RL-Training absolvieren

Im Inneren des Notizbuchs: Vom leeren Blatt zum Spielleiter

Die Belohnungsmaschine: Wie die KI tatsächlich lernt

Von Misserfolg zu Flüssigkeit: Den Training-Zyklus starten

Die Zukunft ist lokal: Was Sie als Nächstes aufbauen können

Häufig gestellte Fragen

Was ist Verstärkendes Lernen mit Verifizierbaren Belohnungen (RLVR)?

Welche Hardware benötige ich, um diesem Tutorial zu folgen?

Warum wird Unsloth für lokales RL-Training empfohlen?

Kann ich diese RLVR-Methode auch auf Aufgaben außerhalb von Spielen anwenden?

One weekly email of tools worth shipping. No drip funnel.

Häufig gestellte Fragen

Als Nächstes lesen

Deno's KI-Firewall beendet das Agenten-Chaos

Dieser AI Agent baut Unternehmen für Sie auf

Realitätscheck für KI: Der Benchmark, der LLMs entlarvte

Bleiben Sie der KI voraus