NVIDIA GPU에서 강화 학습 (RLVR)을 로컬에서 실행하는 방법

💡

요약 / 핵심 포인트

알파고 뒤에 있는 AI 기술은 더 이상 대규모 데이터 센터에만 국한되지 않습니다. 이 튜토리얼에서는 NVIDIA 게이밍 PC를 사용하여 처음부터 강력한 AI 모델을 훈련시키는 방법을 보여줍니다.

AI 혁명이 당신의 게임 기기에 도달했습니다.

초인적인 게임 플레이 AI는 연구 논문과 창문 없는 데이터 센터에만 존재했습니다. AlphaGo, OpenAI Five, DeepMind의 스타크래프트 II 봇—이런 시스템들은 수천 개의 GPU와 소규모 IPO처럼 보였던 연구 예산을 소모했습니다. 이제, 고수들을 이긴 동일한 강화 학습 플레이북이 당신의 책상 아래에 있는 단일 RTX 지원 게이밍 PC에서도 실행될 수 있습니다.

수년 동안 게임 정복이나 자동차 주행을 위한 에이전트 훈련은 수백만 달러에 달하는 클러스터를 필요로 했습니다. 여러분은 가속기 랙, 맞춤형 네트워킹, 그리고 부서지기 쉬운 파이프라인을 관리하는 박사팀이 필요했습니다. 오늘날, 소비자용 NVIDIA GPU가 장착된 RTX AI PC는 동일한 범주의 알고리즘을 로컬에서 처리할 수 있으며, 규모 대신 접근성을 거래하고, 독립 개발자들이 최전선 스타일의 실험을 할 수 있도록 접근성을 제공합니다.

이 변화가 바로 이 실습 가이드에서 탐구하는 내용입니다. NVIDIA의 후원을 받아, 우리는 매튜 버먼의 “Reinforcement Learning Tutorial - RLVR with NVIDIA & Unsloth”에서 제공하는 강화 학습 튜토리얼을 따라 지역적 강화 학습을 위한 검증의 장으로 RTX AI PC를 사용하고 있습니다. 목표는 단순히 스크립트된 동작을 재생하는 장난감 데모가 아니라 시행착오를 통해 발전하는 진정한 학습 시스템입니다.

레시피는 RLVR—검증 가능한 보상으로 강화 학습—에 의존하며, Unsloth의 고도로 최적화된 훈련 스택에서 실행됩니다. 모델 출력에 대해 사람이 "좋음" 또는 "나쁨"을 클릭하는 대신, 보상 함수가 각 동작을 자동으로 점수화하여 인간을 과정을 배제합니다. 같은 패턴이 프론티어 랩이 수학, 코딩, 게임과 같은 검증 가능한 작업에서 모델을 강화하는 방식을 뒷받침합니다.

이를 구체화하기 위해, 우리는 AI가 2048 퍼즐 게임을 제로 지식 상태에서 마스터하도록 훈련할 것입니다. 에이전트는 규칙, 목표 또는 전략을 알지 못하는 기본 GPT-OSS 모델로 시작합니다. 수천 번의 자가 플레이 상호작용을 통해 보상 함수가 더 나은 타일 병합, 더 높은 점수 및 궁극적으로 일관된 승리로 나아가도록 유도합니다.

게임 rig에서 이것을 설정하는 방법을 처음부터 끝까지 볼 수 있습니다: NVIDIA 앱, CUDA 툴킷, WSL, Unsloth, 그리고 2048 노트북이 모두 로컬에서 실행됩니다. 마지막에는 당신의 PC가 단순히 게임을 하는 것을 넘어 AI를 훈련시켜 게임을 이길 수 있게 됩니다.

인간 피드백을 넘어서: RLVR의 힘

강화 학습은 멋지게 들리지만, 그 핵심 아이디어는 익숙하게 느껴진다: 에이전트가 환경을 탐색하고 보상이나 처벌을 받으며, 무엇이 효과적인지 서서히 알아가는 것이다. 개가 묘기를 배우는 모습을 상상해 보라. 단, 여기서 "개"는 신경망이고 "묘기"는 게임 내 움직임, 코드의 줄 또는 수학 증명의 단계이다. 모든 행위는 모델의 내부 정책을 업데이트하여 다음 번에 더 높은 보상을 주는 행동을 더 자주 선택하도록 만든다.

전통적인 강화 학습은 체스, 바둑 또는 스타크래프트의 수백만 게임을 플레이하기 위해 막대한 클러스터를 필요로 했습니다. 이제 RTX급 GPU가 그 과정을 게이밍 PC로 축소하고, 검증 가능한 보상(Reinforcement Learning with Verifiable Rewards, RLVR)이라는 새로운 방법이 전체 프로세스를 극적으로 더 확장 가능하게 만듭니다. 인간이 행동을 평가하는 대신, 프로그램화된 “검증자”가 보상을 자동으로 제공합니다.

RLVR는 사람 대신 엄격하게 기계로 검증 가능한 규칙을 적용합니다. 환경 상태와 모델의 행동을 고려하여 수치 점수를 계산하는 보상 함수를 정의합니다. 감정이나 의견이 아닌, 오로지 수학입니다. 결과가 규칙이 정한 정답과 일치하면 모델은 점수를 얻고, 그렇지 않으면 점수를 잃습니다.

매튜 버먼의 강화 학습 튜토리얼에 있는 2048 데모는 이 아이디어를 가장 순수한 형태로 사용합니다. 환경은 4x4 격자이며, 행동은 위, 아래, 왼쪽, 오른쪽으로의 스와이프입니다. 검증자는 문자 그대로 게임의 코드로, 다음과 같은 작업을 수행할 수 있습니다:

1불법적인 이동을 거부합니다.
2타일이 합쳐지고 점수가 증가할 때 보상을 추가하세요.
3게임을 지연시키거나 조기에 종료시키는 수는 제재하십시오.

게임 엔진은 이미 점수와 패배 여부를 알기 때문에 모든 움직임에 대해 객관적인 심판 역할을 할 수 있습니다. 2048 전략을 한 번도 “보지” 않은 GPT-OSS로 시작한 후, 충분한 RLVR 업데이트가 이루어지면 점점 더 높은 가치의 타일을 생성하고 보드를 채우지 않도록 움직임을 연결하기 시작합니다. 어떤 인간도 “좋은” 또는 “나쁜” 턴에 대해 라벨을 붙이지 않습니다.

이는 인간 피드백으로부터의 강화 학습(RLHF)와 뚜렷한 대조를 이룹니다. RLHF에서는 사람들이 모델 출력물을 비교하고 그들의 선호를 모방하는 보상 모델을 훈련합니다. RLHF는 애매한 목표—공손함, 유용함, 톤—에 효과적이지만, 확장성이 떨어지고 편견을 내재화하는 경향이 있습니다. RLVR은 검증 가능한 결과가 있는 작업에서 번성합니다: GSM8K와 같은 수학 기준, 컴파일되고 테스트를 통과하는 코드, 또는 그렇지 않은 경우, 2048, 체스, 그리고 바둑과 같은 게임들입니다. 이러한 경우, 자동 검증기와 Unsloth 및 RTX GPU와 같은 도구가 결합되어 여러분의 게임 PC를 최첨단 훈련 실험실로 변모시킵니다.

당신의 홈 랩: 로컬 RL 준비하기

게임 PC에서의 Frontier RL은 연구실이 아니라 짧은 하드웨어 및 소프트웨어 체크리스트로 시작합니다. NVIDIA RTX GPU, 드라이버용 최신 NVIDIA App, CUDA Toolkit, 그리고 우분투가 실행되는 Windows Subsystem for Linux (WSL)가 필요합니다. 이 구성은 Matthew Berman이 2048 게임에서 GPT-OSS를 훈련시키기 위해 사용하는 Reinforcement Learning Tutorial과 일치합니다.

RTX 5090 몬스터 카드가 필요하지 않습니다. 텐서 코어가 탑재된 최근의 RTX GPU라면 어떤 것이든 작동합니다: RTX 3060, 3070, 4070 또는 RTX 40 시리즈의 노트북 모두 RLVR을 실행할 수 있습니다; 훈련은 코어, VRAM 및 전력에 따라 확장됩니다. 중급 카드에서는 반복 속도가 느릴 것으로 예상되지만, 코드 경로와 결과는 동일합니다.

RTX GPU를 RL 작업의 주력으로 생각하세요. 이는 정책 업데이트 및 환경 롤아웃을 위해 행렬 곱을 처리하며, 수백만 개의 2048 동작을 그래디언트로 변환합니다. 더 많은 VRAM은 메모리 부족으로 인한 충돌 없이 배치 크기, 컨텍스트 윈도우 또는 모델 크기를 늘릴 수 있게 해줍니다.

CUDA는 실리콘 위에 하나의 레이어를 형성합니다. CUDA Toolkit은 PyTorch와 Unsloth와 같은 프레임워크가 의존하는 병렬 컴퓨팅 런타임과 라이브러리(cuBLAS, cuDNN)를 제공합니다. CUDA가 없으면, 당신의 "GPU 가속" RL 세션은 조용히 CPU로 돌아가며 느려집니다.

WSL은 Windows 사용자에게 이중 부팅 없이 실제 Linux 환경을 제공하여 전체 그림을 완성합니다. WSL을 통해 Ubuntu를 설치한 후, Unsloth 문서에 설명된 대로 Python, Jupyter, Unsloth 및 GPT-OSS RLVR 노트를 실행할 수 있습니다. `nvidia-smi`와 같은 명령줄 도구는 WSL이 RTX GPU를 인식할 수 있음을 확인합니다.

여기 비디오의 리소스에 맞춘 최소한의 설정 체크리스트와 공식 링크가 있습니다: - NVIDIA 앱: https://www.nvidia.com/en-eu/software/nvidia-app/ - CUDA 툴킷: https://developer.nvidia.com/cuda-downloads - WSL + Ubuntu 안내 (Unsloth 문서 참고): https://docs.unsloth.ai/get-started/install-and-update/windows-installation - Unsloth: https://unsloth.ai/ - Unsloth 문서 RLVR 튜토리얼: https://docs.unsloth.ai/new/gpt-oss-reinforcement-learning/tutorial-how-to-train-gpt-oss-with-rl 정책, 보상 및 GRPO에 대한 더 깊은 이론은 Unsloth의 강화 학습(RL) 가이드 | Unsloth 문서에서 당신이 설정한 하드웨어와 실행할 알고리즘을 연결합니다.

WSL 브릿지: 왜 윈도우에서 리눅스가 당신의 최선의 선택인지

WSL은 여러분의 Windows 게임 시스템과 Unsloth와 같은 도구들이 기대하는 리눅스 중심 AI 생태계 사이의 다리 역할을 합니다. 여러 가지 접근 방식을 시험해 본 결과—네이티브 Windows Python, 전체 듀얼 부팅, Windows에서의 Docker—안정성, GPU 지원 및 기존 설정을 손상시키지 않는 측면에서 WSL이 앞섰습니다. 일상적인 Windows 작업 흐름을 유지하면서 RLVR 실험을 위한 거의 네이티브 리눅스 환경을 얻을 수 있습니다.

설치 방법은 PowerShell 또는 Windows Terminal에서 관리자로 실행하는 간단한 명령으로 요약됩니다: `wsl.exe --install ubuntu-24.04`. Windows는 리눅스 커널을 다운로드하고 우분투 24.04를 설정하며, 처음 실행될 때 Unix 사용자 이름과 비밀번호를 생성하라는 메시지를 표시합니다.

우분투가 WSL 내에서 부팅된 후, 두 가지를 확인하고 싶습니다: 리눅스가 실제로 실행되고 있는지, 그리고 RTX GPU를 인식할 수 있는지입니다. 우분투 셸에서 다음을 입력하세요: `nvidia-smi` 만약 모든 것이 잘 작동했다면, 오류 대신에 귀하의 NVIDIA GPU(예: “GeForce RTX 5090”), 드라이버 버전 및 CUDA 버전을 나열하는 표를 보게 될 것입니다.

WSL 내부에 있는지 확인하려면 Windows 터미널에서 `wsl.exe --status`를 실행하거나, Linux 프롬프트가 `C:\Users\...` 대신 `/home/username`과 같은 전형적인 경로를 표시하는지 확인하세요. `nvidia-smi`가 실패한다면 RL 코드에 손대기 전에 Windows에서 드라이버와 CUDA를 수정하세요.

리눅스를 한 번도 접해본 적이 없는 사람들에게 WSL은 무섭고 복잡한 "두 번째 운영 체제"가 아닙니다. WSL은 윈도우 앱과 함께 공존하는 안전한 샌드박스 개발 컨테이너처럼 작동합니다. 우분투 안에서 RL 훈련 작업이 수행되는 동안, 윈도우에서 VS 코드, 브라우저, 게임 런처를 열 수 있습니다.

이 컨테이너화된 모델은 위험을 줄여줍니다. Python 환경, CUDA 호환 라이브러리, 실험적 RLVR 스택을 설치하고, 삭제하고, 초기화할 수 있으며, 이를 통해 주 Windows 설치에 영향을 미치지 않습니다. Unsloth Docs, 강화 학습 튜토리얼 또는 미래의 툴체인이 “Linux + CUDA”를 가정할 때, WSL은 기존 RTX PC에서 조용히 그 요구사항을 충족합니다.

느림의 족쇄를 풀다: 번개처럼 빠른 훈련의 비밀

Unsloth는 이 전체 로컬 RLVR 스택의 중심에 자리 잡고 있습니다. 이 오픈 소스 라이브러리는 거의 50,000개의 GitHub 스타를 모았으며, 이는 과대 홍보 때문이 아니라 소비자 GPU에서 대형 언어 모델을 실제로 훈련하는 것을 비현실적이지 않게 만들어주기 때문입니다.

전통적인 파인 튜닝은 VRAM 한계에 빠르게 부딪히는 경우가 많습니다. Unsloth는 메모리 사용량을 60% 이상 줄이고, 모든 CUDA 코어에서 더 유용한 작업을 이끌어내는 방식으로 이를 회피하여 동일한 RTX 카드에서 더 빠른 학습 속도를 제공합니다.

그 비결: Unsloth는 LoRA(저순위 적응)와 맞춤형 CUDA 커널에 크게 의존합니다. LoRA는 모델의 대부분 가중치를 고정하고 소량의 저순위 어댑터만 학습하기 때문에, 한 개의 게임 GPU에서 7B–20B 매개변수 모델을 조정할 수 있으며, 시스템이 thrash 하거나 crash 되는 것을 지켜볼 필요가 없습니다.

최적화된 커널은 기본 PyTorch 연산보다 훨씬 더 효율적으로 복잡한 텐서 수학을 처리합니다. 이는 GPU 활용을 극대화하고, 메모리 복사를 줄이며, 각 단계당 오버헤드를 감소시킨다는 것을 의미합니다. 이는 데스크톱에서 Jupyter 노트북을 사용하여 수천 개의 RLVR 롤아웃을 실행할 때 원하는 정확한 성능입니다.

WSL 환경 내 설치는 신선하게 지루하게 유지됩니다. Python 가상환경이 활성화되고 CUDA 지원이 있는 PyTorch가 설치되면, 단 하나의 명령어를 실행하면 됩니다: `pip install unsloth`. 그러면 WSL이 PyPI에서 최신 버전을 가져오며, 맞춤형 휠이나 애매한 플래그는 필요하지 않습니다.

당신이 WSL 안에 있기 때문에, Unsloth는 당신이 이전에 설정한 NVIDIA 드라이버와 CUDA Toolkit에 직접 연결합니다. 윈도우 데스크탑에서 작업하면서도 리눅스 도구를 통해 RTX GPU에 완전히 접근할 수 있으며, 이는 대부분의 홈 실험실이 원하는 하이브리드 작업 흐름입니다.

Unsloth는 최신 RL 알고리즘인 GRPO(Group Relative Policy Optimization)를 탑재하고 있습니다. GRPO는 PPO의 정신을 유지하면서 불필요한 요소는 제거합니다. 별도의 보상 및 가치 모델을 사용하지 않아 메모리 사용량을 줄이고 훈련 루프를 단순화합니다.

그 디자인은 GRPO를 전통적인 PPO 스타일 설정보다 훨씬 더 효율적으로 만들어줍니다. 특히 검증자 함수가 출력을 직접 점수화하는 RLVR 레시피에 유리합니다. 2048 에이전트나 수학/코드 튜터의 경우, 이는 초당 더 많은 롤아웃, 시간당 더 많은 그래디언트 단계, 그리고 동일한 하드웨어에서 더 빠른 향상 곡선을 의미합니다.

무대 설정: 첫 번째 RL 훈련 실행

새로운 WSL 설치가 준비되었습니다. 다음 단계는 RL 실험이 시스템의 나머지 부분과 충돌하지 않도록 깨끗한 Python 샌드박스를 만드는 것입니다. 우선 우분투 패키지를 업데이트한 후, Python 및 venv 지원을 설치합니다: `sudo apt update`에 이어 `sudo apt install python3 python3-full python3-pip python3-venv -y`를 입력하세요. 이 스택은 종속성을 격리하고 CUDA 친화적인 PyTorch 빌드를 관리할 수 있는 도구를 제공합니다.

RLVR 작업을 위한 전용 가상 환경을 만드세요. 홈 디렉토리에서 `python3 -m venv unslothrl`을 실행한 후, `source unslothrl/bin/activate`로 활성화하세요. 이제 프롬프트에 `(unslothrl)`이 표시되어, 모든 `pip install`이 이 독립된 환경에 설치됨을 알립니다.

venv가 활성화된 상태에서 CUDA를 지원하는 GPU 활성화 PyTorch 빌드를 설치하세요. NVIDIA의 휠 인덱스나 Unsloth의 안내를 따르십시오. 예: `pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121`. 설치가 완료되면 `python -c "import torch; print(torch.cuda.is_available())"` 명령어로 확인하고, 적절하게 설정된 RTX 카드에서는 `True`를 기대하세요.

다음으로, 이 모든 것이 현대적인 머신러닝 실험실처럼 느껴지게 하는 도구를 설치하세요. Jupyter Notebook과 Unsloth를 한 번에 설치하려면 다음 명령어를 입력하세요: `pip install jupyter unsloth`. 이 조합은 강화 학습 훈련의 기본 요소와 2048 에이전트의 사고 과정을 살펴볼 수 있는 브라우저 기반 제어판을 제공합니다.

이제 실제 2048 RL 레시피가 필요합니다. Unsloth가 사용한 OpenAI GPT-OSS 노트북 링크로 가세요: 강화 학습 튜토리얼은 Colab에 호스팅된 `reinforcement-fine-tuning.ipynb`를 가리킵니다. 브라우저에서 열고, 파일 → 다운로드를 클릭한 후, `.ipynb` 파일을 WSL 인스턴스가 볼 수 있는 폴더, 예를 들어 Linux 홈 디렉토리나 마운트된 Windows 다운로드 경로에 저장하세요.

WSL 터미널로 돌아가서 노트북이 있는 디렉토리로 이동한 후 `jupyter notebook`을 입력하여 Jupyter를 시작하세요. 서버는 `http://localhost:8888/?token=...` URL을 출력합니다. 이 URL을 Windows 브라우저에 복사하면 Jupyter의 파일 탐색기가 나타납니다. 다운로드한 `.ipynb` 파일을 클릭하여 전체 RLVR 2048 파이프라인을 열어보세요.

노트북은 RL 실험의 느낌을 변화시킵니다. 셀 단위로 훈련 스택을 실행하면서 하이퍼파라미터를 조정하고, 고장난 임포트를 수정하거나, 여러 시간을 소요하는 작업을 망치지 않고도 단일 단계를 재시작할 수 있습니다. 이는 NVIDIA가 Train an LLM on NVIDIA Blackwell with Unsloth—and Scale for Production와 같은 가이드에서 더 큰 LLM 작업을 위해 보여주는 동일한 반복 루프이며, 단순한 타일 게임과 당신의 게임용 PC로 축소된 것입니다.

노트북 안에서: 백지 상태에서 게임 마스터로

빈 Jupyter 셀, 깜빡이는 커서, RTX 팬들이 유휴 상태. Unsloth를 가져와 PyTorch에 연결하고 OpenAI의 오픈소스 GPT-OSS 체크포인트를 지시하는 것으로 시작합니다. 한 줄로 20B 파라미터 모델을 불러오고, 다른 줄에서는 Unsloth의 GRPO 기반 RLVR 트레이너를 연결하여 이 일반 텍스트 모델을 궁극적으로 2048 전문 모델로 변환할 것입니다.

다음으로, 이 노트북은 2025년의 트릭을 조용히 선보입니다: 당신이 곧 사용할 2048 게임 엔진 전체는 AI에 의해 작성되었습니다. 그리드, 타일 병합 및 점수 로직의 Python 구현은 공식 GPT-OSS 2048 예제에서 가져온 GPT-4에서 비롯됩니다. AI가 생성한 도구는 또 다른 AI가 게임을 배우는 샌드박스가 됩니다.

훈련에 앞서, 샌드박스가 제대로 작동하는지 확인합니다. 초기 셀에서는 가벼운 `Game2048` 클래스를 정의하고, 보드를 생성하여 4×4 정수 행렬로 출력합니다. 노트북에서 직접 움직임을 단계별로 진행할 수 있으며, 타일을 위, 아래, 왼쪽 또는 오른쪽으로 슬라이드하는 도우미 함수를 호출하고 각 작업 후 보드 업데이트를 확인할 수 있습니다.

수동 플레이는 단순한 재미를 위한 것이 아닙니다; 환경을 sanity-check합니다. 다음을 확인합니다: - 잘못된 이동은 보드에 변화를 주지 않습니다 - 유효한 움직임은 동일한 타일을 올바르게 병합합니다 - 점수와 "게임 종료" 플래그가 예상대로 업데이트됩니다

규칙이 확립되면, 노트북은 인간에서 모델로 전환됩니다. 프롬프트 템플릿은 게임 상태를 4×4 배열과 현재 점수로 설명한 후, GPT-OSS에게 자신의 이동 정책을 인코딩하는 파이썬 함수를 출력하도록 요청합니다. "위" 또는 "왼쪽"이라고 답하는 대신, 모델은 유효한 동작 중 하나를 반환하는 코드를 생성해야 합니다.

프롬프트 엔지니어링이 여기에서 중추적인 역할을 합니다. 템플릿: - 함수 이름과 서명을 명확히 합니다. - 허용된 이동을 나열합니다 (`"위"`, `"아래"`, `"왼쪽"`, `"오른쪽"`) - 외부 임포트 없이 문법적으로 유효한 Python을 요구합니다.

그 제약은 LLM을 프로그램 합성 에이전트로 변환합니다. 모든 응답은 실행 가능한 전략이 되어 RLVR 루프가 2048 환경 내에서 실행하고 자동으로 점수를 매긴 후 Unsloth의 훈련 파이프라인에 피드백합니다.

보상 엔진: AI가 실제로 배우는 방법

보상 함수는 RTX 기반 에이전트와 2048 보드 사이의 비밀 계약처럼 작용합니다. RLVR에서는 금별을 수동으로 나누지 않고, 이를 파이썬으로 인코딩합니다. 노트북에 숨겨진 그 작은 함수들이 매 턴마다 ‘좋은’ 것이 무엇인지 결정합니다.

이 설정의 핵심에는 세 가지 검증자가 있습니다: `function_works`, `no_cheating`, `strategy_succeeds`. 이들 각각은 모델이 제안한 이동 순서를 검사하고 깔끔하고 기계가 읽을 수 있는 점수를 반환합니다. 이들은 함께 당신의 GPT-OSS 에이전트가 시도하는 모든 시도를 판단하는 소규모 재판소를 형성합니다.

`function_works`는 문 앞에서 경비원의 역할을 합니다. 이 함수는 모델의 응답이 유효한 코드로 해석되는지 또는 유효한 움직임 설명으로 해석되는지, 인자가 일치하는지, 그리고 게임 엔진이 실제로 예외를 발생시키지 않고 실행할 수 있는지를 확인합니다. 만약 코드가 충돌하거나 의미 없는 결과를 낳으면, 보상이 감소하며 다음 업데이트에서 정책이 그 행동에서 조용히 벗어나게 됩니다.

`no_cheating`는 어두운 기술인 보상 해킹과 규칙 법률을 처리합니다. 대형 언어 모델은 불완전하게 지정된 지침을 활용하는 데 뛰어난 능력을 보이므로, 이 검증기는 2048의 메커니즘을 깨뜨리거나, 보드 상태를 조작하거나, 허용된 API를 우회하는 행동을 감지합니다. 모델이 그리드를 직접 수정하거나 턴을 пропуск하려고 시도하면, `no_cheating`은 강력한 부정적 보상을 부여합니다.

`strategy_succeeds`는 실제 게임 진행에 초점을 맞춥니다. 2048 환경 내에서 제안된 수를 실행하고 구체적인 신호를 확인합니다: 점수 증가, 타일 병합, 그리고 보드가 하드록 상태에 빠지지 않고 살아남는지 여부입니다. 성공적인 전략은 긍정적인 점수를 얻고, 정체되거나 지는 줄은 패널티를 부여받아 모델이 더 높은 점수를 얻고 더 오래 지속되는 실행으로 이동하도록 유도합니다.

함께 이 검증자들은 자동화된 피드백 루프를 생성합니다. 모든 훈련 단계는 동일한 리듬을 따릅니다: 모델이 전략을 제안하고, 검증자들이 이를 실행하고 평가하며, RLVR은 그 스칼라 보상을 사용해 모델의 매개변수를 조정합니다. 수백 또는 수천 번의 반복을 거치면서 정책은 무작위 스와이프에서 인간이 만든 2048 가이드처럼 보이기 시작하는 무언가로 변화합니다.

보상 해킹은 항상 강화 학습(RL)의 배경에서 존재합니다. 이러한 강력한 검증기—명시적인 코드 검사, 반치트 방어, 결과 기반 점수 산정—는 에이전트가 당신의 지표를 조작하는 것이 아니라 실제 작업을 학습하도록 제약을 둡니다. 이것이 RLVR이 자작의 최전선 모델을 정직하게 유지하며 숙련도를 쌓아가는 방법입니다.

실패에서 유창함으로: 훈련 루프 시작하기

훈련을 시작하는 것은 당신의 노트북에 있는 한 줄로 요약됩니다: `trainer.train()`. 이 호출은 Unsloth의 RL 엔진에 제어권을 넘기며, 엔진은 당신의 프롬프트를 처리하기 시작하고, 생성물을 생성하며, 이전에 설정한 검증 가능한 보상 파이프라인을 통해 이를 전달합니다.

루프가 시작되면, GPT-OSS 모델은 2048 보드에 대한 전략을 반복적으로 제안합니다. 환경은 그러한 움직임을 실행하고, 검증자는 점수를 매깁니다. 그리고 RLVR은 그 점수를 기울기로 변환하여 모델의 가중치를 조정합니다. 각 단계는 네트워크를 약간 재구성하며, 더 높은 보상을 생성한 행동의 순서로 모델을 편향시킵니다.

이러한 과정은 기본적으로 수백만 개의 작은 베팅 게임처럼 보입니다. 각 프롬프트에 대해 모델은 움직임 시퀀스를 샘플링하고, 환경은 숫자 보상을 반환하며, 최적화기는 매개변수를 업데이트하여 더 높은 보상을 받는 경로가 다음에 더 가능성이 높아지도록 합니다. 수백 또는 수천 번의 단계에 걸쳐 이 시험과 오류의 과정은 무작위적인 시도로부터 인식할 수 있는 전략으로 발전합니다.

매튜 버먼의 강화 학습 튜토리얼에서 가장 교육적인 순간 중 하나는 모델이 게임 로직에 대한 불완전한 코드를 생성할 때 발생합니다. 검증자는 즉시 실패를 선언합니다: 컴파일이 안 되면 보상도 없습니다. 그 힘든 "0"은 막다른 길이 아니라, 최적화기가 모델을 미완성 코드 경로에서 멀어지도록 안내하는 데 필요한 정확한 부정 신호입니다.

실패는 학습 데이터가 됩니다. 불완전하거나 논리적으로 결함이 있는 조각들이 반복적으로 낮은 점수를 받을 때, 그래디언트 업데이트는 이러한 패턴을 억제하고 완전하고 검증 가능한 솔루션을 강화합니다. 당신은 RLVR가 실수를 무기로 삼아 "간신히 작동"하는 것을 "모든 검사를 통과"하는 것으로 변형하는 과정을 실제로 목격하게 됩니다.

이 모든 일이 일어나고 있는 동안, 화면은 겉보기에는 조용해 보일 수 있습니다. `trainer.train()`을 실행하는 노트북 셀은 특히 중급 RTX 카드에서 "In [*]" 상태에 오랫동안 머무를 수 있습니다. 이는 보통 GPU가 포화 상태임을 의미하며, 무엇인가 고장이 났다는 것이 아닙니다.

진행 상황을 확인하려면 다음을 주의 깊게 살펴보세요: - 훈련 단계, 보상 및 손실 값을 출력하는 터미널 로그 - GPU 활용도가 90–100%에 근접한 `nvidia-smi` - VRAM 사용량이 모델과 배치 크기에 맞춰 상승하는 것

더 깊은 내부 정보는 unslothai/unsloth - GitHub 레포지토리와 Unsloth 문서에 자세히 나와 있으며, 트레이너가 프롬프트를 배치하고 GRPO 스타일 업데이트를 적용하는 방법, 그리고 루프를 더 커스터마이즈하고 싶을 때 사용할 수 있는 훅을 제공합니다.

미래는 지역에 있다: 당신이 다음에 구축할 수 있는 것

당신은 몇 년 전 DeepMind 논문에나 등장할 법한 곡예를 해냈습니다: 소비자 GPU에서, Windows 내의 WSL, NVIDIA의 CUDA 스택 및 Unsloth를 사용하여 최전선 스타일의 RL 에이전트를 훈련시킨 것입니다. 관리되는 Kubernetes 클러스터도, 불가사의한 클라우드 요금도 없이, 단지 게임용 PC가 순수한 시행착오를 통해 GPT-OSS 모델에게 퍼즐 게임을 이기는 방법을 가르친 것입니다.

2048은 데모일 뿐, 목적지는 아닙니다. 동일한 RLVR 레시피—정책 모델, 검증 가능한 환경, 자동화된 보상—이 이미 GSM8K와 같은 수학 기준에서 공개 모델을 발전시키고 있으며, 여기서 답변은 객관적으로 맞거나 틀립니다. 코드 생성에서도 단위 테스트 스위트가 보상 함수가 됩니다. 프로그램이 컴파일되고, 테스트를 통과하며, 시간 제한 내에서 실행되면 점수를 얻고; 실패할 경우 기울기는 반대 방향으로 흐릅니다.

이 변화는 검증 가능한 도메인이 어디에나 존재하기 때문에 중요합니다. 수학 대회, LeetCode 아카이브 또는 회사의 비공식 통합 테스트를 훈련의 장으로 활용할 수 있습니다. 선호도를 레이블링하는 대신, 규칙을 정의합니다: - 수학: 정확한 수치 또는 기호의 동등성 - 코드: 통과한 테스트, 실행 시간, 메모리 사용량 - 게임/시뮬레이션: 점수, 생존 시간, 승률

하드웨어 장벽도 점점 낮아지고 있습니다. Unsloth는 최근 GRPO 스타일 훈련에 FP8 지원을 추가하여 모델을 더 적은 VRAM에 압축하고 중간급 RTX 카드에서 초당 더 많은 토큰을 처리할 수 있도록 했습니다. 이는 약간의 수치 정밀도를 희생하는 대신 훨씬 더 많은 처리량을 얻는 것이며, 과거에는 "추론 전용"이었던 GPU에서 더 깊은 훈련을 가능하게 합니다.

여기서 실험이 주요 제약 조건이 됩니다. 2048 노트북을 복제하고 GSM8K로 바꾼 다음, 로컬 심사자를 연결하여 모델이 자신의 개인 리더보드를 오르는 모습을 지켜볼 수 있습니다. 로컬에서 검증 가능한 강화 학습은 더 이상 연구 분야의 유행어에 그치지 않고 새로운 플랫폼처럼 보이기 시작하며, 개발자, 연구자, 취미 활동가가 누구의 허락도 받지 않고 최전선 수준의 실험을 수행할 수 있는 공간이 됩니다.

자주 묻는 질문

확인 가능한 보상(Reinforcement Learning with Verifiable Rewards, RLVR)은 에이전트가 환경과 상호작용하면서 보상을 받을 때, 이러한 보상이 검증 가능하도록 설계된 강화학습 기법입니다. RLVR은 보상의 신뢰성을 높이고, 에이전트가 더 나은 결정을 내릴 수 있도록 도와줍니다.

RLVR은 모델이 자동화된 규칙 기반 보상이 있는 환경에서 시행착오를 통해 학습하는 AI 훈련의 일종입니다. 인간 피드백을 사용하는 RLHF와 달리, RLVR은 수학 문제 해결이나 2048 같은 게임에서 이기는 것처럼 명확한 성공 기준이 있는 작업에 이상적입니다.

이 튜토리얼을 따라가기 위해 필요한 하드웨어는 무엇인가요?

최신 NVIDIA RTX GPU가 장착된 Windows PC가 필요합니다. 비디오에서는 고급 카드를 사용하지만, 이 과정은 소비자용 RTX 그래픽 카드에서 모두 작동하며, 저가형 모델에서는 훈련 시간이 더 길어질 수 있습니다.

Unsloth가 지역 RL 훈련에 추천되는 이유는 무엇인가요?

Unsloth는 속도와 메모리 효율성을 위해 최적화된 오픈 소스 라이브러리입니다. 이 라이브러리는 GRPO와 같은 기술을 사용할 수 있으며, LoRA와 같은 기능을 활용하여 소비자 하드웨어에서 대형 모델을 세밀하게 조정할 수 있어, 전통적인 방법에 비해 메모리 사용량을 60% 이상 대폭 줄여줍니다.

이 RLVR 방법을 게임 이외의 작업에도 적용할 수 있나요?

네. RLVR는 성능을 자동으로 객관적으로 검증할 수 있는 모든 작업에 매우 효과적입니다. 여기에는 코드 생성, 수학적 추론 및 기타 논리 기반 문제가 포함됩니다.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

자주 묻는 질문

이 튜토리얼을 따라가기 위해 필요한 하드웨어는 무엇인가요?

Unsloth가 지역 RL 훈련에 추천되는 이유는 무엇인가요?

이 RLVR 방법을 게임 이외의 작업에도 적용할 수 있나요?

게임 PC에서 프론티어 AI 실행하기

요약 / 핵심 포인트

AI 혁명이 당신의 게임 기기에 도달했습니다.

인간 피드백을 넘어서: RLVR의 힘

당신의 홈 랩: 로컬 RL 준비하기

WSL 브릿지: 왜 윈도우에서 리눅스가 당신의 최선의 선택인지

느림의 족쇄를 풀다: 번개처럼 빠른 훈련의 비밀

무대 설정: 첫 번째 RL 훈련 실행

노트북 안에서: 백지 상태에서 게임 마스터로

보상 엔진: AI가 실제로 배우는 방법

실패에서 유창함으로: 훈련 루프 시작하기

미래는 지역에 있다: 당신이 다음에 구축할 수 있는 것

자주 묻는 질문

이 튜토리얼을 따라가기 위해 필요한 하드웨어는 무엇인가요?

Unsloth가 지역 RL 훈련에 추천되는 이유는 무엇인가요?

이 RLVR 방법을 게임 이외의 작업에도 적용할 수 있나요?

One weekly email of tools worth shipping. No drip funnel.

자주 묻는 질문

다음 읽기

이 AI 에이전트가 당신을 위한 비즈니스를 구축합니다

AI의 현실 점검: LLM을 무너뜨린 벤치마크

AI의 숨겨진 번아웃 위기

AI 트렌드를 앞서가세요