애플 STARFlow AI: 이 오픈소스 모델이 왜 게임 체인저인지

💡

TL;DR / Key Takeaways

애플이 오픈소스 AI를 무료로 발표했으며, 이 AI는 OpenAI나 구글의 어떤 것보다 15배 빠르게 이미지를 생성합니다. 이 움직임은 생성적 AI 분야를 완전히 변화시킬 준비를 하고 있습니다.

애플이 AI의 규칙을 바꿨습니다.

애플이 누구도 예상치 못한 일을 했습니다: 최첨단 생성 AI 모델인 STARFlow를 GitHub에 오픈 소스 라이선스와 함께 공개했습니다. 결제 장벽도, API 제한도 없이, 코드와 가중치, 그리고 밀폐된 상자를 배송하는 것으로 유명한 회사의 연구 논문만이 제공됩니다.

STARFlow와 그 비디오 자매 제품 STARFlow‑V는 "확장 가능한 변환기 자동 회귀 흐름" 아키텍처를 기반으로 한 애플의 새로운 이미지 및 비디오 생성기입니다. 애플은 유사한 품질의 확산 모델과 비교했을 때 더 적은 GPU 사이클을 사용하여 특히 높은 해상도에서 최대 10-15배 더 빠른 샘플링 속도를 제공한다고 주장합니다.

OpenAI, Google, 그리고 Midjourney가 최고의 모델을 구독 및 사용 제한 뒤에 숨겨 놓은 상황에서, Apple은 상황을 뒤바꿨습니다. 누구나 ml-starflow를 복제하고, GPU 인스턴스를 실행하여 단 하나의 기업 계약을 체결하지 않고도 고품질 이미지를 생성하고 480p급 영상을 제작할 수 있습니다.

이것은 귀여운 데모 모델이 아닙니다. STARFlow는 이미지에 대해 약 30억 개의 매개변수를 가지고 있으며, STARFlow‑V는 비디오의 경우 대략 70억 개의 매개변수에 도달하여 메모리와 컴퓨트를 효율적으로 관리하기 위해 사전 훈련된 오토인코더의 잠재 공간에서 작동합니다. 애플의 벤치마크는 표준 이미지 품질 메트릭에서 주요 확산 시스템과 동등한 성능을 보여주며, 20~50개의 디노이징 단계 대신 단일 전방 패스만 필요로 합니다.

전략적으로, 이것은 구독 AI 경제에 대한 직접적인 타격입니다. 만약 개방형 애플 모델이 저렴한 클라우드 GPU에서 경쟁력 있게 작동할 수 있다면, 또는 궁극적으로 고급 맥과 아이패드에서 작동할 수 있다면, 왜 미드저니에 프롬프트당 요금을 지불하거나 클라우드 비디오 생성기에게 프레임당 요금을 지불해야 할까요?

개발자들은 거의 즉각적으로 반응했습니다. GitHub 이슈, Hugging Face 포트, 그리고 Docker 이미지가 몇 시간 내에 나타났으며, 인디 개발자들은 단일 A100이나 프로슈머 RTX 카드에서 수 초 만에 생성된 다중 이미지 배치를 보고했습니다. 이는 그들이 확산에서 알고 있는 1분 이상의 워크플로우와는 완전히 다른 결과입니다.

그 속도와 애플 로고가 결합되어 STARFlow는 거의 믿기 어려울 정도로 훌륭한 느낌을 줍니다. 창작자들은 이미 AI 생성이 포토샵 브러시처럼 저렴하고 빠르며 전적으로 자신의 통제 하에 운영되는 지역 도구가 되는 순간인지 묻고 있습니다.

15배 빠름: 과대광고 뒤의 기술

15배 더 빠르다는 말은 마케팅 허풍처럼 들릴 수 있지만, 실제로 대부분의 확산 모델이 어떻게 작동하는지를 보면 다릅니다. Stable Diffusion과 DALL·E는 보통 20~100회의 잡음 제거 단계를 거쳐, 때로는 그보다 더 많은 과정에서 잠재 이미지를 점차적으로 정화합니다. STARFlow는 이러한 복잡한 과정을 건너뛰고 잡음에서 완성된 이미지로 거의 직접 이동하는 몇 가지 흐름 변환을 사용합니다.

긴 마르코프 체인 대신, STARFlow의 변환기 자동회귀 흐름은 단순한 노이즈 분포와 이미지 공간 사이의 가역적 매핑을 학습합니다. 샘플링은 약 30억 매개변수를 가진 변환기가 잠재 공간에서 작동하는 단일 순방향 패스를 거치고, 그 뒤에 디코더가 이어지는 방식으로 진행되어 연산 순서를 대폭 줄입니다. 단계를 줄이면 같은 GPU에서 소요되는 실제 시간이 극적으로 줄어듭니다.

그 15배의 헤드라인 수치는 STARFlow와 비슷한 품질 및 해상도로 50-100단계 실행되는 확산 모델을 비교한 것입니다. A100급 GPU에서 확산 파이프라인으로 1-1.5초 걸릴 수 있는 이미지는 STARFlow를 사용하면 100ms 이하로 단축될 수 있습니다. 이를 수백만 건의 요청에 쌓으면 수치는 애플에게 유리하게 크게 기울어집니다.

여기서 속도는 단순히 "더 빠르게 느껴진다"는 의미가 아닙니다. 낮은 단계 수는 실시간 도구를 위한 낮은 대기 시간으로 직접 연결되며, 공급자의 낮은 처리 비용과 서버당 더 높은 처리량으로 이어집니다. 확산을 사용하여 최대 수요를 유지하기 위해 100개의 GPU가 필요했던 서비스는 그 하드웨어의 일부만으로 유사한 용량에 도달할 수 있습니다.

사용자에게 그 차이는 폴라로이드 사진이 현상되는 것을 보는 것과 화학 암실에서 기다리는 것처럼 느껴집니다. 확산 이미지가 점진적으로 나타나며, 종종 저해상도로 미리보기한 후 확대됩니다. STARFlow는 아이폰으로 사진을 찍는 것과 같은 방식으로 작동하는 것을 목표로 합니다: 탭을 하면 거의 즉시 전체 화질의 프레임이 나타납니다.

STARFlow‑V는 같은 아이디어를 비디오로 확장하여 스텝 수가 급증합니다. 전통적인 확산 기반 비디오 모델은 16~24프레임에 걸쳐 초당 수십 개의 스텝을 실행하여 2초 클립을 서버가 한계에 다다르는 작업으로 만듭니다. STARFlow‑V는 약 70억 개의 매개변수를 사용하여 훨씬 적은 순차적 패스를 통해 시간적으로 일관된 480p급 클립을 생성합니다.

생성 비디오를 호스팅하는 모든 회사에게 효율성이 자랑보다 더 중요합니다. 프레임당 단계가 적을수록 긴 클립을 렌더링하거나 더 높은 프레임 속도, 더 많은 동시 사용자를 지원할 수 있으며, GPU 예산을 낭비하지 않을 수 있습니다.

확산을 잊어라, 미래는 '흐름'이다

확산 구름과 노이즈 제거 스케줄을 잊으세요; 정규화 흐름은 이미지 생성을 완벽하고 가역적인 수학적 트릭처럼 다룹니다. STARFlow는 간단한 노이즈 벡터를 완성된 이미지로, 그리고 다시 그 반대로 매핑하는 직접적이고 가역적인 함수를 학습합니다. 수백 개의 노이즈가 섞인 중간 단계를 추측할 필요 없이 말이죠. 이것을 "가우시안 노이즈"와 "4K 배경화면" 사이의 이중 언어 사전이라고 생각해 보세요. 모든 단어는 정확하고 손실 없는 번역을 가지고 있습니다.

스테이블 디퓨전이나 DALL·E와 같은 확산 모델은 조각가처럼 작동합니다. 이들은 순수한 정적 상태에서 시작하여 20, 50 또는 100단계 이상의 노이즈 제거 단계를 적용하여 점차적으로 픽셀을 고양이, 자동차 또는 성과 같은 모습으로 밀어냅니다. 각 단계는 GPU 시간, 메모리 및 에너지를 소모하므로 더 높은 품질은 일반적으로 더 많은 단계와 더 많은 대기를 의미합니다.

플로우는 느린 공개 과정을 완전히 건너뜁니다. 한번 학습하면 STARFlow는 사실상 네트워크를 한 번 통과하면서 샘플링하고, 몇 가지 가이드 조정만 추가합니다. 이것이 애플이 유사한 확산 기준에 비해 “최대 15배 더 빠른” 성능을 달성하는 방법입니다. 긴 마르코프 체인도, 샘플러 튜닝도, 스텝 수에 대한 불안도 없습니다.

STARFlow의 핵심은 TARFlow입니다: 변환자 자기 회귀 흐름(Transformer Autoregressive Flow). 문장에서 다음 단어를 예측하는 대신, 변환자는 이미지를 인코딩하는 연속 잠재 변수의 변환을 예측합니다. Apple은 사전 훈련된 오토인코더의 잠재 공간에서 TARFlow를 실행하므로, 변환자는 1024×1024 픽셀의 원시 데이터를 직접 다룰 필요가 없습니다.

트랜스포머는 장거리 구조를 모델링하는 데 탁월하며, 이미지에는 대칭, 질감, 전체 구성 등 많은 요소가 포함되어 있습니다. TARFlow의 주의 레이어는 전체 잠재 그리드에서 의존성을 포착하여 창틀이 건물의 가장자리와 정렬되고 반사가 하늘과 일치하도록 합니다. 애플은 대부분의 주의 레이어를 컴팩트하게 유지하면서 분포의 가장 어려운 부분에 깊이를 남기는 "딥-샬로우" 트랜스포머 스택을 사용합니다.

정상화 흐름(normalizing flows)은 애플과 함께 갑자기 등장한 것이 아니며, 연구자들은 수년 동안 이미지에 대해 이를 시도해 왔습니다. 역사적으로 이 기술은 엄격한 역가역성을 강제로 적용함으로써 모델 용량이 제한되고 최적화가 불안정해져서, 충실도에서 확산(diffusion) 및 GAN보다 뒤처졌습니다. 초기 흐름 모델인 Glow는 선명하지만 종종 단순하고 과도하게 부드러운 샘플을 생성하며, 고해상도에서 어려움을 겪었습니다.

애플의 작업은 이러한 약점에 정면으로 맞서고 있습니다. TARFlow는 일부 아키텍처 제약을 완화하고 압축된 잠재 공간에서 작동하며, 확산 스타일의 단계 세금을 지불하지 않고 출력의 선명도를 높이기 위해 분류기 없는 스타일의 가이드를 층화합니다. 애플의 STARFlow 논문에 나온 벤치마크는 표준 데이터 세트에서 이미지 품질이 최신 확산 모델에 근접하거나 일치하며, 512×512 이상의 경우 최대 10–15배 빠른 샘플링 속도를 보여줍니다.

오픈AI 왕국에 대한 오픈 소스 공격

애플은 단순히 논문을 발표한 것이 아니라, STARFlow와 그 가중치를 GitHub에서 오픈 소스로 공개함으로써 AI 비즈니스 모델에 라이브 수류탄을 던졌습니다. 코드, 체크포인트, 훈련 설정 및 예제 노트북이 모두 제공되며, 이는 잠금된 연구의 유혹보다는 PyTorch에 더 가까운 자유로운 라이센스 하에 있습니다.

독립 개발자에게 이 키트는 새로운 세대 제품을 위한 스타터 키트입니다. 솔로 개발자는 레포를 복제하고 DigitalOcean에서 단일 A100을 임대하여 중급 확산 모델에 필적하는 15배 더 빠른 이미지 생성기를 구축할 수 있으며, 누구에게도 프롬프트당 비용을 지불할 필요가 없습니다.

스타트업들은 API 통행료로 지배되는 시장에서 갑자기 우위를 점하게 됩니다. OpenAI, Google 또는 Midjourney에 소모율을 의존하는 대신, 그들은 특정 분야—패션 카탈로그, 의료 이미징, 애니메이션—에서 STARFlow를 미세 조정하면서 결과 모델과 마진을 소유할 수 있습니다.

연구자들은 또한 완전히 검사 가능한 시스템을 갖게 됩니다. Transformer Autoregressive Flow의 모든 레이어와 모든 정규화 흐름의 전단사 맵이 드러납니다. 이러한 투명성은 재현 가능한 벤치마크, 안전 감사를 가능하게 하며, 봉인된 ChatGPT 스타일 API로는 불가능한 새로운 아키텍처를 제공할 수 있게 합니다.

경제적 압박이 폐쇄된 제공업체에 직접적으로 영향을 미칩니다. 마케팅 이미지, 스토리보드, 480p 비디오에 대해 무료로 로컬 호스팅된 모델이 "충분히 좋은" 수준에 도달하면, 독점 API를 통해 이미지 하나당 0.04~0.12달러 또는 짧은 클립 하나당 0.30달러 이상의 비용을 지불할 의향이 사라집니다.

폐쇄형 플랫폼은 이제 원자재 모델 품질 이상의 것으로 가격을 정당화해야 합니다. 이들은 독점 데이터, 기업 준수, 통합 도구, 또는 온프레미스 보장과 같은 이점이 필요합니다. 이러한 이점은 포춘 500대 기업이 자사의 쿠버네티스 클러스터 내에서 애플의 무게를 운영할 수 있게 되면 더욱 희미해 보입니다.

이것은 또한 가치의 싸움이다: 오픈 소스 대 잠금된 AI. 전통적으로 개방성에 알레르기를 가진 애플은 누구나 포크할 수 있고 Metal에 최적화하거나 Android와 Linux로 이식할 수 있는 주력 모델로 개방 진영에 무장을 해주었다.

기본 모델에 대한 통제는 누가 워터마크, 저작권 필터 및 감시 수단에 대한 규칙을 설정하는지를 결정합니다. 만약 STARFlow급 시스템이 몇몇 미국 클라우드 강자들 외부에서 확산된다면, AI의 미래는 몇몇 구독 게이트웨이보다는 초기 웹과 더 비슷해질 것입니다: 혼란스럽고, 분산되어 있으며, 다시 통제하기 매우 어려운 상황이 될 것입니다.

누구도 이야기하지 않는 함정이 있습니다.

너무 좋은 것은 보통 청구서가 곧 다가온다는 의미이며, STARFlow도 예외는 아닙니다. 애플의 모델은 잘 정리된 데모에서 마법처럼 보이지만, 현재 출시된 버전은 제품이 아닌 연구 미리보기 영역에 있습니다. 다듬어진 미드저니 대체물이 아닌, 원시적인 파워를 제공합니다.

속도 헤드라인은 거대한 하드웨어 별표를 숨기고 있습니다. STARFlow는 이미지에 대해 약 30억 개의 매개변수를 가지고 있고, STARFlow-V는 비디오에 대해 대략 70억 개의 매개변수로 확장되어 고급 GPU 영역에 진입합니다. 저지연, 고해상도 출력을 원하신다면 RTX 4090급 카드나 24–80 GB의 VRAM을 가진 A100을 고려해 보세요.

8-12GB의 VRAM을 가진 단일 소비자 GPU에서 STARFlow를 실행하려면妥協가 필요합니다. 저해상도로 낮춰야 하거나, 배치 처리 속도가 느려지는 것을 감수해야 하거나, 클라우드에서 다중 GPU 설정으로 이전해야 합니다. "확산보다 최대 15배 빠르다"는 문구는 모델을 메모리 내에 완전히 상주시키고 강하게 밀어붙일 수 있다는 가정을 전제로 합니다.

사용자 경험은 Midjourney, DALL·E 3 또는 Adobe Firefly와 같은 정제된 도구들에 비해 크게 뒤처져 있습니다. Apple은 조잡한 웹 앱이 아닌 PyTorch 코드, 모델 가중치 및 일부 Colab 스타일의 노트를 GitHub에 배포합니다. 사용자는 자신만의 프롬프트 UI, 작업 대기열, 업스케일링 및 창의적 도구와의 통합을 처리해야 합니다.

안전성과 신뢰성은 이를 배포하는 사람에게 전적으로 달려 있습니다. STARFlow는 최소한의 안전 필터와 내장된 콘텐츠 정책 강제 조치, 강력한 남용 모니터링 없이 등장합니다. 이를 제품에 통합하려면 NSFW 감지, 저작권 필터링, 워터마크 추가 및 로깅을 스스로 추가해야 합니다.

품질은 벤치마크에서 강하지만, 흐름에는 여전히 거래의 대가가 따릅니다. 정규화 흐름은 역사적으로 매우 세밀한 텍스처, 머리카락, 텍스트 및 작은 타이포그래피에서 어려움을 겪는 반면, 성숙한 확산 모델은 수년간의 조정을 거친 후 이 분야에서 뛰어난 성능을 발휘합니다. 초기 STARFlow 샘플은 전반적으로 선명하지만, 가끔은 복잡한 장면에서 흐릿한 미세 세부 사항이나 미세한 아티팩트가 나타나기도 합니다.

비디오는 또 다른 타협의 요소를 추가합니다. STARFlow‑V는 현재 공개 데모에서 약 480p의 일관된 클립을 목표로 하고 있으며, 4K 영화 영상은 아닙니다. 업스케일할 수는 있지만, 이는 별도의 슈퍼 해상도 모델에 부담을 주고 예상되는 속도와 비용 절감에 영향을 미칩니다.

그래서 네, STARFlow는 빠르고 개방적이며 진정으로 혁신적입니다. 그러나 현재로서는 '플러그 앤 플레이' AI 카메라라기보다는 연구실 기기처럼 작동합니다: 숙련된 손길에서는 놀랍지만, 소비자 제품을 기대하면 가혹한 결과를 가져올 수 있습니다.

이 AI가 당신의 아이폰에 올까요?

애플의 최종 목표는 분명해 보입니다: 기기 내 AI가 즉각적이고, 개인적이며, 모든 아이폰, 아이패드 및 맥에 자연스럽게 통합되는 것입니다. STARFlow는 단순한 연구 성과가 아니라, 애플이 어떻게 생성 모델을 애플 실리콘에서 대규모 서버 농장에 의존하지 않고 운영하길 원하는지에 대한 청사진입니다.

정규화 흐름은 애플에게 확산 모델이 결코 제공하지 못했던 무기를 제공합니다. 50-200회의 노이즈 제거 단계를 거치는 대신, STARFlow는 본질적으로 단일 단계에서 이미지를 생성하여 노이즈를 학습된 가역 매핑을 통해 그림으로 변환하고, 이는 지연 시간을 줄이고 전력 소모를 절감합니다.

한 단계의 행동은 여러분의 "GPU"가 A 시리즈 또는 M 시리즈 칩으로 제한된 전력 예산을 가질 때 중요합니다. 3B 파라미터 STARFlow 이미지 모델과 약 7B 파라미터 STARFlow-V 비디오 모델은 데스크탑급 GPU에서 디퓨전보다 훨씬 빠르게 실행됩니다. 이를 6인치 유리판으로 압축하는 것은 또 다른 이야기입니다.

현실 점검: 오늘의 STARFlow 체크포인트를 iPhone 15 Pro에서 원활하게 실행할 수는 없습니다. 양자화, 프루닝, Core ML 최적화를 적용하더라도, 수십억 개의 매개변수 모델과 오토인코더 오버헤드는 현재 모바일 하드웨어가 제공하는 메모리 대역폭 및 VRAM 용량을 훨씬 초과하는 요구 사항을 가지고 있습니다.

대신, STARFlow는 미래 애플 실리콘을 위한 디자인 목표로 기능합니다. 다가오는 A 시리즈와 M 시리즈 세대는 사진, 짧은 비디오 및 3D 자산을 위한 빠르고 흐름 기반의 생성을 처리하기 위해 NPU 처리량, 칩 내 SRAM 및 메모리 대역폭을 강화할 것으로 예상됩니다.

그 하드웨어가 존재하면 소프트웨어 이야기는 자연스럽게 진행됩니다. 네이티브 앱은 다음과 같은 긴밀히 통합된 생성기를 제공할 수 있습니다: - 기기 내 배경화면 및 잠금 화면 아트 - 로직 프로 및 파이널 컷 프로 B-롤, 텍스처 및 전환 효과 - 엑스코드 자산 생성 및 UI 목업

애플은 이미 iOS 18의 Apple Intelligence 스택에서 소규모 언어 모델을 로컬에서 운영하며 더 무거운 작업은 클라우드로 분산시키고 있습니다. STARFlow는 미디어에 대해 유사한 분리를 암시합니다: 장치에서 경량의, 개인 정보 보호에 민감한 생성이 이루어지고, 필요할 때 더 무겁고 고해상도의 작업은 애플 서버로 조용히 전송됩니다.

지금 STARFlow로 만들 수 있는 것

STARFlow 시작은 GitHub에서 시작합니다. Apple의 ml-starflow 저장소에는 STARFlow와 STARFlow-V를 위한 훈련 코드, 추론 스크립트 및 구성 파일이 포함되어 있으며, 데모 사이트의 예제 Colab 노트북도 포함되어 있습니다. 더 높은 해상도나 비디오를 처리하려면 탄탄한 Python, PyTorch 및 CUDA 기술과 최소 16-24 GB VRAM을 가진 GPU가 필요합니다.

개발자는 디퓨전 모델이 이미 존재하는 곳에 STARFlow를 더 빠른 백엔드로 쉽게 통합할 수 있습니다. 현재 50–100개의 디노이징 단계를 소모하는 모든 곳에서 단일 전방 패스를 통해 지연 시간과 GPU 시간을 크게 줄일 수 있습니다. 동일한 하드웨어에서 이미지 생성 엔드포인트가 약 2–5초에서 1초 이하로 응답 시간을 단축하는 모습을 상상해 보세요.

콘텐츠 플랫폼은 조용히 AI 아트 엔진을 교체할 수 있습니다. 썸네일, 스토리 배경 또는 필터를 자동 생성하는 소셜 앱은 STARFlow를 사용하여 더 저렴하고 높은 처리량의 추론을 수행할 수 있습니다. 단일 A100 또는 H100 인스턴스는 유사한 확산 스택보다 더 많은 사용자를 동시에 서비스할 수 있습니다.

창의적인 소프트웨어 공급업체들은 명확한 플러그인 경로를 얻습니다. 포토샵 스타일 편집기, 피그마 복제본 또는 3D 도구는 STARFlow를 통합하여 프롬프트에서 텍스처 생성, 스타일 전이 및 레이아웃 탐색을 거의 즉각적인 미리보기와 함께 제공합니다. 낮은 지연 시간은 '클릭 후 대기'가 아닌 상호작용하는 느낌의 UI 워크플로를 의미합니다.

실시간 비디오 실험은 STARFlow‑V로 손이 닿는 곳에 있습니다. 아마도 1080p에서 60 fps를 달성하진 못하겠지만, 10-15배 더 빠른 샘플링 덕분에 단일 하이엔드 GPU에서 480p 생성 필터, 스타일화 또는 배경 교체가 가능해집니다. OBS 플러그인이나 프롬프트에 즉시 반응하는 VTuber 파이프라인을 생각해 보세요.

연구자들은 가장 급진적인 도구인 정확한 가능도를 얻는다. 정규화 흐름을 통해 p(x)를 직접 계산할 수 있으므로 STARFlow는 확산 모델로는 할 수 없는 이상 탐지, 분포 외 점수 매기기 및 데이터셋 감사 기능을 가능하게 한다. 프레임을 "얼마나 전형적인가"에 따라 순위 매기거나, 훈련 편향을 정량적으로 분석하거나, 로그 가능도를 하류 과학 모델에 연결할 수 있다.

STARFlow 대 티탄: 정면 대결

STARFlow는 OpenAI의 DALL·E 3, Google의 Imagen, 그리고 Midjourney가 지배하는 혼잡한 아레나에 등장하지만, 이들을 복사하려 하지는 않습니다. Apple은 단일한 정교한 소비자 앱 대신 원초적인 효율성, 개방성, 그리고 긴밀한 하드웨어 통합에 베팅하고 있습니다. 이는 Midjourney를 무너뜨리는 것보다는 플랫폼 전략에 가깝습니다.

간단한 대결은 이렇게 생겼습니다:

1핵심 기술: STARFlow는 정규화 흐름(normalizing flow)과 트랜스포머 하이브리드를 사용하고, DALL·E와 Imagen은 확산(diffusion)을 사용하며, Midjourney는 독자적인 확산 변형을 사용합니다.
2개방성: STARFlow는 GitHub에서 코드와 가중치와 함께 제공됩니다. 반면 DALL·E, Imagen, Midjourney는 모두 폐쇄 API 또는 Discord 봇으로 운영됩니다.
3성능 주장: 애플은 유사한 품질에서 확산보다 최대 10~15배 더 빠른 샘플링 속도를 인용합니다; 경쟁자들은 원시 단계 수가 아니라 품질과 생태계를 강조합니다.
4주요 사용 사례: STARFlow는 온디바이스 및 맞춤형 앱을 타겟으로 하며; DALL·E는 ChatGPT와 Azure 내에서 작동하고; Imagen은 Google Cloud와 Workspace 내에서, Midjourney는 창작자를 위한 Discord 내에서 운영됩니다.

애플의 독특한 강점은 효율성에 있습니다. STARFlow의 약 30억 개 매개변수를 가진 이미지 모델과 약 70억 개 매개변수를 가진 STARFlow-V 비디오 모델은 훨씬 적은 단계로 출력을 생성하여 지연 시간과 GPU 시간을 크게 줄입니다. 자신의 스택을 운영하는 스타트업, 독립 개발자, 연구소 등에게 이는 클라우드 비용 감소와 현실적인 온프레미스 배포로 직접 이어집니다.

OpenAI는 다중 모달 통합으로 대응합니다. DALL·E는 GPT-4o, 음성 및 도구와 직접 연결되어, 기업들이 이미지 생성을 챗봇, 지원 워크플로우, 내부 지식 기반에 몇 번의 API 호출만으로 통합할 수 있게 합니다. 가중치나 저수준 제어는 제공되지 않지만, 기업 계약, 서비스 수준 협약(SLA), 그리고 Microsoft의 Azure 인프라는 제공합니다.

구글의 이마젠은 생태계 잠금에 더욱 집중하고 있습니다. 이 서비스는 Vertex AI, 구글 포토, 및 워크스페이스 내부에 숨겨져 있으며, IT 부서들이 이미 그곳에 존재합니다. 모델 내부보다는 거버넌스, 데이터 거주지, 및 준수 사항을 더 중요하게 생각하는 대기업들에게는 “문서와 이메일이 이미 있는 곳에서 운영된다”는 것이 매번 GitHub 스타 수보다 더 우수합니다.

Midjourney는 여전히 미적 우위를 차지하고 있습니다. 조정된 확산 파이프라인, 커뮤니티 주도의 스타일, 그리고 디스코드 네이티브 워크플로우 덕분에 일러스트레이터, 컨셉 아티스트, 그리고 밈 제작자들에게 기본 선택지가 되고 있습니다. 당신은 재현 가능성과 개방성을 포기하고 분위기와 반복 속도를 선택합니다.

누가 이기는지는 당신이 누구인지에 달려 있습니다. 개발자와 오픈 소스 혁신가들은 STARFlow에서 가장 많은 혜택을 얻고 있습니다. 기업들은 여전히 OpenAI와 Google에 끌리고 있습니다. 아티스트들은 현재 Midjourney를 선택하고 있습니다. 일반 소비자들은 그들의 채팅 앱이나 휴대폰이 먼저 통합하는 곳으로 이동하며, 바로 그곳이 애플이 노리는 지점입니다.

왜 이것이 애플의 가장 중요한 AI 움직임인지

애플은 10년 동안 "AI"라는 단어를 사용하지 않으면서 기계 학습을 딥 퓨전, 페이스 ID, 그리고 장치 내 음성 인식과 같은 기능 뒤에 숨겨왔다. STARFlow는 그 가면을 벗긴다. 쿠퍼티노에서 개발된 30억 개의 매개변수를 가진 오픈 소스 최첨단 이미지 모델은 애플이 이제 조용한 최적화를 넘어 생성적 AI 테이블에 눈에 띄는 자리를 원한다는 신호다.

STARFlow는 Apple의 선호 AI 스택에 대한 선언서 역할도 합니다: 개인적이고, 효율적이며, 하드웨어에 최적화된. 대규모 클라우드 클러스터와 불투명한 API 대신, Apple은 데이터 센터 없이도 iPhone이나 MacBook에서 실행할 수 있도록 저지연, 저전력 추론에 최적화된 Apple 실리콘에서 가까운 모델에 베팅하고 있습니다.

그 철학은 Apple의 AR/VR에 대한 장기적인 야망과 거의 완벽하게 일치합니다. 실시간으로 3D 텍스처, 환경 또는 비디오 오버레이를 생성할 수 있는 미래의 Vision Pro는 50-100회의 확산 단계와 클라우드로의 왕복을 감당할 수 없습니다; 그것은 헤드셋의 M 시리즈 칩에 통합된 STARFlow의 거의 단일 패스 생성 및 10-15배 더 빠른 샘플링과 같은 것이 필요합니다.

개인 비서는 또 다른 명백한 목표입니다. 진정으로 유용한 Siri 후계자는 이미지를 합성하고, 짧은 클립 및 UI 목업을 즉석에서 생성해야 합니다. 슬라이드를 디자인하고, 레시피를 시각화하며, 방 배치를 모의해야 하며, 개인 사진이나 문서를 누출해서는 안 됩니다. STARFlow의 흐름 기반 가역 아키텍처는 Apple이 지역성을 유지하고 회사의 개인정보 보호 마케팅을 존중하는 다중 모드 비서를 개발할 수 있는 경로를 제공합니다.

크리에이티브 전문가들이 가장 먼저 영향을 받을 수 있습니다. Final Cut Pro, Logic Pro, 그리고 Xcode가 스토리보드 생성, B-롤, 컨셉 아트, 또는 UI 자산을 위한 STARFlow 스타일 모델을 통합하여 M3 Max에서 장치 내에서 모두 렌더링되는 모습을 상상해보세요. 애플의 효율성에 대한 집중은 편집자와 디자이너를 위한 더 많은 프레임, 더 높은 해상도, 그리고 더 긴밀한 피드백 루프로 직접 전환됩니다.

연구원과 엔지니어들에게 이 소식은 똑같이 강력한 메시지를 전달합니다. GitHub에서 코드와 가중치를 오픈 소스화함으로써 애플이 단순히 내부 프레임워크에 숨기는 것이 아니라 진지한 연구 결과를 다시 발표할 것임을 최고의 AI 인재들에게 알립니다. OpenAI, 구글, 메타가 arXiv를 지배하는 시대에, STARFlow는 애플을 단순한 세련된 하드웨어 회사가 아닌 신뢰할 수 있고 야심 찬 연구소로 자리매김하게 합니다.

다음 생성적 AI의 물결을 타는 방법

애플은 모든 이에게 생성적 AI의 다음 단계가 어떤 모습일지 엿볼 수 있는 기회를 제공했습니다: 더 빠르고, 더 저렴하며, 타인의 API에 의존하지 않는 모습입니다. STARFlow와 STARFlow-V는 완벽한 제품은 아니지만, 효율적인 아키텍처가 10–15배 낮은 샘플링 비용으로 무작정 확산을 저격할 수 있는 작업 청사진 역할을 하고 있습니다.

개발자들은 STARFlow GitHub 레포를 라이브러리가 아닌 실험실로 취급해야 합니다. 이 레포를 클론하고 제공된 Colab 또는 클라우드 설정을 실행하여 3B 매개변수 변환기 자기회귀 흐름이 512×512 또는 1024×1024 해상도에서 확산 기준선과 어떻게 작용하는지 프로파일링하세요.

기본 스크립트에 도전하세요. 자신의 오토인코더를 교체하고 저정밀 추론(FP16, 가능하면 INT8)으로 실험하며 RTX 3060/4060과 같은 소비자 GPU와 데이터 센터 카드의 지연 시간을 측정하세요. 이러한 실습 경험은 모든 RFP가 A100 서버가 없이 서브초 이미지 생성을 어떻게 수행할 수 있는지를 묻기 시작할 때 중요해질 것입니다.

제작자와 기업은 아직 터미널을 만질 필요는 없지만, 이 기술이 나타나는 곳을 주의 깊게 지켜봐야 합니다. “흐름 기반” 또는 “일단계” 생성으로 조용히 광고하고 기존 업체들을 가격으로 압도하는 도구의 물결이 올 것입니다:

1이미지당 비용
2첫 프레임까지의 시간
3로컬 또는 온프레미스 배포

디자인 스튜디오가 현재 Midjourney 또는 DALL‑E에 매달 수백 달러를 지불하고 있다면, 단일 워크스테이션 GPU 또는 소형 클라우드 인스턴스에서 작동하는 STARFlow 기반의 대안이 매우 매력적으로 다가올 것입니다.

정규화 흐름은 5년 전만 해도 특정 연구 주제였지만, 애플이 이를 다시 주목받게 만들었습니다. 이 접근 방식이 확장된다면, 다음 AI 무기 경쟁은 점점 더 큰 100B 파라미터 모델에서 ruthlessly 효율적인 3–10B 파라미터 시스템으로 전환될 것이며, 이는 노트북, 엣지 박스, 그리고 궁극적으로 아이폰에서 실행될 수 있습니다.

그 물결을 타는 것은 지금 효율성과 접근성을 최적화하는 것을 의미합니다: 더 작은 모델, 더 스마트한 아키텍처, 그리고 고객이 느리거나 불투명한 클라우드 전용 AI를 영원히 받아들이지 않을 것이라고 가정하는 비즈니스 모델입니다.

자주 묻는 질문

애플 STARFlow는 무엇인가요?

STARFlow는 애플이 개발한 오픈소스 이미지 및 비디오 생성 모델입니다. 이 모델은 정상화 흐름(normalizing flows)이라는 기술을 사용하여 기존의 확산 모델인 스테이블 디퓨전을 포함해 최대 15배 빠르고 효율적으로 고품질 비주얼을 생성합니다.

STARFlow가 DALL-E나 Midjourney보다 낫나요?

STARFlow는 현저히 더 빠르고 컴퓨팅 효율이 뛰어나며, 연구 기준에서 비교 가능한 품질을 제공합니다. 하지만 DALL-E와 Midjourney는 성숙하고 기능이 풍부한 제품인 반면, STARFlow는 현재 개발자를 위한 연구 미리보기로, 사용하기 위해서는 기술적 전문성이 필요합니다.

iPhone에서 STARFlow를 실행할 수 있나요?

아직입니다. 기본 기술은 미래의 디바이스 내 애플리케이션에 잘 맞지만, 현재 모델은 고급 서버 급 GPU를 필요로 합니다. 이 출시의 의미는 애플이 강력하고 로컬 중심의 생성 AI로 나아가는 전략적 방향을 제시하고 있다는 것입니다.

애플이 STARFlow를 오픈 소스화한 이유는 무엇인가요?

STARFlow를 출시함으로써 애플은 OpenAI 및 구글과 같은 경쟁자의 폐쇄된 생태계에 도전합니다. 개발자 커뮤니티에 힘을 주고 연구를 가속화하며, 애플을 오픈 소스 AI 분야의 주요 플레이어로 자리매김하게 하여 자사 하드웨어의 채택을 촉진할 수 있습니다.

𝕏 in ↑↗

Frequently Asked Questions

이 AI가 당신의 아이폰에 올까요?

애플의 최종 목표는 분명해 보입니다: 기기 내 AI가 즉각적이고, 개인적이며, 모든 아이폰, 아이패드 및 맥에 자연스럽게 통합되는 것입니다. STARFlow는 단순한 연구 성과가 아니라, 애플이 어떻게 생성 모델을 애플 실리콘에서 대규모 서버 농장에 의존하지 않고 운영하길 원하는지에 대한 청사진입니다.

애플 STARFlow는 무엇인가요?

STARFlow는 애플이 개발한 오픈소스 이미지 및 비디오 생성 모델입니다. 이 모델은 정상화 흐름이라는 기술을 사용하여 기존의 확산 모델인 스테이블 디퓨전을 포함해 최대 15배 빠르고 효율적으로 고품질 비주얼을 생성합니다.

STARFlow가 DALL-E나 Midjourney보다 낫나요?

iPhone에서 STARFlow를 실행할 수 있나요?

애플이 STARFlow를 오픈 소스화한 이유는 무엇인가요?

애플의 새로운 AI가 인터넷을 뒤흔들 것이다.

TL;DR / Key Takeaways

애플이 AI의 규칙을 바꿨습니다.

15배 빠름: 과대광고 뒤의 기술

확산을 잊어라, 미래는 '흐름'이다

오픈AI 왕국에 대한 오픈 소스 공격

누구도 이야기하지 않는 함정이 있습니다.

이 AI가 당신의 아이폰에 올까요?

지금 STARFlow로 만들 수 있는 것

STARFlow 대 티탄: 정면 대결

왜 이것이 애플의 가장 중요한 AI 움직임인지

다음 생성적 AI의 물결을 타는 방법

자주 묻는 질문

애플 STARFlow는 무엇인가요?

STARFlow가 DALL-E나 Midjourney보다 낫나요?

iPhone에서 STARFlow를 실행할 수 있나요?

애플이 STARFlow를 오픈 소스화한 이유는 무엇인가요?

Frequently Asked Questions

Read Next

Anthropic의 새로운 에이전트, 노코드(No-Code)를 끝장내다

이 도구는 혼란스러운 AI 에이전트를 길들입니다

AI의 완벽한 기억력이 도착했습니다

Stay Ahead of the AI Curve