왜 '더 스마트한' AI 로봇들이 실패하고 있는가

연구자들은 정교하게 조정된 AI가 슈퍼 로봇을 만들어낼 것으로 기대했지만, 결과는 충격적인 실패였다. 진실은 지능형 기계를 제작하는 우리의 접근 방식에 근본적인 결함이 있음을 드러낸다.

Stork.AI
Hero image for: 왜 '더 스마트한' AI 로봇들이 실패하고 있는가
💡

TL;DR / Key Takeaways

연구자들은 정교하게 조정된 AI가 슈퍼 로봇을 만들어낼 것으로 기대했지만, 결과는 충격적인 실패였다. 진실은 지능형 기계를 제작하는 우리의 접근 방식에 근본적인 결함이 있음을 드러낸다.

연구실에서의 충격적인 발견

최근 유튜브에서 진행된 웨스와 딜런의 인터뷰에서 충격적인 결과가 나왔습니다. 연구자들은 로봇 공학의 핵심 가정을 뒤흔드는 실험실 발견에 대해 설명했습니다. “우수한 로봇 모델”로 세심하게 조정된 모델들이 새로운 작업에서 표준 기준선보다 더 나은 성능을 발휘하지 못했습니다. 이 시스템들은 올바른 레이블을 가지고 있었고, 올바른 데이터를 보유하고 있었음에도 불구하고 여전히 실패했습니다.

팀은 현재 AI 플레이북에서 권장하는 대로 진행했습니다: 대형 모델을 가져온 다음, 그것을 도메인 특화 데이터로 전문화하는 것입니다. 이 경우, 그들은 특정 로봇과 작업에서 로봇 궤적, 센서 스트림 및 제어 신호를 모델에 입력했습니다. 이론적으로 이는 로봇과 관련된 모든 작업에서 일반 모델보다 성능이 뛰어난 전문 모델을 생성해야 합니다.

현실은 다르게 나왔다. 연구자들이 약간 다른 로봇 설정—새로운 팔, 새로운 물체, 조정된 환경—에서 이러한 세밀하게 조정된 모델을 평가했을 때, 모델들은 측정 가능한 개선을 보이지 않았다. 이들은 단순히 기대 이하였던 것이 아니라, 새로운 작업에서 초점 없는 일반 목적 모델들과 사실상 구별되지 않는 수준이었다.

인터뷰에서의 설명은 직설적이다: 모델은 "다양한 유형의 로봇 데이터"로 훈련되었으며, 그 구체성은 촉진제가 아닌 감옥이 되었다. 제한된 로봇 분야에서 훈련한 것은 모델이 그 정확한 분야에서만 더 나아지게 만들었다. 게스트가 말했듯이, "당연히 일반화가 조금은 되겠다고 생각할 수 있지만, 그렇지 않았다."

그 문장은 현장 내의 충격을 포착합니다. 현대 AI는 더 많은 데이터, 더 많은 매개변수, 도메인 특화된 미세 조정이 광범위한 능력으로 이어진다는 약속 아래 판매되었습니다. 그러나 이 연구는 최소한 로봇 공학에서는 "로봇 데이터"에 대한 미세 조정이 모델을 한 연구실의 하드웨어, 하나의 작업, 하나의 관절 및 모터 배열에 고정시킬 수 있다는 것을 제시합니다.

연구자들은 이는 변할 수 있다고 강조합니다; 미래의 아키텍처나 훈련 방식이 과적합의 함정에서 벗어날 수도 있습니다. 현재로서는 논문의 결과가 유지됩니다: 로봇을 위한 특화된 AI는 "약간 다른" 로봇 작업들 사이에서도 일반화되지 않았습니다. 이 실패는 이 이야기의 나머지 부분에 대해 더 어려운 질문을 제기합니다: 왜 더 똑똑하게 보이는 로봇 모델들이 실패했으며, 이것이 신체화된 AI 시스템의 미래에 대해 무엇을 의미하는가?

버그가 아니라 기능입니다.

일러스트: 버그가 아니라, 기능입니다
일러스트: 버그가 아니라, 기능입니다

스마트 로봇들은 여기에서 실패했습니다. 그들의 "지능"은 레이저처럼 구체적이었기 때문입니다. Wes와 Dylan의 인터뷰 논문에서 세부 조정된 "로봇" 모델은 좁고 매우 특정한 데이터셋에 대해 훈련되었습니다. 하나의 팔, 하나의 카메라 설정, 하나의 동작 스타일로 구성된 모델들이며, 그 정확한 구성에서만 향상되었고 다른 로봇이나 작업에서 평가했을 때 일반 모델에 비해 측정 가능한 이득을 보이지 않았습니다.

이것은 무작위 버그가 아니라 현재 파인튜닝 파이프라인의 전형적인 특징입니다. 연구자들이 모델에 로봇 데이터의 한 종류만을 공급했을 때, 네트워크는 그 종류만을 학습하고 "로봇이 움직이는 방식"이라는 기본 아이디어는 배우지 못했습니다. 그 결과는 데이터를 생성한 실험실에서는 강력해 보였지만 다른 곳에서는 취약하게 나타나, 모델이 세계 대신 기준을 최적화했다는 전형적인 징후였습니다.

웨스와 딜런은 처음에는 기계들에게 관대하게 들리는 인간의 비유를 활용합니다. 인간의 뇌를 근본적으로 다른 몸으로 이식한다고 상상해보세요—추가적인 팔다리, 수정된 관절, 새로운 무게 분포. 우리의 폭넓은 운동 지능이 있더라도, 그 뇌는 걷고, 잡고, 균형을 잡는 방법을 다시 배우는데 몇 주 또는 몇 달이 걸릴 것입니다.

현재의 AI는 그 불안정한 적응 단계조차 도달하지 못합니다. 하나의 로봇 팔에 맞게 조정된 모델을 다른 도달 범위나 그리퍼를 가진 로봇 팔로 옮기면 성능이 즉시 무너집니다. 어색한 학습 기간도, 점진적인 이전도 없이, 그냥 완전한 실패가 발생합니다. 왜냐하면 시스템은 처음부터 "팔"이라는 일반적인 개념을 갖고 있지 않았기 때문입니다.

로봇 공학 연구자들은 이를 과적합이라고 부릅니다. 모델은 훈련 로그에서 궤적, 픽셀 패턴 및 제어 신호를 암기하는 대신, 역학, 마찰 또는 3D 기하학에 대한 보편적인 규칙을 추출하지 못합니다. 이는 정답지를 외울 수 있지만 약간 바뀐 문제를 해결할 수 없는 학생처럼 행동합니다.

로봇 공학 맥락에서 오버피팅은 조건이 변할 때 나타납니다: 새로운 카메라 각도, 다른 조명, 변경된 하중, 또는 새로운 로봇 모델. 세밀하게 조정된 시스템은 다음에서 뛰어납니다: - 그 특정 실험실 로봇 - 그 특정 작업 - 그 특정 환경

그 중 어떤 하나라도 바꾸면 이익이 사라지고, 현재의 방법들이 실제로 자신의 몸을 이해하는 로봇과 얼마나 거리가 먼지를 드러냅니다.

공장 너머: AI의 독특한 슈퍼파워

로봇의 일반화 실패는 극적으로 들리지만, 전문화는 실제로 많은 AI의 큰 성과를 이끌고 있습니다. 좁고 깊이 조정된 시스템은 종종 일반 목적 모델을 자신의 영역 내에서 압도하지만, 그 영역을 벗어나면 바로 무너집니다.

의료 분야는 이러한 트레이드오프를 극명하게 드러냅니다. 구글의 Med-PaLM 2는 미국 의사 면허 시험 스타일의 질문에서 86.5%의 정확도를 기록하며, 불분명한 증후군, 실험실 수치 및 임상 경계 사례로 고전했던 이전의 일반 모델을 넘어섰습니다. 이러한 향상은 일반 웹 텍스트가 아닌 의학 교과서, 지침 및 전문가가 선별한 데이터에 대한 훈련에서 비롯되었습니다.

Med-PaLM 2는 증상, 영상, 치료 옵션에 대해 다단계 추론을 할 수 있습니다. 왜냐하면 그 세계는 의학이기 때문입니다. 대중 문화를 물어보면 어색해하고, 복잡한 ECG를 해석해 달라고 하면 마치 결코 병원을 떠나지 않는 전공의처럼 행동합니다.

금융 분야에서도 유사한 이야기가 전해집니다. BloombergGPT는 500억 개의 매개변수를 가진 모델로, 감정 분석, 뉴스 분류, 실적 보고서 및 SEC 제출 문서에 대한 질문 답변과 같은 금융 작업에서 더 크고 유명한 일반 LLM보다 뛰어난 성능을 보입니다. 수십 년에 걸친 단말기 데이터와 금융 문서에 대한 도메인 특화 사전 훈련을 통해 원시 언어 모델링이 집중화된 시장 분석기로 변모하게 됩니다.

블룸버그GPT는 보편적인 어시스턴트가 되려고 하지 않으며, 기준 포인트와 기준 리스크에 따라 존재합니다. 이러한 제한된 접근 방식은 영화 퀴즈나 창작 글쓰기보다 채권 계약과 CDS 스프레드에 더 많은 관심을 가질 때 이점이 됩니다.

농업은 전문화를 더욱 심화시킵니다. 쌀 연구자들은 지역별 해충과 질병의 수천 장 이미지를 기반으로 로컬 비전 모델을 훈련시켰습니다. 이는 동남아시아의 갈색 혹파리, 인도의 세균성 잎 마름병, 중국의 덮개 곰팡이병을 포함합니다. 이러한 모델은 해당 해충, 조명 조건, 성장 단계에 대해 전혀 경험이 없는 일반 비전 시스템을 지속적으로 능가합니다.

이 시스템을 사용하는 농부들은 일반적인 “식물 질병” 분류기보다 발병에 대한 더 빠르고 정확한 경고를 받습니다. 이 AI는 다양한 것을 접해본 세계 여행자가 아니라 수십 년 동안 같은 밭을 걸어온 마을 농학자처럼 행동합니다.

로봇 공학 분야에서 이러한 예시들은 일반적인 모델이 폭넓은 추론을 제공하고 도메인 전문가가 실행을 처리하는 미래의 가능성을 암시합니다. 이는 로봇 공학: 일반화 vs 전문화 - 콘보이 VC에서 탐구한 패턴입니다. 실험실에서의 놀라움은 전문가가 존재한다는 것이 아니라, 지금까지 “로봇” 세부 조정이 로봇공학자가 아닌 기술자를 만들어냈다는 점입니다.

종합적인 자사의 승부: 모든 것을 지배할 단 하나의 AI?

일반ist 기초 모델은 일종의 로봇 에스페란토를 약속합니다: 어떤 몸체도 움직일 수 있는 하나의 뇌. 카메라 피드, 관절 각도, 텍스트를 통해 거대한 멀티모달 모델을 훈련시킨 후, 약간의 미세 조정만으로 창고 피커, 배달 봇 또는 휴머노이드에 적용합니다. 이론적으로, 대규모 재사용, 빠른 배포 및 덜 결함이 있는 일회성 시스템을 얻을 수 있습니다.

대형 연구소들은 이미 이를 추구하고 있습니다. 창고 파일럿은 수십 개의 로봇 팔과 그리퍼를 통해 사전 훈련된 일반 모델과 단일 컨베이어 벨트를 위한 맞춤형 컨트롤러를 조용히 대결시킵니다. 연구 그룹들은 수백만 개의 경로와 유튜브 비디오로부터 학습하는 "확장 가능한 AI"에 대해 이야기하며, 같은 정책이 상자를 쌓고, 세탁물에 접고, 언젠가는 자동차를 운전할 수 있기를 희망합니다.

“로봇 두뇌”를 판매하는 스타트업들은 바로 이것을 제안합니다: 그들의 기초 모델을 어떤 모바일 베이스나 팔에 연결하고 그것이 적응하는 모습을 지켜보세요. 하드웨어 팀들은 이 아이디어를 좋아합니다. 왜냐하면 기계 설계를 소프트웨어와 분리할 수 있기 때문입니다; 그리퍼를 교체하더라도 두뇌는 그대로 유지됩니다. 투자자들은 이 이야기를 더욱 좋아합니다. 왜냐하면 한 가지 모델이 여러 대에 걸쳐 확장될 수 있다는 것은 SaaS 마진 같은 냄새를 풍기기 때문입니다.

마유르는 단일하고 모든 것을 아는 통제자의 환상에 냉수 한 바가지를 부어냅니다. 그는 AGI를 추구하는 것이 인간과 기계 모두에서 작업 특정 지능의 잔인한 효율성을 간과할 위험이 있다고 주장합니다. 30,000개의 피부 사례를 읽는 피부과 의사는 심장 전문의가 되지 않으며, 피부암 탐지에 맞춰 조정된 모델은 피부과 의사의 수준의 정확성을 보이지만, 심장병에서는 완전히 실패합니다.

로봇 공학도 같은 패턴을 보입니다. 한 창고의 SKU와 조명에서 훈련된 비전 모델은 해당 층의 일반 모델을 능가할 수 있지만, 쌀밭이나 병원 복도에서는 제대로 작동하지 않습니다. 마유르의 요점은: 전문화는 결점이 아니라, 복잡한 시스템—두뇌나 네트워크—이 실제로 초인적인 성능에 도달하는 방법입니다.

그래서 이 분야는 단층선 위에 있습니다. 한 진영은 인간형 로봇부터 포크리프트까지 모든 것을 운영하는 단일 일반 모델을 원하고 있습니다. 반면 다른 진영은 현실의 한 좁은 영역에서 무서울 정도로 뛰어난 능력을 가진 하이퍼 전문화된 전문가들로 구성된 군집을 상상하고 있으며, 이들은 통합된 마음처럼 보이도록 결합되어 있습니다.

창고 전쟁: 궁극의 AI 검증 장소

일러스트: 창고 전쟁: 궁극의 AI 검증 장소
일러스트: 창고 전쟁: 궁극의 AI 검증 장소

창고는 일반ist전문가 로봇의 케이지 매치가 되었습니다. 컨베이어 벨트, 팔레트 잭, 바코드 스캐너가 로봇팔, 이동식 카트, 실험적인 휴머노이드와 함께 자리를 차지하며 같은 상자를 더 빠르고 저렴하게 옮기기 위해 경쟁하고 있습니다.

이론적으로 모든 분야에 걸쳐 운영되는 일반 지능 AI는 무적처럼 들린다. 수백만 개의 비디오, 시뮬레이션 실행, 및 제어 로그로 사전 학습된 하나의 기초 모델이 약간의 세부 조정만으로도 어떤 포크리프트, 팔, 또는 드론도 운전할 수 있을 것이다.

현실은 더 거칠어 보입니다. 창고는 엉망이고 반혼란스러운 시스템입니다: 팔레트는 잘못 포장되어 도착하고, 상자는 처지고, 라벨은 벗겨지며, 사람들은 휴대폰을 확인하면서 로봇 경로로 걸어 들어갑니다. 벤치마크 기준을 완벽하게 통과하는 일반 모델들은 찌그러진 상자나 깊이 추정을 혼란스럽게 만드는 반사성 수축 포장에 종종 어려움을 겪습니다.

전문가들은 여기에서 디자인으로 속임수를 써서 성공을 거둡니다. 아마존의 키바 스타일 로봇은 창고를 “이해”하지 않습니다; 그들은 바닥의 QR 코드를 따라가고, 표준화된 팟을 이동시키며, 중간에 바나나 박스가 무너지는 일은 없습니다.

이러한 제약은 성과를 냅니다. 단일 작업을 위한 맞춤형 시스템—토트 셔틀, 자동 저장 및 검색 시스템, 고정 픽 암—은 가동 시간을 99% 이상으로 유지하고 몇 년 동안 소프트웨어 업데이트를 최소화하며 작동합니다. 엔지니어들은 이를 일정한 무게, 형태 및 경로에 맞춰 조정한 다음 모든 것을 고정합니다.

일반ist 창고 AI는 그 반대, 즉 유연성을 우선시합니다. 이론적으로 단일 모델이 할 수 있는 것은 다음과 같습니다: - 다양한 브랜드의 모바일 베이스 구동 - 여러 종류의 그리퍼 제어 - 피킹, 포장 및 팔레타이징 간 전환

그 유연성은 계절적 수요 급증, SKU 변화, 레이아웃 변경을 조정하는 운영자들에게 매력적입니다. 하드웨어를 재설계하거나 각 셀을 재프로그램하는 대신, 정책을 업데이트하고 몇 시간의 원격 조정 시연을 추가한 다음, 전체 함대에 재배치하면 됩니다.

비즈니스 수학은 여전히 일상적인 작업에 대해 전문인을 선호합니다. 간단하고 단일 목적의 로봇 군은 초기 비용이 적고, 기존 WMS 소프트웨어와 빠르게 통합되며, 5-10년 동안 예측 가능한 ROI를 제공합니다. 오늘날 일반인이 처리할 수 있는 모든 놀라움은 데이터 수집, 검증 및 안전 보증에서 여전히 비용이 발생합니다.

따라서 창고는 시험장이 된다: 만약 일반 AI가 콘크리트 바닥에서 Kiva 클론을 능가하지 못한다면, 더 이국적인 환경에서의 가능성은 불확실해 보인다.

인간의 뇌는 일반화하지 않는데, AI는 왜 해야 할까요?

인간의 지능은 종종 무한히 유연한 것으로 이상화되지만, 인지 과학은 더 제한적인 그림을 그립니다. 우리는 순수한 범지식인으로서가 아니라, 층층이 쌓인 전문가들로서 뛰어납니다: 공유된 기초 위에 구축된 좁은 전문성의 층들. 세계적인 심장병 의사에게 동맥류를 잘라달라고 요청하면 할인된 신경외과 의사를 받는 것이 아니라, 면책 동의서를 받게 됩니다.

의학은 이 현실을 공식화합니다. 심장병 전문의, 신경외과 의사, 방사선 전문의는 모두 동일한 초기 시험을 통과하지만, 이후 압박이 가해졌을 때 전이할 수 없는 기술로 갈라집니다. 고위험 성과는 깊이에서 나오지, 넓이에서 나오지 않으며, 이는 하나의 로봇 팔 구성에 맞춰 조정된 로봇 모델이 “로봇” 훈련에도 불구하고 다른 구성에서는 실패하는 것과 유사합니다.

소프트웨어는 동일한 분할을 제공합니다. 대규모 분산 시스템을 최적화할 수 있는 백엔드 엔지니어가 자동으로 접근성이 뛰어나고 매력적인 인터페이스를 설계하지는 않습니다. UI/UX 디자이너는 인식, 흐름 및 마이크로카피에 전문화되어 있으며, 코더는 시스템, 제약사항 및 성능에 전문화되어 있습니다. 두 역할 모두 일반 지능 위에 위치하지만, 그들의 일상적인 역량은 매우 도메인 특화되어 있습니다.

AI 시스템은 이미 이 패턴에 통합되어 있습니다. UX 전문가가 코드 생성 모델에 지시를 내리면 일반적인 이해관계자보다 훨씬 더 적절한 구성 요소 계층, 접근성 훅 및 상호작용 상태로 이끌 수 있습니다. 병원에서는 임상의들이 Med-PaLM 2와 같은 모델을 사용하여 의료 데이터에 맞춰 조정된 후, 인적 전문성을 추가합니다: 심장 전문의는 심장학을, 종양 전문의는 종양학을 질의합니다.

로봇 공학도 같은 방향으로 나아가고 있습니다. 일반ist 기초 모델은 로봇 간의 유연성을 약속하지만, 신뢰성과 비용이 중요할 때는 여전히 전문성이 지배적입니다. 예를 들어, 창고 운영자들은 이제 광범위한 모델과 세밀하게 조정된 픽 앤 플레이스 시스템을 비교하고 있습니다; Plus One Robotics는 일반적 모델 대 전문적 모델: 창고에서 AI 모델 테스트에서 이러한 긴장을 문서화했습니다.

AGI 담론은 종종 시에서 단백질 접히기에 이르기까지 모든 것을 마스터하는 미래의 “만능지식인”을 가정합니다. 그러나 인간의 실천은 다른 기준을 제시합니다: 진정한 지능은 단일 전지전능한 뇌가 아니라, 전문화해야 할 시기와 장소, 방법을 아는 조정자와 더 유사할 수 있습니다. 가장 스마트한 시스템은 모든 작업을 수행하는 것이 아니라, 각 작업을 가장 좁고 날카로운 도구로 연결하는 시스템입니다.

테슬라 봇 vs. 룸바 패러독스

테슬라의 옵티머스와 같은 휴머노이드 로봇은 공상과학의 미래를 약속합니다: 어떤 공장, 사무실 또는 가정에도 들어가서 일할 수 있는 이족 보행 기계 하나. 하드웨어는 인간의 신체를 반영합니다—손, 팔, 다리, 센서가 대략 5피트 8인치 크기의 틀에 담겨 있으므로 이론적으로는 하나의 범용 AI 두뇌가 사람이 할 수 있는 거의 모든 작업을 학습할 수 있습니다. 그 비전은 전신 협응, 실시간 인식, 정교한 조작을 요구하며, 모두 비싼 액추에이터, 맞춤형 기어박스, 고급 컴퓨팅을 기반으로 운영됩니다.

룸바는 정반대의 선택을 한다. 아이로봇의 원형 진공청소기는 계단, 접시, 문손잡이를 무시하고 단일한 제한된 문제에 집중한다: 바닥을 깨끗하게 유지하는 것. 몇 개의 충돌 감지 센서, 깊이 카메라, 저렴한 CPU가 수백만 개의 가정에서 작동하는 제한된 내비게이션 시스템을 구동하며, 가격은 300달러 이내로, 고장 모드는 너무 예측 가능하여 문제 해결 안내서에 담길 수 있다.

휴먼로이드 하드웨어는 적응성을 추구합니다. 옵티머스는 문을 열고, 계단을 오르고, 상자를 나르며, 어쩌면 햄버거를 굽는 등의 작업을 해야 하며, 이는 로봇을 위해 설계되지 않은 혼잡한 인간 공간에서 이루어져야 합니다. 이를 위해 고급 인식 모델, 전신 동작 계획, 그리고 즉각적으로 적응할 수 있는 안전 영역이 필요합니다. 본질적으로는 무수히 많은 엣지 케이스에 일반화해야 하는 기본 모델을 위한 이동 테스트베드입니다.

특수화된 기계는 반대로 엣지 케이스를 제거합니다. 로봇 청소기 로omba는 평평한 표면에만 국한됩니다. 아마존의 키바 스타일 창고 로봇은 매끄러운 바닥에서 미끄러지며 QR 코드를 따라가고 표준화된 선반을 들어 올립니다. 로봇 주위의 환경을 설계함으로써—고정된 레이아웃, 알려진 하중, 좁은 행동—기업들은 이론적인 유연성을 보장된 처리량, 가동 시간 및 쉬운 유지 관리로 바꿉니다.

현재 시장은 그러한 거래에 보상을 하고 있습니다. 선반에 물건을 채우고, 트럭을 하역하며, 바닥을 청소할 수 있는 인간형 로봇은 단위당 수만 달러에 지속적인 소프트웨어 업데이트가 필요하며, 고장률도 불확실합니다. 반면, 단일 목적의 팔레트 이동기나 바닥 청소기는 통제된 환경에서 99% 이상의 작업 성공률을 기록할 수 있으며, 자본 지출의 분수로 명확한 서비스 계약과 투자 수익률 시트가 있습니다.

일반적인 휴머노이드가 시간당 비용, 평균 고장 시간, 통합 마찰 등에서 이러한 보증을 능가할 수 있을 때까지는, 로omba 스타일의 전문 로봇들이 실제 세계 배치 전쟁에서 계속 승리할 것입니다.

내일의 AI 생태계 구축

일러스트레이션: 내일의 AI 생태계 구축
일러스트레이션: 내일의 AI 생태계 구축

하이브리드 AI는 이제 단일 천재 두뇌처럼 보이기보다 플러그인 앱이 있는 운영 체제처럼 보이기 시작하고 있습니다. 모든 것을 하나의 전지전능한 모델에 베팅하는 대신, 기업들은 서로 다른 AI들이 계획, 인식 및 제어를 모듈형 서비스처럼 처리하는 스택을 구축하고 있습니다.

중심에는 디스패처이자 전략가 역할을 하는 일반화 모델이 자리잡고 있습니다. 이 모델은 복잡한 인간의 목표를 해석하고, 여러 분야에 걸쳐 논리를 전개한 후, 실제로 세상에 영향을 미치는 전문 모델에게 구체적으로 정의된 작업을 전달합니다.

전 세계 물류 네트워크를 운영하는 종합 계획 AI를 상상해 보세요. 이 AI는 귀하의 소포를 어느 창고에서 배송할지, 주문을 어떻게 묶을지, 어떤 운송업체를 사용할지 결정하고, 나아가 지역별 모델에 연결하여 해당 지역의 교통 법규, 도로 사용 규칙, 심지어 이웃 배송 관행까지 파악합니다.

이러한 지역 모델은 엣지에 가까이 위치한 소규모 미세 조정된 LLM일 수 있습니다. 도쿄 배달 모델은 촘촘한 철도 네트워크와 엄격한 주차 단속을 활용하도록 학습하며, 피닉스 모델은 열, 넓은 도로 및 광활한 교외 지역을 중심으로 최적화됩니다.

이 시스템은 더욱 확장할 수 있습니다. 고급 에이전트가 고객과 배달 시간을 협상하고, 경로 전문가는 도로 수준의 경로를 계산하며, 저급 제어 모델은 각자 자신의 센서 특성과 실패 모드에 맞춰 훈련된 보행로 로봇이나 드론과 직접 소통합니다.

이 모듈식 접근법은 Med-PaLM 2나 BloombergGPT가 구축된 방식과 유사합니다: 폭넓은 기반에서 시작하여, 의학이나 금융 분야에서 벤치마크를 초과 달성하는 전문 지식을 세분화합니다. 지금의 차이점은 조정 방식입니다—AI로 만들어진 연결 코드가 사람 대신 도구를 수동으로 전환하는 역할을 합니다.

하이브리드 생태계는 로봇 공학의 가장 큰 고민 중 하나인 취약성을 해결합니다. 창고 레이아웃이 변경되거나 도시가 구역 규칙을 수정할 때, 모든 것을 아는 단일한 시스템을 다시 훈련시키는 대신 전문가를 업데이트하거나 교체할 수 있습니다.

판매자들은 이미 이 패턴을 조용히 배송하고 있습니다. 농업 플랫폼은 전반적인 계획자를 통해 농장 전반의 결정을 내리고, 이후 특정 작물에 맞는 질병 모델이나 특정 지역이나 심지어 하나의 밭에 맞춰 조정된 토양 분석 엔진을 호출합니다.

바닥을 닦고 계약서를 작성할 수 있는 공상과학적인 일반 로봇을 쫓기보다는, 이 건축은 실제 AI가 연합체처럼 보일 것이라는 점을 받아들입니다. 폭넓은 기능은 파견자에게 있으며, 깊이는 그가 지휘하는 전문 집단에 있습니다.

올바른 AI 말을 선택하는 방법

올바른 AI 전략 선택은 단일한 신과 같은 모델의 유혹을 무시하는 것에서 시작됩니다. 모든 프로세스, 모든 로봇, 모든 업무 흐름을 수행하는 AGI 스타일 시스템은 여전히 연구 프로젝트이지 IT 로드맵이 아닙니다. 그 순간을 기다리는 기업들은 경쟁사들이 조용히 마진을 자동화하는 동안 정체됩니다.

실제 수익은 좁고 고부가가치의 워크플로우에 존재합니다. 특정 제품 라인에서 결함을 발견하거나, 창고의 한 가지 경로 문제를 최적화하거나, 한 종류의 법률 계약서를 작성하는 모델은 "일반 지능"을 해결하지 않고도 10-50%의 효율성 향상을 가져올 수 있습니다. Med-PaLM 2가 의료 시험에서 86.5%를 기록하거나 BloombergGPT가 더 큰 일반 모델을 금융 분야에서 초월하는 것은 도메인 조정이 일반적인 능력을 구체적인 이점으로 전환하는 방법을 보여줍니다.

실용적인 플레이북은 모듈식으로 구성됩니다. 탐색을 위해 대규모의 일반 모델을 사용하여 여러 작업과 로봇에 대해 후보 워크플로우, 시뮬레이션 정책 및 UI 프로토타입을 생성하게 합니다. 그런 다음, 생산을 위해 귀하의 정확한 데이터, 센서 및 제약 조건에 맞춰 전문가 모델을 미세 조정하여 최종 승자를 확정짓습니다.

이것은 일반적으로 세 가지 병렬 트랙을 의미합니다: - 브레인스토밍과 빠른 반복을 위한 폭넓은 기본 모델 - 세분화된 작업 모델 세트 (선택, 라우팅, 예측, 우선순위 지정) - 모니터링, 가드레일, 롤백이 포함된 강력한 배포 스택

로봇 팀은 이 패턴을 복사할 수 있습니다. 여러 개의 팔이나 이동식 베이스에서 작동하는 일반적인 제어 모델로 프로토타입 행동을 구현합니다. 작업이 ROI를 입증하면—예를 들어 특정 팔레트를 언로드 하거나 한 제품의 부품 키팅을 수행할 때—유연성을 속도, 안전성 및 신뢰성과 교환하여 더 작고 작업에 고정된 컨트롤러를 개발합니다.

투자자들은 과대선전이 아닌 데이터가 집중되는 곳을 추적해야 합니다. 밀집된, 라벨이 붙은, 반복적인 작업 흐름이 있는 분야—물류, 방사선학, 보험 청구, 정밀 농업—에서는 지역적 특례를 잘 이해하고 일반 전문가보다 더 빨리 배우는 전문가들이 유리합니다. AI에서 일반성과 전문성은? 같은 자료는 이 차이를 파악하고 실현 가능한 니치 시장과 허세 프로젝트를 구분하는 데 도움을 줍니다.

성공은 일반 모델을 스캐폴딩으로 취급하는 팀에게 돌아갈 것입니다. 이를 활용하여 문제 공간을 빠르게 탐색한 후, 그 지식을 더 작고 저렴하며 단순하게 집중화된 시스템으로 압축해야 합니다. 이 시스템은 한 가지를 수행하며, 그 일로 수익을 만들어냅니다.

미래는 하나의 큰 두뇌가 아니라 팀이다.

그러한 "로봇 같은" 세밀하게 조정된 모델의 실패는 몇몇 벤치마크 차트에서의 망신을 초래한 것에 그치지 않았다; 그것은 단일하고 모든 것을 아는 로봇 두뇌의 환상을 조용히 죽였다. 좁고 매우 특정한 데이터로 훈련된 결과, 그들은 하나의 설정, 하나의 팔, 하나의 동작 패턴에 대해 뛰어난 성능을 발휘했지만 다른 곳에서는 쓸모가 없게 되었다. 우리는 보편적인 기계가 아니라 오직 하나의 조립 라인에서 하나의 볼트를 조이는 방법만 아는 로봇을 만든 것이다.

그 결과는 전체 로봇 공학 agenda를 재구성합니다. "로봇 공학 데이터"에 대한 미세 조정은 로봇 공학 전문가를 만드는 것이 아니라, 특정 작업에 특화된 천재를 만들었습니다. 이 발견은 AI 전반에 걸쳐 울려 퍼집니다: Med-PaLM 2는 의료 시험에서 86.5%를 기록하고 BloombergGPT는 더 큰 일반 모델을 금융 분야에서 초월하지만, 각 모델은 자신의 영역을 벗어나면 무너집니다.

일반ist 기본 모델은 여전히 중요하지만 이제는 전지전능한 존재들이 아닌 오케스트레이터처럼 보입니다. 다양한 영역에서 대화하고, 계획하며, 추론할 수 있는 큰 모델은 전체 오케스트라가 아닌 지휘자가 됩니다. 진정한 힘은 창고, 농작물 또는 중환자실 모니터에 대한 깊은 이해를 가진 더 작고 날카로운 에이전트에게 작업을 배분할 때 나옵니다.

미래의 로봇 스택을 팀 스포츠로 생각해 보세요. 한 모델은 높은 수준의 목표, 안전 규칙 및 언어를 이해하고, 또 다른 모델은 6-자유도 팔을 팔레트 랙 주변에서 움직이는 방법을 정확히 알고 있으며, 세 번째 모델은 지역 교통, 노동 및 에너지 가격을 활용하여 실시간으로 경로를 최적화합니다. 각 에이전트는 전문화되어 있고, 일반형 에이전트는 플레이북을 일관되게 유지합니다.

그 하이브리드 패턴은 이미 로봇 공학 외부에서도 나타나고 있습니다. 물류 기업들은 경로 및 재고 데이터를 기반으로 지역 LLM을 세밀하게 조정하여 정시 배송 면에서 일반 모델을 초월하고 있습니다. 농업 시스템은 광범위한 비전 모델과 벼 재배 전문가를 결합하여 글로벌 데이터셋보다 더 정확하게 지역 해충을 식별합니다.

인간 지능도 같은 방향을 가리킵니다. 사람들은 종양학, 드론 조종, 세법에서 동시에 세계적 수준이 되지 않습니다; 그들은 팀을 형성합니다. 이러한 구조를 반영하는 AI—모듈화되고 전문화되며 조정된—는 어떤 단일한 "상자 속의 AGI"보다 더 잘 확장될 것입니다.

이 지도에 따라 실제 배치가 이루어질 것으로 기대합니다. 농장, 병원, 공장은 일반 계획자가 작물 살포 드론부터 수술 보조 로봇에 이르는 분야 맞춤형 에이전트에게 위임하는 계층화된 시스템에서 운영될 것입니다. 로봇 공학에서 AI의 미래는 하나의 큰 두뇌가 아니라, 긴밀하게 조정된 군집입니다.

자주 묻는 질문

전문 AI 모델이 일반 모델보다 종종 더 나은 이유는 무엇인가요?

그들은 특정한 데이터에 대해 단일 작업을 위해 훈련되어, 관련 없는 정보의 노이즈를 피함으로써 그 좁은 영역에서 초인적인 성능과 신뢰성을 달성할 수 있습니다.

연구에서 로봇 공학에서 AI에 대한 주요 발견은 무엇인가요?

주요 발견은 일반 '로봇 데이터'에 대한 모델의 미세 조정이 모든 로봇 작업에서 모델 성능을 향상시키지 않는다는 점입니다. 오히려 이는 훈련받은 정확한 데이터 유형에 대해서만 성능을 개선하며, 전반적인 일반화 능력이 부족함을 보여줍니다.

AI는 항상 전문화될까요?

미래는 하이브리드 방식을 포함할 가능성이 높습니다. 일반적인 기반 모델은 폭넓은 추론을 제공하는 반면, 일반 모델에서 세밀하게 조정된 전문 모델은 특정 작업을 더 높은 정확성과 효율성으로 처리할 것입니다.

휴머노이드 로봇과 전문화된 로봇의 차이는 무엇인가요?

휴머노이드 로봇(테슬라 봇 같은)은 다양한 작업에서 인간 환경에서 작동하도록 설계된 범용 로봇입니다. 전문 로봇(룸바나 공장 암처럼)은 특정 작업에서 최대 효율성과 신뢰성을 위해 설계되었습니다.

Frequently Asked Questions

종합적인 자사의 승부: 모든 것을 지배할 단 하나의 AI?
일반ist 기초 모델은 일종의 로봇 에스페란토를 약속합니다: 어떤 몸체도 움직일 수 있는 하나의 뇌. 카메라 피드, 관절 각도, 텍스트를 통해 거대한 멀티모달 모델을 훈련시킨 후, 약간의 미세 조정만으로 창고 피커, 배달 봇 또는 휴머노이드에 적용합니다. 이론적으로, 대규모 재사용, 빠른 배포 및 덜 결함이 있는 일회성 시스템을 얻을 수 있습니다.
인간의 뇌는 일반화하지 않는데, AI는 왜 해야 할까요?
인간의 지능은 종종 무한히 유연한 것으로 이상화되지만, 인지 과학은 더 제한적인 그림을 그립니다. 우리는 순수한 범지식인으로서가 아니라, 층층이 쌓인 전문가들로서 뛰어납니다: 공유된 기초 위에 구축된 좁은 전문성의 층들. 세계적인 심장병 의사에게 동맥류를 잘라달라고 요청하면 할인된 신경외과 의사를 받는 것이 아니라, 면책 동의서를 받게 됩니다.
전문 AI 모델이 일반 모델보다 종종 더 나은 이유는 무엇인가요?
그들은 특정한 데이터에 대해 단일 작업을 위해 훈련되어, 관련 없는 정보의 노이즈를 피함으로써 그 좁은 영역에서 초인적인 성능과 신뢰성을 달성할 수 있습니다.
연구에서 로봇 공학에서 AI에 대한 주요 발견은 무엇인가요?
주요 발견은 일반 '로봇 데이터'에 대한 모델의 미세 조정이 모든 로봇 작업에서 모델 성능을 향상시키지 않는다는 점입니다. 오히려 이는 훈련받은 정확한 데이터 유형에 대해서만 성능을 개선하며, 전반적인 일반화 능력이 부족함을 보여줍니다.
AI는 항상 전문화될까요?
미래는 하이브리드 방식을 포함할 가능성이 높습니다. 일반적인 기반 모델은 폭넓은 추론을 제공하는 반면, 일반 모델에서 세밀하게 조정된 전문 모델은 특정 작업을 더 높은 정확성과 효율성으로 처리할 것입니다.
휴머노이드 로봇과 전문화된 로봇의 차이는 무엇인가요?
휴머노이드 로봇은 다양한 작업에서 인간 환경에서 작동하도록 설계된 범용 로봇입니다. 전문 로봇은 특정 작업에서 최대 효율성과 신뢰성을 위해 설계되었습니다.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts