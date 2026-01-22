마이크로소프트(MS)가 첫 로보틱스 모델을 내놓고 피지컬 인공지능(AI) 시장 공략에 힘을 싣는다.

MS 리서치는 22일(현지시간) 공식 홈페이지를 통해 로보틱스 모델 '로-알파'(Rho-alpha)를 공개했다. MS에 따르면 이 모델은 비전언어모델(VLM)인 '파이'(Phi) 시리즈를 기반으로 제작됐다.

함께 공개된 영상에서는 로-알파가 탑재된 로봇이 자연어 명령해 반응해 동작을 수행하는 모습이 담겼다. '위쪽 스위치를 켜라' 등의 자연어 요청을 받은 로-알파는 상황을 분석한 뒤 요청 내용을 그대로 수행했다.

로-알파는 촉각을 인식할 수 있다는 데 더해 자연어를 기반으로 로봇이 양손 조작을 할 수 있다는 특징이 있다. MS 리서치는 "기존 VLA에서 일반적으로 사용하는 인지 및 학습 모달리티의 범위를 넘어 확장했다"면서 로-알파를 기존 비전언어행동(VLA) 모델의 한계를 넘어선 'VLA+' 모델로 정의했다

로-알파는 촉각 센싱을 접목해 로봇이 촉각을 느끼고 판단할 수 있도록 했다. 촉각 피드백을 통해 로봇이 물체의 접촉 상태를 감지하고 보다 섬세한 조작이 가능하다는 설명이다.

복잡한 양손 작업을 수행할 수 있는 점도 특징이다. MS 리서치는 "로-알파는 자연어 명령을 기반으로 로봇이 양손 조작을 수행할 수 있도록 정교한 제어 신호로 변환한다"면서 "로봇이 비구조화된 환경에서 자율적으로 작동할 수 있는 새로운 가능성을 제시했다"고 언급했다.

로봇이 동작 과정에서 오류를 범하는 경우, 피드백을 통해 보강 학습을 할 수도 있다. MS 리서치는 "사용자는 3D 마우스와 같은 직관적인 장치로 로봇의 동작을 바로잡을 수 있다"면서 "로-알파는 시스템 작동 중에도 사용자의 교정 피드백을 지속적으로 학습할 수 있다"고 설명했다.

애슐리 로렌스 MS 리서치 액셀러레이터 부사장 겸 매니징 디렉터는 "피지컬 AI는 생성형 모델이 언어와 시각 처리 영역을 혁신했듯 로보틱스 분야를 재정의할 것"이라며 "물리적 시스템을 대상으로 한 VLA 모델의 등장은 로봇이 복잡하고 정해지지 않은 덜 구조화된 환경에서도 인간과 함께 자율적으로 인지하고 추론하며 행동할 수 있도록 지원하고 있다"고 설명했다.





이명환 기자 lifehwan@asiae.co.kr



