Unitree Robotics Open-Sources Multimodal Vision-Language-Action Model：UnifoLM-VLA-0

29 януари — Unitree Robotics обяви пускането с отворен код на своя голям модел Vision-Language-Action (VLA), UnifoLM-VLA-0, предназначен да преодолее ограниченията на традиционните модели на визуален език (VLM) във физическо взаимодействие. Чрез целенасочено предварително обучение, моделът еволюира от разбиране на изображение-текст във въплътен „мозък“ с физически разумни разсъждения.

Според Unitree, UnifoLM-VLA-0 е част от семейството UnifoLM и е специално създаден за манипулиране на хуманоидни роботи с общо предназначение. Моделът се основава на Qwen2.5-VL-7B с отворен код и непрекъснато се обучава предварително върху многозадачен набор от данни, обхващащ както общи, така и роботизирани сценарии, подобрявайки съответствието между геометричното пространствено разбиране и семантичното разсъждение.

Ключов технически пробив се крие в неговата дълбока интеграция на текстови инструкции с 2D и 3D пространствени детайли, за да отговори на високите изисквания на задачите за манипулиране. Моделът включва данни за прогнозиране на динамиката от край до край, за да подобри обобщението. По-специално, Unitree интегрира глава за прогнозиране на действие в архитектурата и систематично почиства набори от данни с отворен код. Използвайки само около 340 часа данни от реални роботи, съчетани с предвиждане на разкъсвания на действие и ограничения на динамиката, моделът постига унифицирано моделиране на сложни последователности от действия и дългосрочно планиране.

Резултатите от оценката показват, че UnifoLM-VLA-0 значително превъзхожда базовите модели при множество показатели за пространствено разбиране, а в режим „без мислене“ неговата производителност е сравнима с Gemini-Robotics-ER 1.5. На бенчмарка за симулация LIBERO, неговият многозадачен модел постига почти най-съвременните резултати.

В тестове на роботи в реални условия UnifoLM-VLA-0 демонстрира силни възможности на хуманоидния робот G1 на Unitree, изпълнявайки 12 категории сложни манипулационни задачи – включително отваряне и затваряне на чекмеджета, включване и изваждане на конектори и операции за вземане и поставяне – използвайки мрежа с единна политика. Unitree заяви, че моделът поддържа стабилно изпълнение и устойчивост на смущения, дори при външна намеса.

Началната страница на проекта и кодът с отворен код вече са достъпни в GitHub за разработчици и изследователи.

Страница на проекта: https://unigen-x.github.io/unifolm-vla.github.io/

GitHub: https://github.com/unitreerobotics/unifolm-vla

Източник: iFeng Tech

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта