
Xiaomi обяви днес, че неговият въплътен основен модел MiMo-Embodied е пуснат официално и вече е с напълно отворен код.
Тъй като въплътената интелигентност се премества в домашната роботика и автономното шофиране се ускорява в мащабно внедряване, едно голямо предизвикателство в индустрията става все по-очевидно: Как роботите и превозните средства могат да споделят способности за възприятие, разсъждение и вземане на решения? И може ли роботизираната интелигентност на закрито значително да подобри интелигентността при шофиране на открито – и обратното? MiMo-Embodied е отговорът на Xiaomi на тази междудомейн конвергенция.
Според Xiaomi, MiMo-Embodied е първият въплътен основен модел в индустрията, който обединява автономното шофиране и въплътения AI, поставяйки двата домейна в една рамка за моделиране. Изданието бележи значителна стъпка напред от вертикални, специфични за задачите модели към междудомейн, синергичен общ въплътен интелект.

Три основни технически акцента
1. Покритие на възможностите на различни домейни
MiMo-Embodied поддържа едновременно трите основни задачи на въплътения AI – разсъждения за достъпност, планиране на задачите, пространствено разбиране – и трите ключови задачи на автономното шофиране – възприемане на околната среда, прогнозиране на състоянието, планиране на шофиране – образувайки унифицирана интелигентна основа за приложения с пълен сценарий.
2. Двупосочен трансфер на знания
Моделът потвърждава синергичните ефекти между интелигентността за манипулиране на закрито и вземането на решения на ниво път, демонстрирайки, че способностите, научени в една област, могат да подобрят производителността в другата.
3. Надеждност от край до край в целия стек
Чрез многоетапен конвейер за обучение—въплътено и усвояване на умения за управление → подобряване на извода по веригата на мисълта (CoT) → фина оптимизация на RL—MiMo-Embodied значително подобрява надеждността на внедряване в реални среди.
Сравнителен анализ на производителността
Чрез 29 бенчмарка, обхващащи възприятие, вземане на решения и планиране, MiMo-Embodied поставя нова лента за производителност сред моделите на основата с отворен код, надминавайки както съществуващите отворени, така и затворени системи:
-
Въплътен AI: Постигнатият SOTA води до 17 бенчмарка, предефиниране на границите в планирането на задачите, прогнозиране на възможностите и пространствено разбиране.
-
Автономно шофиране: Доставени пробиви в 12 бенчмарка, покриващи пълната верига от възприятия, прогнози и планиране.
-
Визия-Език Обща интелигентност: Демонстрира по-силно обобщение и големи печалби в ключови мултимодални показатели.

MiMo-Embodied и неговият изходен код вече са напълно отворени за Hugging Face и ArXiv.
Нашия източник е Българо-Китайска Търговско-промишлена палaта