Компания Xiaomi, известная как «топ за свои деньги», представила открытую модель искусственного интеллекта Xiaomi-Robotics-0. Модель содержит 4,7 миллиарда параметров и объединяет визуальное восприятие (Vision), понимание языка (Language) и генерацию физических действий (Action) для управления роботами. По заявлениям разработчиков, она демонстрирует высокую эффективность как в симуляциях, так и в реальных испытаниях.

Архитектура Robotics-0 базируется на двух основных компонентах. Первый — Visual Language Model (VLM), который служит «мозгом» системы, интерпретируя команды и анализируя пространственные отношения объектов. Второй — Action Expert на основе Diffusion Transformer (DiT), отвечающий за генерацию точных и плавных последовательностей движений.

Обучение модели было построено так, чтобы она сохраняла способность к рассуждению и пониманию мира, параллельно осваивая физические действия. В ходе тестирования на различных симуляторах Xiaomi-Robotics-0 показала результаты выше примерно 30 альтернативных моделей. На реальной роботизированной платформе с двумя манипуляторами робот продемонстрировал высокую координацию и умение работать как с жёсткими, так и с гибкими объектами.