Пекин (Gasgoo) - 18 марта 2025 года глава отдела исследований и разработок технологий автономного вождения компании Li Auto, господин Цзя Пэн, выступил с ключевой речью на NVIDIA GTC 2025, поделившись информацией о последних достижениях компании в области технологий автономного вождения следующего поколения, MindVLA.
MindVLA — это инновационная модель автономного вождения, основанная на архитектуре с двойной системой, интегрирующей обучение от начала до конца и модели Vision-Language (VLM). Как новая парадигма в масштабных роботизированных моделях, MindVLA наделяет автономные транспортные средства улучшенным 3D-пространственным восприятием, логическим мышлением и способностями к генерации поведения, позволяя им воспринимать, думать и адаптироваться к динамическим условиям.
В отличие от простой комбинации моделей обучения от начала до конца и VLM, MindVLA имеет совершенно новый дизайн. Его 3D-пространственный энкодер интегрирует языковые модели и логическое мышление для генерации решений вождения, выдавая токены действий— представление окружающей среды и поведения при вождении. Эти токены проходят дальнейшую оптимизацию с помощью диффузионной модели для определения оптимальной траектории вождения в реальном времени, все это обрабатывается на борту.
Используя собственную унифицированную облачную мировую модель, MindVLA объединяет 3D-реконструкцию сценариев, генеративное завершение видов и предсказание невидимых перспектив для создания высокореалистичной симуляционной среды. Это позволяет проводить масштабное замкнутое обучение с подкреплением, что дает модели возможность постоянно совершенствоваться через опыт. В компании Li Auto заявили, что за последний год значительно оптимизировали свою мировую модель, увеличив скорость обучения 3D GS более чем в семь раз.
MindVLA переопределяет опыт автономного вождения, позволяя транспортным средствам понимать и реагировать на голосовые команды в реальном времени. Пользователи могут давать инструкции на естественном языке, такие как «Найди мне супермаркет» в незнакомом районе, без заранее заданной навигации. Транспортное средство самостоятельно исследует и находит пункт назначения. Кроме того, водители могут вносить изменения в реальном времени, такие как «Сбавь скорость» или «Перестройся в левую полосу», при этом система понимает и выполняет команды безупречно.



