Pékin (Gasgoo) - Le 18 mars 2025, M. Jia Peng, responsable de la R&D en technologie de conduite autonome chez Li Auto, a prononcé un discours liminaire lors du NVIDIA GTC 2025, partageant des perspectives sur les dernières avancées de l'entreprise dans sa technologie de conduite autonome de nouvelle génération, MindVLA.
MindVLA est un modèle innovant de conduite autonome basé sur une architecture à double système intégrant l'apprentissage de bout en bout et les modèles Vision-Langage (VLM). En tant que nouveau paradigme dans les modèles robotiques à grande échelle, MindVLA dote les véhicules autonomes de capacités améliorées de compréhension spatiale 3D, de raisonnement logique et de génération de comportements, leur permettant de percevoir, réfléchir et s'adapter à des environnements dynamiques.
Contrairement à une simple combinaison de modèles de bout en bout et VLM, MindVLA présente une conception entièrement nouvelle. Son encodeur spatial 3D intègre des modèles linguistiques et un raisonnement logique pour générer des décisions de conduite, produisant des tokens d'action—une représentation des comportements environnementaux et de conduite. Ces tokens subissent une optimisation supplémentaire via un modèle de diffusion pour déterminer en temps réel la trajectoire de conduite optimale, le tout traité à bord du véhicule.
En s'appuyant sur un modèle mondial unifié basé sur le cloud développé en interne, MindVLA intègre la reconstruction de scénarios 3D, le remplissage génératif de vues et la prédiction de perspectives inédites pour créer un environnement de simulation hautement réaliste. Cela permet un apprentissage par renforcement en boucle fermée à grande échelle, permettant au modèle de s'améliorer continuellement grâce à l'expérience. Li Auto a déclaré avoir considérablement optimisé son modèle mondial au cours de l'année écoulée, augmentant les vitesses d'entraînement 3D GS de plus de sept fois.
MindVLA redéfinit l'expérience de conduite autonome, permettant aux véhicules de comprendre et de répondre aux commandes vocales en temps réel. Les utilisateurs peuvent donner des instructions en langage naturel, telles que "Trouve-moi un supermarché" dans une zone inconnue, sans navigation prédéfinie. Le véhicule explorera et localisera le lieu de manière autonome. De plus, les conducteurs peuvent effectuer des ajustements en temps réel, comme "Ralentis" ou "Prends la voie de gauche", le système comprenant et exécutant les commandes sans problème.



