ปักกิ่ง (Gasgoo)- เมื่อวันที่ 18 มีนาคม 2025 นายเจียเผิง หัวหน้าฝ่ายวิจัยและพัฒนาเทคโนโลยีการขับขี่อัตโนมัติของ Li Auto ได้กล่าวสุนทรพจน์สำคัญที่งาน NVIDIA GTC 2025 โดยแบ่งปันข้อมูลเชิงลึกเกี่ยวกับความก้าวหน้าล่าสุดของบริษัทในเทคโนโลยีการขับขี่อัตโนมัติรุ่นใหม่ MindVLA
MindVLA เป็นโมเดลการขับขี่อัตโนมัติที่ล้ำสมัยซึ่งใช้สถาปัตยกรรมระบบคู่ที่ผสานการเรียนรู้แบบ end-to-end และ Vision-Language Models (VLM) ในฐานะรูปแบบใหม่ในโมเดลหุ่นยนต์ขนาดใหญ่ MindVLA ช่วยให้ยานพาหนะอัตโนมัติมีความสามารถในการเข้าใจพื้นที่ 3 มิติ การให้เหตุผลเชิงตรรกะ และการสร้างพฤติกรรมที่ดีขึ้น ทำให้สามารถรับรู้ คิด และปรับตัวเข้ากับสภาพแวดล้อมที่เปลี่ยนแปลงได้
แตกต่างจากการผสมผสานแบบง่ายๆ ของโมเดล end-to-end และ VLM MindVLA มีการออกแบบใหม่ทั้งหมด ตัวเข้ารหัสพื้นที่ 3 มิติของมันผสานโมเดลภาษาและการให้เหตุผลเชิงตรรกะเพื่อสร้างการตัดสินใจในการขับขี่ โดยส่งออก action tokens—ซึ่งเป็นตัวแทนของพฤติกรรมสิ่งแวดล้อมและการขับขี่ โทเค็นเหล่านี้จะได้รับการปรับปรุงเพิ่มเติมผ่านโมเดล diffusion เพื่อกำหนดเส้นทางการขับขี่ที่เหมาะสมที่สุดแบบเรียลไทม์ ซึ่งทั้งหมดนี้ดำเนินการบนยานพาหนะ
ด้วยการใช้โมเดลโลกแบบคลาวด์ที่พัฒนาขึ้นเอง MindVLA ผสานการสร้างสถานการณ์ 3 มิติ การเติมเต็มมุมมองที่สร้างขึ้น และการคาดการณ์มุมมองที่ไม่เคยเห็นมาก่อน เพื่อสร้างสภาพแวดล้อมการจำลองที่สมจริงสูง สิ่งนี้ช่วยให้เกิดการเรียนรู้แบบเสริมแรงในวงปิดขนาดใหญ่ ทำให้โมเดลสามารถพัฒนาตนเองได้อย่างต่อเนื่องผ่านประสบการณ์ Li Auto กล่าวว่าบริษัทได้ปรับปรุงโมเดลโลกของตนอย่างมีนัยสำคัญในปีที่ผ่านมา โดยเพิ่มความเร็วในการฝึกอบรม 3D GS มากกว่าถึงเจ็ดเท่า
MindVLA ได้กำหนดนิยามใหม่ของประสบการณ์การขับขี่อัตโนมัติ ทำให้ยานพาหนะสามารถเข้าใจและตอบสนองต่อคำสั่งเสียงแบบเรียลไทม์ ผู้ใช้สามารถออกคำสั่งด้วยภาษาธรรมชาติ เช่น "หาซูเปอร์มาร์เก็ตให้ฉัน" ในพื้นที่ที่ไม่คุ้นเคย โดยไม่ต้องกำหนดเส้นทางนำทางล่วงหน้า ยานพาหนะจะสำรวจและค้นหาจุดหมายปลายทางโดยอัตโนมัติ นอกจากนี้ ผู้ขับขี่ยังสามารถปรับเปลี่ยนแบบเรียลไทม์ เช่น "ลดความเร็ว" หรือ "เข้าช่องทางซ้าย" โดยระบบจะเข้าใจและดำเนินการตามคำสั่งได้อย่างราบรื่น



