เซี่ยงไฮ้ (Gasgoo)- เมื่อวันที่ 18 กุมภาพันธ์ กลุ่มบริษัท Geely Auto และพันธมิตรด้านเทคโนโลยี Stepfun ได้ประกาศเปิดโอเพ่นซอร์สโมเดล AI ขนาดใหญ่แบบมัลติโหมดสองตัว ได้แก่ Step-Video-T2V สำหรับการสร้างวิดีโอ และ Step-Audio สำหรับการโต้ตอบด้วยเสียง
ความร่วมมือครั้งนี้ใช้ประโยชน์จากจุดแข็งของทั้งสองบริษัทในด้านพลังการประมวลผล อัลกอริทึม และการฝึกอบรมตามสถานการณ์ ซึ่งช่วยเพิ่มประสิทธิภาพของโมเดล AI อย่างมีนัยสำคัญ Stepfun ระบุว่าโครงการนี้มีเป้าหมายเพื่อแบ่งปันความก้าวหน้าล่าสุดในโมเดลขนาดใหญ่แบบมัลติโหมดกับชุมชนโอเพ่นซอร์สทั่วโลกและสนับสนุนการพัฒนา
Step-Video-T2V
ด้วยพารามิเตอร์ 30 พันล้านตัว Step-Video-T2V สามารถสร้างวิดีโอคุณภาพสูงที่ความละเอียด 540p พร้อม 204 เฟรม โดยรับประกันความหนาแน่นและความสม่ำเสมอของข้อมูลที่ยอดเยี่ยม
เพื่อประเมินคุณภาพวิดีโอที่สร้างโดย AI อย่างครอบคลุม Stepfun ยังได้เปิดตัวชุดข้อมูลมาตรฐานโอเพ่นซอร์ส Step-Video-T2V-Eval ชุดข้อมูลนี้ประกอบด้วยคำถามในชีวิตจริงภาษาจีน 128 รายการ เพื่อประเมินประสิทธิภาพของวิดีโอใน 11 หมวดหมู่ เช่น การเคลื่อนไหว ทิวทัศน์ สัตว์ แนวคิดนามธรรม เหนือจริง รูปมนุษย์ แอนิเมชัน 3 มิติ และการถ่ายทำภาพยนตร์
บริษัทกล่าวว่า Step-Video-T2V มีประสิทธิภาพเหนือกว่าโมเดลโอเพ่นซอร์สที่มีอยู่ในด้านการปฏิบัติตามคำสั่ง ความราบรื่นของการเคลื่อนไหว ความสมจริงทางกายภาพ และความสวยงาม โมเดลนี้โดดเด่นในการสร้างลำดับการเคลื่อนไหวที่ซับซ้อน รูปมนุษย์ที่แสดงอารมณ์ ฉากที่มีจินตนาการสูง การผสมผสานข้อความสองภาษา และองค์ประกอบการถ่ายทำภาพยนตร์ขั้นสูง
ความสามารถของโมเดล AI ในการแสดงการเคลื่อนไหวที่ซับซ้อนได้อย่างแม่นยำนั้นน่าสังเกตเป็นพิเศษ ไม่ว่าจะเป็นความสง่างามของบัลเลต์ ความเข้มข้นของคาราเต้ ความเร็วของแบดมินตัน หรือการหมุนความเร็วสูงของการดำน้ำ โมเดลนี้แสดงให้เห็นถึงความเข้าใจอย่างลึกซึ้งเกี่ยวกับพื้นที่ทางกายภาพและพลศาสตร์การเคลื่อนไหว ในกรณีทดสอบหนึ่ง โมเดลสามารถแสดงความสัมพันธ์เชิงพื้นที่ระหว่างแพนด้า พื้นผิวลาด และสเก็ตบอร์ดได้อย่างสมจริง โดยสร้างภาพที่คำนึงถึงกฎฟิสิกส์ ซึ่งเป็นหนึ่งในแง่มุมที่ท้าทายที่สุดของการสร้างวิดีโอ AI ในปัจจุบัน
Step-Audio
ตามข้อมูลของ Stepfun Step-Audio เป็นโมเดลการโต้ตอบด้วยเสียงแบบโอเพ่นซอร์สระดับผลิตภัณฑ์ตัวแรกของอุตสาหกรรม สามารถสร้างเสียงพูดที่มีอารมณ์หลากหลาย สำเนียง ภาษา สไตล์การร้องเพลง และการแสดงออกที่เป็นเอกลักษณ์ ช่วยให้เกิดการสนทนาที่เป็นธรรมชาติและมีคุณภาพสูงในหลากหลายสถานการณ์ เช่น ภาพยนตร์ ความบันเทิง การโต้ตอบทางสังคม และการเล่นเกม
บริษัทเสริมว่า Step-Audio มีประสิทธิภาพเหนือกว่าโมเดลโอเพ่นซอร์สที่คล้ายกันในห้าการทดสอบมาตรฐานอุตสาหกรรมหลัก รวมถึง LLaMA Question และ Web Questions ประสิทธิภาพของมันในการประเมิน HSK-6 (การทดสอบความสามารถทางภาษาจีนระดับ 6) แสดงให้เห็นถึงความเข้าใจอย่างลึกซึ้งในภาษาจีน ทำให้เป็นหนึ่งในโมเดล AI เสียงแบบโอเพ่นซอร์สที่มีความสามารถสูงสุดสำหรับผู้พูดภาษาจีน
นอกเหนือจากความเข้าใจภาษา Step-Audio ยังแสดงให้เห็นถึงความฉลาดทางอารมณ์สูง โดยให้คำตอบที่เห็นอกเห็นใจและรอบคอบ คล้ายกับเพื่อนสนิทที่ให้คำแนะนำผ่านความท้าทายในชีวิต
นอกจากนี้ยังโดดเด่นในด้านการประมวลผลจังหวะและทำนอง ทำให้สามารถสร้างการแสดงแร็ปที่มีพลังด้วยความเข้าใจอย่างลึกซึ้งในจังหวะและการไหลของภาษา
เพื่อรับรู้ถึงการขาดเกณฑ์มาตรฐานการประเมิน AI เสียงที่ครอบคลุม Stepfun ยังได้เปิดตัว StepEval-Audio-360 ซึ่งเป็นกรอบการทดสอบแบบโอเพ่นซอร์ส เกณฑ์มาตรฐานนี้ประเมินโมเดล AI เสียงในเก้ามิติสำคัญ รวมถึงการสวมบทบาท การให้เหตุผลเชิงตรรกะ การสร้างเนื้อหา การเล่นคำ ความสามารถในการสร้างสรรค์ และการปฏิบัติตามคำสั่ง



