Shanghai (Gasgoo)- Pada 18 Februari, Geely Auto Group dan mitra ekosistem teknologinya, Stepfun, mengumumkan pembukaan sumber dua model AI multimodal besar—Step-Video-T2V untuk pembuatan video dan Step-Audio untuk interaksi suara.
Kolaborasi ini memanfaatkan kekuatan kedua perusahaan dalam daya komputasi, algoritma, dan pelatihan berbasis skenario, secara signifikan meningkatkan kinerja model AI. Stepfun menyatakan bahwa inisiatif ini bertujuan untuk berbagi kemajuan terbaru dalam model multimodal besar dengan komunitas open-source global dan berkontribusi pada pengembangannya.
Step-Video-T2V
Dengan 30 miliar parameter, Step-Video-T2V dapat menghasilkan video berkualitas tinggi pada resolusi 540p dengan 204 frame, memastikan kepadatan informasi dan konsistensi yang luar biasa.
Untuk menilai kualitas video yang dihasilkan AI secara komprehensif, Stepfun juga merilis dataset tolok ukur open-source, Step-Video-T2V-Eval. Dataset ini mencakup 128 kueri dunia nyata berbahasa Mandarin untuk mengevaluasi kinerja video dalam 11 kategori, seperti gerakan, lanskap, hewan, konsep abstrak, surealisme, figur manusia, animasi 3D, dan sinematografi.
Perusahaan mengatakan bahwa Step-Video-T2V melampaui model open-source yang ada dalam kepatuhan instruksi, kelancaran gerakan, realisme fisik, dan daya tarik estetika. Model ini unggul dalam menghasilkan urutan gerakan kompleks, figur manusia ekspresif, adegan visual imajinatif, integrasi teks bilingual, dan komposisi sinematografi tingkat lanjut.
Kemampuan model AI untuk menggambarkan gerakan rumit secara akurat sangat patut diperhatikan. Baik itu keanggunan balet, intensitas karate, kecepatan bulu tangkis, atau rotasi kecepatan tinggi dalam menyelam, model ini menunjukkan pemahaman mendalam tentang ruang fisik dan dinamika gerakan. Dalam salah satu kasus uji, model ini secara realistis menggambarkan hubungan spasial antara panda, permukaan miring, dan skateboard, menghasilkan visual yang sadar fisika—salah satu aspek paling menantang dalam pembuatan video AI saat ini.
Step-Audio
Menurut Stepfun, Step-Audio adalah model interaksi suara open-source tingkat produk pertama di industri. Model ini dapat menghasilkan ucapan dengan berbagai emosi, dialek, bahasa, gaya bernyanyi, dan ekspresi personal, memungkinkan percakapan alami dan berkualitas tinggi di berbagai skenario, termasuk film, hiburan, interaksi sosial, dan permainan.
Perusahaan menambahkan bahwa Step-Audio telah melampaui model open-source serupa dalam lima uji standar industri utama, termasuk LLaMA Question dan Web Questions. Kinerjanya dalam evaluasi HSK-6 (Tes Kemahiran Bahasa Mandarin Tingkat 6) menyoroti pemahamannya yang mendalam tentang bahasa Mandarin, menjadikannya salah satu model AI suara open-source paling mahir untuk penutur bahasa Mandarin.
Selain pemahaman bahasa, Step-Audio juga menunjukkan kecerdasan emosional tinggi, menawarkan respons empatik dan penuh perhatian, seperti seorang teman dekat yang memberikan panduan melalui tantangan hidup.
Selain itu, model ini unggul dalam pemrosesan ritme dan melodi, memungkinkannya menghasilkan penampilan rap dinamis dengan pemahaman mendalam tentang irama dan aliran linguistik.
Menyadari kurangnya tolok ukur evaluasi AI suara yang komprehensif, Stepfun juga memperkenalkan StepEval-Audio-360, kerangka pengujian open-source. Tolok ukur ini menilai model AI suara dalam sembilan dimensi utama, termasuk bermain peran, penalaran logis, pembuatan konten, permainan kata, kemampuan kreatif, dan kepatuhan instruksi.



