Geely Auto, Stepfun lancent des modèles d'IA multimodaux open-source pour la génération de vidéos et d'audio

Shanghai (Gasgoo)- Le 18 février, Geely Auto Group et son partenaire technologique Stepfun ont annoncé l'ouverture de deux grands modèles d'IA multimodaux en open source—le Step-Video-T2V pour la génération de vidéos et le Step-Audio pour l'interaction vocale.

La collaboration a tiré parti des forces des deux entreprises en matière de puissance de calcul, d'algorithmes et de formation basée sur des scénarios, améliorant considérablement les performances des modèles d'IA. Stepfun a déclaré que cette initiative vise à partager les dernières avancées des grands modèles multimodaux avec la communauté open source mondiale et à contribuer à son développement.

Step-Video-T2V

Avec 30 milliards de paramètres, le Step-Video-T2V peut générer des vidéos de haute qualité en résolution 540p avec 204 images, garantissant une densité d'information et une cohérence exceptionnelles.

Pour évaluer de manière exhaustive la qualité des vidéos générées par l'IA, Stepfun a également publié un ensemble de données de référence open source, le Step-Video-T2V-Eval. Cet ensemble de données comprend 128 requêtes en langue chinoise du monde réel pour évaluer les performances vidéo dans 11 catégories, telles que les mouvements, les paysages, les animaux, les concepts abstraits, le surréalisme, les figures humaines, l'animation 3D et la cinématographie.

La société a déclaré que le Step-Video-T2V surpasse les modèles open source existants en matière d'adhérence aux instructions, de fluidité des mouvements, de réalisme physique et d'attrait esthétique. Le modèle excelle dans la génération de séquences de mouvements complexes, de figures humaines expressives, de scènes visuellement imaginatives, d'intégration de texte bilingue et de compositions cinématographiques avancées.

La capacité du modèle d'IA à représenter avec précision des mouvements complexes est particulièrement remarquable. Que ce soit la grâce du ballet, l'intensité du karaté, la vitesse du badminton ou les rotations rapides du plongeon, le modèle démontre une compréhension approfondie de l'espace physique et des dynamiques de mouvement. Dans un cas de test, il a représenté de manière réaliste les relations spatiales entre un panda, une surface inclinée et un skateboard, produisant des visuels conscients de la physique—l'un des aspects les plus difficiles de la génération vidéo par IA aujourd'hui.

Step-Audio

Selon Stepfun, le Step-Audio est le premier modèle d'interaction vocale open source de qualité industrielle. Il peut générer des discours avec diverses émotions, dialectes, langues, styles de chant et expressions personnalisées, permettant des conversations naturelles et de haute qualité dans divers scénarios, y compris le cinéma, le divertissement, les interactions sociales et les jeux.

La société a ajouté que le Step-Audio a surpassé des modèles open source similaires dans cinq tests industriels majeurs, y compris LLaMA Question et Web Questions. Ses performances dans l'évaluation HSK-6 (Test de compétence en chinois niveau 6) mettent en évidence sa compréhension approfondie de la langue chinoise, en faisant l'un des modèles d'IA vocale open source les plus compétents pour les locuteurs chinois.

Au-delà de la compréhension linguistique, Step-Audio démontre également une intelligence émotionnelle élevée, offrant des réponses empathiques et réfléchies, à l'image d'un ami proche apportant des conseils face aux défis de la vie.

De plus, il excelle dans le traitement du rythme et de la mélodie, lui permettant de générer des performances de rap dynamiques avec une compréhension approfondie de la cadence et du flux linguistiques.

Reconnaissant le manque de benchmarks d'évaluation complets pour l'IA vocale, Stepfun a également introduit le StepEval-Audio-360, un cadre de test open source. Ce benchmark évalue les modèles d'IA vocale selon neuf dimensions clés, notamment le jeu de rôle, le raisonnement logique, la génération de contenu, les jeux de mots, les capacités créatives et le suivi des instructions.

SMM

Geely Auto, Stepfun lancent des modèles d'IA multimodaux open-source pour la génération de vidéos et d'audio

Le modèle FIREFLY de NIO avec de nouveaux détails dévoilé dans le catalogue du MIIT

Adient achève l'expansion du Centre Technique en Chine pour renforcer les capacités locales de R&D