Шанхай (Gasgoo)- 18 февраля Geely Auto Group и её технологический партнёр Stepfun объявили об открытии исходного кода двух мультимодальных больших моделей ИИ—Step-Video-T2V для генерации видео и Step-Audio для голосового взаимодействия.
Сотрудничество объединило сильные стороны обеих компаний в вычислительных мощностях, алгоритмах и обучении на основе сценариев, что значительно улучшило производительность моделей ИИ. Stepfun заявила, что инициатива направлена на то, чтобы поделиться последними достижениями в области мультимодальных больших моделей с глобальным сообществом с открытым исходным кодом и внести вклад в его развитие.
Step-Video-T2V
С 30 миллиардами параметров Step-Video-T2V может генерировать видео высокого качества с разрешением 540p и 204 кадрами, обеспечивая исключительную плотность информации и согласованность.
Для всесторонней оценки качества видео, созданного ИИ, Stepfun также выпустила открытый эталонный набор данных Step-Video-T2V-Eval. Этот набор данных включает 128 реальных запросов на китайском языке для оценки производительности видео по 11 категориям, таким как движение, пейзажи, животные, абстрактные концепции, сюрреализм, человеческие фигуры, 3D-анимация и кинематография.
Компания заявила, что Step-Video-T2V превосходит существующие модели с открытым исходным кодом в соблюдении инструкций, плавности движения, физическом реализме и эстетической привлекательности. Модель выделяется в создании сложных последовательностей движений, выразительных человеческих фигур, визуально креативных сцен, интеграции двуязычного текста и продвинутых кинематографических композиций.
Особенно примечательна способность модели точно изображать сложные движения. Будь то грация балета, интенсивность карате, скорость бадминтона или высокоскоростные вращения в прыжках в воду, модель демонстрирует глубокое понимание физического пространства и динамики движения. В одном тестовом случае она реалистично изобразила пространственные отношения между пандой, наклонной поверхностью и скейтбордом, создавая визуализацию, учитывающую физику—один из самых сложных аспектов генерации видео с помощью ИИ на сегодняшний день.
Step-Audio
Согласно Stepfun, Step-Audio является первой в отрасли открытой моделью голосового взаимодействия уровня продукта. Она может генерировать речь с разнообразными эмоциями, диалектами, языками, стилями пения и персонализированными выражениями, обеспечивая естественные, качественные разговоры в различных сценариях, включая кино, развлечения, социальные взаимодействия и игры.
Компания добавила, что Step-Audio превзошла аналогичные модели с открытым исходным кодом в пяти основных отраслевых тестах, включая LLaMA Question и Web Questions. Её производительность в оценке HSK-6 (уровень 6 теста на знание китайского языка) подчеркивает её глубокое понимание китайского языка, делая её одной из самых продвинутых открытых голосовых моделей ИИ для носителей китайского языка.
Помимо понимания языка, Step-Audio также демонстрирует высокий уровень эмоционального интеллекта, предлагая эмпатичные и вдумчивые ответы, подобно близкому другу, который помогает справляться с жизненными трудностями.
Кроме того, она превосходит в обработке ритма и мелодии, что позволяет ей создавать динамичные рэп-исполнения с глубоким пониманием языкового ритма и потока.
Признавая нехватку комплексных эталонов оценки голосового ИИ, Stepfun также представила StepEval-Audio-360, открытую тестовую платформу. Этот эталон оценивает голосовые модели ИИ по девяти ключевым параметрам, включая ролевую игру, логическое мышление, генерацию контента, игру слов, творческие способности и следование инструкциям.



