Thượng Hải (Gasgoo)- Vào ngày 18 tháng 2, Tập đoàn Geely Auto và đối tác hệ sinh thái công nghệ Stepfun đã công bố mã nguồn mở hai mô hình AI đa phương thức lớn—Step-Video-T2V cho việc tạo video và Step-Audio cho tương tác giọng nói.
Sự hợp tác này tận dụng thế mạnh của cả hai công ty về sức mạnh tính toán, thuật toán và đào tạo dựa trên kịch bản, cải thiện đáng kể hiệu suất của các mô hình AI. Stepfun cho biết sáng kiến này nhằm chia sẻ những tiến bộ mới nhất trong các mô hình lớn đa phương thức với cộng đồng mã nguồn mở toàn cầu và đóng góp vào sự phát triển của nó.
Step-Video-T2V
Với 30 tỷ tham số, Step-Video-T2V có thể tạo ra video chất lượng cao ở độ phân giải 540p với 204 khung hình, đảm bảo mật độ thông tin và tính nhất quán vượt trội.
Để đánh giá toàn diện chất lượng video do AI tạo ra, Stepfun cũng đã phát hành một bộ dữ liệu đánh giá mã nguồn mở, Step-Video-T2V-Eval. Bộ dữ liệu này bao gồm 128 truy vấn thực tế bằng tiếng Trung để đánh giá hiệu suất video qua 11 danh mục, như chuyển động, phong cảnh, động vật, khái niệm trừu tượng, siêu thực, hình người, hoạt hình 3D và nghệ thuật điện ảnh.
Công ty cho biết Step-Video-T2V vượt trội hơn các mô hình mã nguồn mở hiện có về tuân thủ hướng dẫn, độ mượt mà của chuyển động, tính hiện thực vật lý và sự hấp dẫn thẩm mỹ. Mô hình này xuất sắc trong việc tạo ra các chuỗi chuyển động phức tạp, hình người biểu cảm, cảnh quan tưởng tượng, tích hợp văn bản song ngữ và các bố cục điện ảnh tiên tiến.
Khả năng của mô hình AI trong việc mô tả chính xác các chuyển động phức tạp đặc biệt đáng chú ý. Dù là sự uyển chuyển của múa ba lê, cường độ của karate, tốc độ của cầu lông hay các vòng quay tốc độ cao của lặn, mô hình này thể hiện sự hiểu biết sâu sắc về không gian vật lý và động lực chuyển động. Trong một trường hợp thử nghiệm, nó đã mô tả thực tế mối quan hệ không gian giữa một con gấu trúc, một bề mặt dốc và một ván trượt, tạo ra hình ảnh nhận thức vật lý—một trong những khía cạnh thách thức nhất của việc tạo video AI hiện nay.
Step-Audio
Theo Stepfun, Step-Audio là mô hình tương tác giọng nói mã nguồn mở đạt cấp độ sản phẩm đầu tiên trong ngành. Nó có thể tạo ra giọng nói với nhiều cảm xúc, phương ngữ, ngôn ngữ, phong cách hát và biểu cảm cá nhân hóa, cho phép các cuộc trò chuyện tự nhiên, chất lượng cao trong nhiều kịch bản khác nhau, bao gồm phim, giải trí, tương tác xã hội và trò chơi.
Công ty bổ sung rằng Step-Audio đã vượt qua các mô hình mã nguồn mở tương tự trong năm bài kiểm tra tiêu chuẩn ngành chính, bao gồm LLaMA Question và Web Questions. Hiệu suất của nó trong đánh giá HSK-6 (Kỳ thi năng lực tiếng Trung cấp 6) nhấn mạnh sự hiểu biết sâu sắc về ngôn ngữ Trung Quốc, khiến nó trở thành một trong những mô hình AI giọng nói mã nguồn mở thành thạo nhất cho người nói tiếng Trung.
Ngoài việc hiểu ngôn ngữ, Step-Audio còn thể hiện trí tuệ cảm xúc cao, cung cấp các phản hồi đồng cảm và chu đáo, giống như một người bạn thân thiết đưa ra lời khuyên trong những thử thách của cuộc sống.
Ngoài ra, nó còn xuất sắc trong xử lý nhịp điệu và giai điệu, cho phép tạo ra các màn trình diễn rap năng động với sự hiểu biết sâu sắc về nhịp điệu và dòng chảy ngôn ngữ.
Nhận thấy sự thiếu hụt các tiêu chuẩn đánh giá AI giọng nói toàn diện, Stepfun cũng đã giới thiệu StepEval-Audio-360, một khung kiểm tra mã nguồn mở. Tiêu chuẩn này đánh giá các mô hình AI giọng nói qua chín khía cạnh chính, bao gồm nhập vai, lý luận logic, tạo nội dung, chơi chữ, khả năng sáng tạo và tuân thủ hướng dẫn.



