Tập đoàn Ant Group đã mở nguồn và phát hành mô hình đa phương thức toàn diện Ming-Flash-Omni 2.0, là mô hình tạo âm thanh thống nhất cho tất cả các cảnh trong ngành công nghiệp, có thể đồng thời tạo ra giọng nói, âm thanh môi trường và nhạc trong cùng một bản ghi âm. Người dùng có thể ra lệnh bằng ngôn ngữ tự nhiên để kiểm soát âm sắc, tốc độ nói, ngữ điệu, âm lượng, cảm xúc và phương ngữ. Mô hình đạt tốc độ suy luận cực thấp 3.1Hz trong giai đoạn suy luận, thực hiện việc tạo âm thanh dài hàng phút với độ trung thực cao theo thời gian thực. (Báo cáo Ngày Thị trường Khoa học và Công nghệ)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Tập đoàn Ant mở mã nguồn phát hành mô hình đa chế độ Ming-Flash-Omni 2.0
Tập đoàn Ant Group đã mở nguồn và phát hành mô hình đa phương thức toàn diện Ming-Flash-Omni 2.0, là mô hình tạo âm thanh thống nhất cho tất cả các cảnh trong ngành công nghiệp, có thể đồng thời tạo ra giọng nói, âm thanh môi trường và nhạc trong cùng một bản ghi âm. Người dùng có thể ra lệnh bằng ngôn ngữ tự nhiên để kiểm soát âm sắc, tốc độ nói, ngữ điệu, âm lượng, cảm xúc và phương ngữ. Mô hình đạt tốc độ suy luận cực thấp 3.1Hz trong giai đoạn suy luận, thực hiện việc tạo âm thanh dài hàng phút với độ trung thực cao theo thời gian thực. (Báo cáo Ngày Thị trường Khoa học và Công nghệ)