AI chuyển văn bản thành video trong vài giây

Khoa học - Công nghệ - Ngày đăng : 14:40, 22/03/2023

Runway cho ra mắt công cụ AI có khả năng biến các mô tả văn bản đơn giản thành một đoạn video ngắn.


Những AI chuyển văn bản thành hình ảnh ra đời và “làm mưa làm gió”

Ngày 20.3, Runway, công ty AI có trụ sở tại New York, giới thiệu công cụ Gen-2, cho phép tạo video từ ảnh tĩnh hoặc văn bản đầu vào. Chẳng hạn, khi nhập "một con mèo đi dưới mưa", AI sẽ đưa ra một video ba giây với nội dung như yêu cầu.

Runway ra đời năm 2018, là startup nổi tiếng về AI không kém OpenAI và có 45 nhân viên toàn thời gian. Công ty đang cung cấp website hỗ trợ người dùng chỉnh sửa video nhanh, như xóa phông hay thêm hiệu ứng. Họ nằm trong nhóm phát triển phiên bản đầu của Stable Diffusion - AI chuyển văn bản thành ảnh và sau này được công ty Stability AI mở rộng thêm.

Tháng 2/2019, Runway công bố mô hình chỉnh sửa video có tên Gen-1. Công cụ này tập trung vào chuyển đổi cảnh quay video có sẵn, nhập hoạt cảnh 3D thô hoặc thêm bộ lọc do AI tạo. Gen-2 vẫn dựa trên kiến trúc của Gen-1, nhưng tập trung nhiều hơn vào việc khởi tạo video bằng văn bản, ảnh đầu vào hoặc kết hợp cả hai.

Đoạn video được AI tạo từ mô tả "một người đi bộ băng qua rừng rậm". Ảnh: Runway

Bản demo được Cris Valenzuela, nhà đồng sáng lập kiêm CEO Runway, trình diễn trên Twitter cho thấy Gen-2 có thể tạo được cảnh quay "drone trên bầu trời sa mạc" hay "cận cảnh mắt của con người" trong vài giây. Tuy nhiên, độ phân giải và tính chân thực vẫn bị hạn chế, cũng như chưa có âm thanh.

"Bạn có thể tạo video về cuộc rượt đuổi gay cấn bằng ôtô, nhưng đôi khi, những chiếc ôtô có thể bay đi", Valenzuela nói về Gen-2.

Valenzuela khẳng định nếu yêu cầu đầu vào càng chi tiết, nội dung được Gen-2 tạo ra càng sống động, tương tự AI tạo ảnh từ văn bản như Dall-E hay Stable Diffusion. Trong tương lai, công cụ sẽ được cải tiến để giúp nghệ sĩ, nhà thiết kế và nhà làm phim biến các ý tưởng thành video nhanh hơn với chi phí thấp.

Giáo sư Hany Farid tại Đại học California đánh giá video do Gen-2 tạo ra "siêu tuyệt vời". Ông dự đoán video chất lượng cao hơn từ công nghệ này chỉ là vấn đề thời gian.

Tuy nhiên, ông lo ngại Gen-2 có thể trở thành công nghệ dễ bị lạm dụng và có thể nguy hiểm hơn cả deepfake. Chẳng hạn, kẻ xấu có thể cho ra đời video giả mạo để lan truyền tin giả, lừa đảo...

Theo The Verge, Runway đang mở ra cuộc đua mới cho mô hình AI tổng quát, nơi khả năng sáng tạo không giới hạn, bất kể nội dung là văn bản, hình ảnh hay video. Dù vậy, trang công nghệ này cũng lo ngại chúng sẽ bị lợi dụng trong các nội dung tinh vi khiến người dùng tin tưởng lập tức, bất kể đúng hay sai.

Gen-2 hiện bị hạn chế quyền truy cập, người dùng cần đăng ký và chờ đợi. Theo người phát ngôn Kelsey Rondenet của Runway, người dùng sẽ được cấp quyền truy cập rộng rãi trong những tuần tới.

Theo VnExpress