OpenAI, công ty đã trở nên phổ biến vào năm ngoái nhờ sự phổ biến của ChatGPT, đang đưa công nghệ trí tuệ nhân tạo của mình vào video.
Hôm qua, thứ Năm (15/2), OpenAI đã giới thiệu Sora, mô hình AI thế hệ mới của mình. Sora hoạt động tương tự như công cụ AI tạo hình ảnh của OpenAI, DALL-E. Người dùng nhập dữ liệu mong muốn và Sora sẽ trả về một video clip có độ phân giải cao. Sora cũng có thể tạo các video clip lấy cảm hứng từ hình ảnh tĩnh và mở rộng các video hiện có hoặc điền vào các khung hình còn thiếu.
Video có thể là biên giới tiếp theo cho AI sáng tạo khi các chatbot và trình tạo hình ảnh đã xâm nhập vào thế giới tiêu dùng và kinh doanh. Mặc dù các cơ hội sáng tạo sẽ kích thích những người đam mê AI, nhưng các công nghệ mới đang gây ra mối lo ngại nghiêm trọng về thông tin sai lệch khi các cuộc bầu cử chính trị lớn đang đến gần trên toàn cầu. Theo dữ liệu từ Clarity, một công ty máy học, số lượng deepfake do AI tạo ra đã tăng 900% so với năm trước.
Với Sora, OpenAI đang tìm cách cạnh tranh với các công cụ AI tạo video từ các công ty như Meta và Google, công ty đã công bố Lumiere vào tháng 1. Các công cụ AI tương tự cũng có sẵn từ các công ty khởi nghiệp khác, chẳng hạn như Stability AI, có sản phẩm có tên là Stable Video Diffusion. Amazon cũng đã phát hành Create with Alexa, một mô hình chuyên tạo nội dung hoạt hình dạng ngắn dành cho trẻ em dựa trên lời nhắc.
Sora hiện bị giới hạn trong việc tạo các video dài một phút hoặc ít hơn. OpenAI, được hỗ trợ bởi Microsoft, đã biến tính đa phương thức - sự kết hợp giữa tạo văn bản, hình ảnh và video - thành mục tiêu trong nỗ lực cung cấp một bộ mô hình AI rộng hơn.
COO OpenAI Brad Lightcap nói với CNBC vào tháng 11: “Đó là một thế giới là đa phương thức,” . “Nếu bạn nghĩ về cách con người chúng ta xử lý thế giới và tương tác với thế giới, chúng ta nhìn thấy mọi thứ, chúng ta nghe thấy mọi thứ, chúng ta nói những điều - thế giới lớn hơn nhiều so với văn bản. Vì vậy, đối với chúng tôi, việc văn bản và mã trở thành các phương thức duy nhất, các giao diện duy nhất mà chúng tôi có thể có, cho thấy mức độ mạnh mẽ của các mô hình này và những gì chúng có thể làm, luôn cảm thấy chưa đầy đủ.”
Cho đến nay, Sora chỉ được cung cấp cho một nhóm nhỏ những người thử nghiệm an toàn, hay còn gọi là “đội đỏ”, những người kiểm tra mô hình để tìm các lỗ hổng trong các lĩnh vực như thông tin sai lệch. Công ty chưa phát hành bất kỳ bản trình diễn công khai nào ngoài 10 clip mẫu có sẵn trên trang web của mình và cho biết tài liệu kỹ thuật đi kèm sẽ được phát hành sau đó vào thứ Năm tuần này.
OpenAI cũng cho biết họ đang xây dựng một “bộ phân loại phát hiện” có thể xác định các video clip do Sora tạo và họ có kế hoạch đưa một số siêu dữ liệu nhất định vào đầu ra để giúp xác định nội dung do AI tạo. Đó là loại siêu dữ liệu tương tự mà Meta đang tìm cách sử dụng để xác định các hình ảnh do AI tạo ra trong năm bầu cử này.
Sora là một mô hình AI phổ biến, giống như ChatGPT, sử dụng kiến trúc Transformer, được các nhà nghiên cứu của Google giới thiệu trong một bài báo năm 2017.
“Sora đóng vai trò là nền tảng cho các mô hình có thể hiểu và mô phỏng thế giới thực,” OpenAI viết trong thông báo của mình.