Một số phòng thí nghiệm và công ty lớn đang tích cực nghiên cứu và phát triển công nghệ này, với những hứa hẹn đáng chú ý về việc AI sẽ ngày càng thông minh và hiểu sâu sắc hơn về thế giới xung quanh.
Trong đó, phòng thí nghiệm World Labs của giáo sư Fei-Fei Li, một trong những người tiên phong về AI, đã huy động được 230 triệu USD để xây dựng mô hình thế giới quy mô lớn. Google DeepMind cũng không đứng ngoài cuộc khi chiêu mộ Tim Brooks, người đứng đầu nhóm Sora, và chuyên gia William Peebles, để phát triển "trình mô phỏng thế giới" cho AI.
Khái niệm "World Model" lấy cảm hứng từ mô hình tinh thần (Mental Model), một lý thuyết do Jay Wright Forrester nêu ra trong cuốn Hành vi phản trực giác của các hệ thống xã hội vào năm 1971. Theo đó, con người không thể nhận thức được toàn bộ thế giới mà chỉ có thể tưởng tượng những phần nhỏ thông qua các mô hình trừu tượng. Tương tự như vậy, World Model cũng cho phép AI xây dựng những mô hình trừu tượng về thế giới để từ đó hiểu và dự đoán các sự kiện.
Các nhà nghiên cứu AI như David Ha và Jürgen Schmidhuber đã chỉ ra rằng, để hoạt động hiệu quả, AI cần khả năng dự đoán các hành động trong tương lai, giống như một cầu thủ bóng chày phải đoán trước hướng ném bóng và thời điểm vung gậy. Đây chính là cách mà World Model có thể giúp AI "nhận thức" giống con người, dự đoán và hành động trước khi sự kiện xảy ra, thay vì chỉ phản ứng theo từng tình huống.
Một trong những thách thức lớn nhất hiện nay đối với các hệ thống AI là khả năng dự đoán chính xác các sự kiện mà không hiểu rõ nguyên nhân của chúng. Ví dụ, các công cụ AI tạo video từ văn bản hiện nay có thể dự đoán chính xác một quả bóng rổ nảy lên, nhưng không hiểu lý do tại sao quả bóng lại nảy như vậy. Điều này dẫn đến những hạn chế khi AI phải xử lý các tình huống phức tạp hơn.
World Model giải quyết vấn đề này bằng cách giúp AI hiểu lý do và quy luật đằng sau các sự kiện. Để làm được điều đó, AI phải được huấn luyện với nhiều loại dữ liệu khác nhau như ảnh, âm thanh, video và văn bản, giúp nó "hiểu" cách thế giới vận hành và đưa ra các quyết định dựa trên suy luận sâu sắc.
Bên cạnh việc cải thiện khả năng tạo video, World Model còn có thể mở ra những ứng dụng đột phá trong các lĩnh vực khác, từ dự báo thời tiết đến lập kế hoạch cho các hệ thống AI phức tạp. Các chuyên gia như Yann LeCun, Giám đốc AI của Meta, cho rằng World Model có thể giúp AI tự suy luận và lập kế hoạch hành động để đạt được mục tiêu mong muốn. Một ví dụ đơn giản là AI có thể giúp dọn dẹp một căn phòng bẩn, từ việc xác định công việc cần làm đến việc thực hiện các hành động như triển khai máy hút bụi, rửa bát đĩa hay đổ rác.
LeCun cũng nhấn mạnh rằng, AI cần phải có khả năng "nhận thức" và suy luận giống như con người, hiểu được mục tiêu và biết cách đạt được mục tiêu đó thông qua một chuỗi hành động hợp lý. Dù công nghệ này vẫn còn trong giai đoạn phát triển, các chuyên gia tin rằng nó có thể hoàn thiện trong một thập kỷ tới.
Mặc dù tiềm năng của World Model là rất lớn, việc xây dựng và triển khai công nghệ này gặp không ít khó khăn. Để huấn luyện một mô hình thế giới, các nhà nghiên cứu phải sử dụng một lượng dữ liệu khổng lồ, nhiều gấp nhiều lần so với các mô hình ngôn ngữ hiện tại. Việc thiếu dữ liệu chất lượng và sức mạnh tính toán cần thiết đang làm chậm tiến trình phát triển.
Cristóbal Valenzuela, CEO của Runway AI, cho rằng rào cản lớn nhất đối với World Model chính là thiếu dữ liệu và sự phức tạp trong việc tạo ra các mô hình nhất quán về thế giới. Tuy nhiên, nếu vượt qua được những thách thức này, World Model có thể tạo ra những bước đột phá trong việc kết nối AI với thế giới thực, đặc biệt là khi kết hợp với robot.
Theo Alex Mashrabov, CEO của Higgsfield, một mô hình World Model mạnh mẽ sẽ giúp AI có thể hiểu và tương tác với thế giới giống như con người, mở ra cơ hội cho những tiến bộ chưa từng có trong lĩnh vực AI và robot.
World Model là một công nghệ đầy hứa hẹn, có khả năng đưa AI lên một tầm cao mới, nơi mà trí tuệ nhân tạo không chỉ đơn thuần là máy tính xử lý thông tin, mà thực sự có thể "hiểu" và "suy luận" về thế giới. Mặc dù còn nhiều thử thách, nhưng những tiến bộ trong nghiên cứu và phát triển sẽ là nền tảng vững chắc để AI tiến gần hơn đến khả năng tự nhận thức và tương tác một cách linh hoạt với môi trường sống.