Trong cuộc phỏng vấn ngày 9/1, Elon Musk tuyên bố rằng "toàn bộ dữ liệu và tri thức do con người tạo ra đã được AI khai thác hết từ năm ngoái". Theo ông, để tiếp tục đào tạo các mô hình AI mới, ngành công nghệ buộc phải dựa vào dữ liệu tổng hợp – một nguồn thông tin được chính AI tạo ra thông qua quá trình tự đánh giá và xây dựng tri thức.
"Việc sử dụng dữ liệu tổng hợp giống như khi chúng ta viết một bài luận, tự chấm điểm và từ đó mở rộng kiến thức. Nhưng quá trình này không hoàn hảo", Musk nhận định.
Dù dữ liệu tổng hợp được các "ông lớn" như Meta, Microsoft, Google hay OpenAI ứng dụng, Musk cảnh báo rằng các mô hình AI hiện nay vẫn dễ gặp hiện tượng "ảo giác". Đây là thuật ngữ mô tả việc AI đưa ra những kết quả sai lệch hoặc vô nghĩa, gây nguy cơ thông tin bị bóp méo.
"Ảo giác AI là thách thức lớn nhất khi dùng dữ liệu tổng hợp, bởi chúng ta không thể xác định liệu câu trả lời của AI là chính xác hay chỉ là sản phẩm của trí tưởng tượng," Musk nói.
Andrew Duncan, Giám đốc AI tại Viện Alan Turing (Anh), chia sẻ quan điểm tương đồng với Musk. Theo ông, dữ liệu công khai để đào tạo AI có thể cạn kiệt vào năm 2026, buộc các công ty phải phụ thuộc nhiều hơn vào dữ liệu tổng hợp. Tuy nhiên, điều này có thể dẫn đến nguy cơ "mô hình sụp đổ" – khi chất lượng đầu ra suy giảm, tính thiên kiến gia tăng và AI mất đi khả năng sáng tạo.
Không chỉ vậy, dữ liệu chất lượng cao đã trở thành tâm điểm tranh chấp pháp lý trong cuộc đua AI. OpenAI thừa nhận họ không thể phát triển các công cụ như ChatGPT nếu thiếu quyền truy cập vào dữ liệu có bản quyền. Các nhà xuất bản và ngành công nghiệp sáng tạo cũng đang yêu cầu các công ty công nghệ trả phí cho việc sử dụng tài liệu của họ trong quá trình đào tạo AI.
Việc AI ngày càng phụ thuộc vào dữ liệu tổng hợp đặt ra câu hỏi lớn về cách con người kiểm soát công nghệ này. Dù mang đến tiềm năng đột phá, AI cần được phát triển cẩn trọng để tránh những hậu quả nghiêm trọng liên quan đến thông tin sai lệch và mất cân bằng dữ liệu.
Theo Musk, cuộc cách mạng AI không chỉ đòi hỏi những bước tiến công nghệ mà còn là sự minh bạch, công bằng và cân nhắc kỹ lưỡng trong việc sử dụng nguồn lực dữ liệu của loài người.