Scale AI hiện vận hành một “đội quân nhãn dán” hơn 240.000 người trên toàn cầu – những người lặng lẽ gán nhãn hàng triệu dòng dữ liệu mỗi ngày, từ ảnh xe tự lái đến văn bản hội thoại, giúp huấn luyện các mô hình AI trị giá hàng tỷ USD. Nhưng trái với quy mô ấn tượng, công cụ quản trị nội bộ của công ty lại đơn giản đến khó tin: Google Docs – nền tảng vốn không được thiết kế để lưu trữ dữ liệu nhạy cảm ở cấp độ doanh nghiệp AI toàn cầu.
Câu hỏi đặt ra: Vì sao một công ty được định giá hàng chục tỷ USD, nhận đầu tư từ Amazon, Meta, Qualcomm... lại quản lý dữ liệu kiểu “tùy tiện” như vậy?
Câu trả lời không nằm ở sự cẩu thả đơn thuần, mà phản ánh một cấu trúc vận hành thiên về tốc độ tăng trưởng và tiết kiệm chi phí, vốn dĩ đã tiềm ẩn rủi ro ngay từ khi mô hình “công nghiệp hóa lao động dữ liệu” ra đời.
Khi công việc huấn luyện AI được chia nhỏ thành nhiệm vụ gán nhãn đơn lẻ, thực hiện bởi hàng trăm nghìn người khắp thế giới, việc chia sẻ dữ liệu qua những nền tảng dễ tiếp cận như Google Docs trở thành “phương tiện tối ưu hóa chi phí” – đồng thời cũng là lỗ hổng chí tử.
Sự cố lần này khiến thông tin cá nhân của hàng nghìn cộng tác viên bị phơi bày: tên, địa chỉ, số ID, email, thậm chí cả đánh giá về mức độ đáng tin cậy. Trong thời đại mà dữ liệu cá nhân bị xem như “dầu mỏ mới”, việc quản lý thiếu trách nhiệm như vậy chẳng khác nào đẩy cộng đồng lao động AI vào thế bị khai thác kép: vừa bị bóc lột sức lao động, vừa bị đánh cắp thông tin cá nhân.
Điều trớ trêu là chính những người góp phần đào tạo trí tuệ nhân tạo – vốn được ca ngợi là “tương lai của nhân loại” – lại không được đối xử bằng một quy chuẩn tối thiểu về quyền riêng tư và bảo vệ dữ liệu.
Đây không phải là lần đầu Scale AI vướng vào tranh cãi. Trong quá khứ, công ty từng bị cáo buộc trả lương thấp, gây áp lực cao cho công nhân gán nhãn, và thiếu minh bạch trong quy trình huấn luyện mô hình. Sự cố rò rỉ dữ liệu lần này càng làm nổi bật nghịch lý đạo đức trong ngành AI: càng hướng đến tương lai, các công ty công nghệ càng bỏ quên những người đang làm việc cho họ trong hiện tại.
Nó cũng phản ánh một ranh giới mong manh giữa hiệu quả và trách nhiệm. Khi một công ty khởi nghiệp tăng trưởng thần tốc, mở rộng quy mô toàn cầu và gọi vốn hàng tỷ USD – liệu họ có đầu tư đủ vào hệ thống bảo mật, giám sát và bảo vệ quyền lợi người lao động? Hay tất cả chỉ là cuộc chạy đua theo vốn đầu tư, thị phần và những mô hình ngôn ngữ lớn?
Thật mỉa mai khi giá trị của một công ty huấn luyện dữ liệu tỷ đô lại bị đe dọa chỉ bởi một... đường link. Trong thế giới AI hiện đại, dữ liệu là nguyên liệu cốt lõi, và cũng là điểm yếu chí mạng nếu không được bảo vệ đúng cách.
Vụ việc của Scale AI không chỉ đặt ra câu hỏi về kỹ thuật bảo mật, mà còn buộc toàn ngành phải nghiêm túc nhìn lại mô hình phát triển AI dựa trên lao động rẻ tiền, tài liệu lỏng lẻo và hệ thống giám sát kém cỏi.
Nếu các công ty như Scale AI không thể cam kết an toàn dữ liệu cho chính cộng tác viên của mình, liệu họ có thể đảm bảo bất kỳ điều gì khác cho khách hàng, đối tác, và cả người dùng cuối? Niềm tin vào AI không thể được xây dựng trên một nền tảng Google Docs để công khai.