Meta External Agent hoạt động bằng cách sao chép và thu thập dữ liệu công khai từ mọi ngóc ngách của internet, bao gồm các bài viết trên trang tin tức, bình luận trên mạng xã hội, và nội dung từ các diễn đàn trực tuyến. Công cụ này tương tự như GPTBot của OpenAI, một phần mềm cũng được sử dụng để thu thập dữ liệu cho việc đào tạo AI.
Theo Dark Visitors, một công ty chuyên cung cấp công cụ chống bot, Meta External Agent có thể thu thập dữ liệu từ các trang web mà GPTBot bị chặn. Dữ liệu từ Dark Visitors cho thấy khoảng 25% các trang web phổ biến trên thế giới đã chặn GPTBot, trong khi chỉ có 2% trang web chặn Meta External Agent.
Dựa trên bản lưu Internet Archive từ cuối tháng 7, Meta đã cập nhật trang web dành cho nhà phát triển của mình, bao gồm thông tin về công cụ thu thập dữ liệu mới. Tuy nhiên, công ty của Zuckerberg vẫn chưa công khai thông tin chi tiết về Meta External Agent.
Phát ngôn viên của Meta đã xác nhận sự tồn tại của công cụ thu thập dữ liệu này, nhưng cho biết công cụ có tên gọi chính thức là Facebook External Hit và đã được sử dụng trong nhiều năm qua với nhiều tính năng khác nhau. "Chúng tôi, giống như các công ty khác, sử dụng dữ liệu công khai có sẵn trên mạng để huấn luyện các mô hình AI của mình," đại diện Meta cho biết.
Giới chuyên gia nhận định sự ra đời của Meta External Agent là minh chứng cho sự mở rộng không ngừng của kho dữ liệu mà Meta đang có. Công ty đang tích cực nâng cấp các mô hình ngôn ngữ lớn như LLaMA, mới nhất là LLaMA 3.1, đồng thời mở rộng hoạt động Meta AI. Meta dự kiến chi tới 40 tỷ USD trong năm nay cho các hoạt động liên quan đến cơ sở hạ tầng, chip AI, và các chi phí phát triển khác.
Sự đầu tư mạnh mẽ của Meta vào việc thu thập dữ liệu và nâng cấp AI cho thấy sự quyết tâm của công ty trong việc duy trì vị thế dẫn đầu trong lĩnh vực công nghệ trí tuệ nhân tạo.