Vấn đề lâu nay trong robot học là khoảng cách giữa lời nói và hành động: con người ra lệnh bằng ngôn ngữ, còn robot lại hoạt động dựa trên thông số kỹ thuật, thuật toán và đặc tính cơ học riêng biệt. Việc dịch một câu lệnh như “đi thẳng vài bước rồi rẽ phải” thành hành động cụ thể phụ thuộc rất nhiều vào loại robot nhận lệnh – điều từng khiến các hệ thống AI gặp khó trong việc mở rộng khả năng điều khiển đa dạng robot. MotionGlot giải quyết vấn đề này bằng cách tiếp cận chuyển động như... một ngôn ngữ.
Đây là cách tiếp cận mang tính đột phá: thay vì lập trình từng hành vi cho từng robot, MotionGlot dùng nguyên lý học máy tương tự các mô hình ngôn ngữ như ChatGPT – nhưng thay vì dự đoán từ tiếp theo, nó dự đoán phần chuyển động kế tiếp. Bằng cách phân tách hành động thành các “token chuyển động” như nhấc chân, chuyển trọng tâm, xoay đầu... rồi ghép lại thành chuỗi logic, AI này có thể sinh ra những chuyển động tự nhiên từ mô tả ngôn ngữ đơn giản.
Quan trọng hơn, MotionGlot còn có khả năng "phiên dịch" chuyển động từ một loại cơ thể (như con người) sang một robot khác (như robot 4 chân). Bằng cách huấn luyện từ hai bộ dữ liệu – QUAD-LOCO và QUES-CAP – mô hình hiểu rằng hành động “đi bộ” của con người và “chạy bằng bốn chân” của robot chó tuy khác hình thức nhưng tương đồng về bản chất.
Ứng dụng của công nghệ này là rất lớn: trong các nhà máy, người lao động không cần học ngôn ngữ lập trình mà chỉ cần ra lệnh bằng lời nói; trong bệnh viện, robot trợ lý có thể nhanh chóng hiểu và phản ứng với chỉ dẫn của bác sĩ. Với ngành game và hoạt hình, việc tạo chuyển động cho nhân vật kỹ thuật số sẽ trở nên nhanh hơn, linh hoạt hơn bao giờ hết.
Dẫu vậy, cần nhìn nhận MotionGlot như một nền tảng ban đầu hơn là giải pháp hoàn thiện. Việc thử nghiệm mới dừng ở các bộ dữ liệu được kiểm soát, và năng lực hiểu lệnh phức tạp hay ngữ cảnh thực tế vẫn là thử thách. Tuy nhiên, nhóm nghiên cứu có kế hoạch mở mã nguồn – điều có thể tạo ra một làn sóng cải tiến trong cộng đồng mã nguồn mở.
MotionGlot không chỉ là một công cụ; nó là lời gợi mở cho một tương lai nơi ngôn ngữ – không phải dòng lệnh – trở thành giao diện chính giữa người và máy. Nếu thành công, đây sẽ là một trong những bước tiến quan trọng nhất đưa AI đến gần hơn với trực giác và khả năng tương tác tự nhiên của con người.