Ngày 28/6, OpenAI đã trình diễn khả năng đặc biệt của GPT-4o qua một video, trong đó một người Tây Ban Nha với nền tảng cơ bản về tiếng Bồ Đào Nha sử dụng ChatGPT để hỗ trợ người bạn học ngôn ngữ này. Ứng dụng cho phép người dùng yêu cầu điều chỉnh tốc độ nói hoặc giải thích các cụm từ chưa rõ, và ChatGPT thực hiện hoàn hảo các yêu cầu này.
Điểm nổi bật của AVM trong GPT-4o là khả năng chuyển đổi giọng nói trực tiếp từ giọng nói sang giọng nói (speech-to-speech) một cách tự nhiên và thời gian thực. Các mô hình AI trước đây phải chuyển giọng nói thành văn bản và ngược lại, nhưng GPT-4o có thể hiểu và phản hồi trực tiếp dựa trên giọng nói của người dùng.
Khả năng này mang đến nhiều tiện ích, bao gồm hỗ trợ nhiều ngôn ngữ khác nhau với giọng điệu và khẩu âm đa dạng, tương tự như việc tương tác với một giáo viên ngoại ngữ. Phân tích giọng nói tự nhiên giúp GPT-4o nhận biết cách phát âm và giọng điệu của người dùng, từ đó cung cấp phản hồi chính xác và phù hợp hơn.
Trong buổi công bố GPT-4o vào ngày 14/5, CTO của OpenAI, Mira Murati, đã nhấn mạnh rằng giọng nói và khả năng đàm thoại của GPT-4o đã đạt được bước tiến vượt bậc. Mô hình AI này không chỉ có khả năng thể hiện cảm xúc và thay đổi giọng điệu mà còn có thể thêm yếu tố hài hước và tự điều chỉnh cách nói phù hợp với nội dung câu lệnh, mang đến trải nghiệm học ngoại ngữ thú vị và hiệu quả hơn.
Với việc tích hợp công nghệ giọng nói nâng cao vào GPT-4o, OpenAI đang mở ra một chương mới trong lĩnh vực học ngoại ngữ bằng AI. Khả năng chuyển đổi giọng nói trực tiếp và phản hồi theo thời gian thực không chỉ nâng cao hiệu quả học tập mà còn tạo ra một trải nghiệm học ngôn ngữ tương tác và gần gũi hơn. Khi công nghệ này được triển khai rộng rãi, nó hứa hẹn sẽ làm thay đổi cách chúng ta tiếp cận việc học ngoại ngữ và tạo cơ hội mới cho người dùng trên toàn thế giới.