Nhiều người rất thích sử dụng ChatGPT, nhưng về bản chất thì nó vẫn chỉ là một cái khung hội thoại (text box) chứ không hỗ trợ ra lệnh bằng giọng nói như Apple Siri. Tin vui là điều này sẽ thay đổi, vì OpenAI – nhà phát triển của ChatGPT – vừa mới công bố trên trang blog của họ rằng tính năng nhận diện giọng nói và hình ảnh sẽ được bổ sung vào ChatGPT. Cụ thể, OpenAI cho biết sắp tới, người dùng có thể xài giọng nói để trò chuyện hoặc ra lệnh cho ChatGPT, chẳng hạn như là kêu nó kể chuyện bé nghe vào buổi tối, hoặc là tìm câu trả lời khi thắc mắc về 1 vấn đề nào đó.
Điều này có nghĩa là người dùng có thể yêu cầu ChatGPT theo cách tự nhiên hơn là phải gõ nội dung trên iPhone và Android, hay thậm chí có thể sử dụng hình ảnh để có được câu trả lời tốt hơn. Điểm chính là người dùng sẽ không phải trả tiền mua ChatGPT Plus để nhận được các cập nhật, dù những tài khoản trả phí sẽ là nhóm đầu tiên được dùng thử.
Người dùng tài khoản Plus và Enterprise sẽ nhận được cập nhật này trong hai tuần tới, kế đến là các nhóm người dùng khác, bao gồm cả nhà phát triển. Việc sử dụng hình ảnh để nhập vào ChatGPT là cách các mô hình AI đa phương thức hoạt động. Nó tương tự như cách gã khổng lồ tìm kiếm sử dụng Google Lens với AI.
Trong khi đó, tính năng hỗ trợ giọng nói sẽ chỉ có trên ứng dụng ChatGPT dành cho iPhone và Android. Người dùng chỉ cần bật trong phần cài đặt của ứng dụng sau khi tính năng này được mở. OpenAI cho biết ChatGPT chỉ cần vài giây lời nói mẫu để tạo ra âm thanh giống con người từ văn bản, hãng đang sử dụng mô hình chuyển văn bản thành giọng nói mới cho việc đó.
Công nghệ này có khả năng tạo ra giọng nói tổng hợp thực tế chỉ từ lời nói thực trong vài giây, nó mở ra cánh cửa cho nhiều ứng dụng sáng tạo và tập trung vào khả năng tiếp cận. Tuy nhiên điều này cũng tiềm ẩn những rủi ro mới, chẳng hạn như khả năng mạo danh nhân vật nổi tiếng hoặc thực hiện hành vi lừa đảo. OpenAI cũng cho biết đang hợp tác với Spotify để thử nghiệm tính năng dịch giọng nói cho podcast, cho phép nhà sáng tạo dịch nội dung của họ sang các ngôn ngữ khác bằng giọng nói của chính họ.