Google ra mắt thứ mà họ coi là mô hình trí tuệ nhân tạo lớn nhất và có khả năng nhất vào thứ Tư khi áp lực đè nặng lên công ty trong việc trả lời cách kiếm tiền từ AI.
Mô hình ngôn ngữ lớn Gemini sẽ bao gồm một bộ gồm ba kích cỡ khác nhau: Gemini Ultra, danh mục lớn nhất, có khả năng nhất; Gemini Pro, có khả năng mở rộng trên nhiều nhiệm vụ; và Gemini Nano, nó sẽ sử dụng cho các tác vụ và thiết bị di động cụ thể.
Hiện tại, công ty đang có kế hoạch cấp phép Gemini cho khách hàng thông qua Google Cloud để họ sử dụng trong các ứng dụng của riêng mình. Bắt đầu từ ngày 13 tháng 12, các nhà phát triển và khách hàng doanh nghiệp có thể truy cập Gemini Pro thông qua API Gemini trong Google AI Studio hoặc Google Cloud Vertex AI. Các nhà phát triển Android cũng sẽ có thể xây dựng bằng Gemini Nano. Gemini cũng sẽ được sử dụng để hỗ trợ các sản phẩm của Google như chatbot Bard và Search Generative Experience, vốn cố gắng trả lời các truy vấn tìm kiếm bằng văn bản kiểu hội thoại (SGE chưa được phổ biến rộng rãi).
“Gemini là kết quả của những nỗ lực hợp tác quy mô lớn của các nhóm trên Google, bao gồm cả các đồng nghiệp của chúng tôi tại Google Research”, CEO Sundar Pichai viết trong một bài đăng trên blog hôm thứ Tư. “Nó được xây dựng từ đầu để trở thành đa phương thức, có nghĩa là nó có thể khái quát hóa và hiểu liền mạch, vận hành và kết hợp các loại thông tin khác nhau bao gồm văn bản, mã, âm thanh, hình ảnh và video.”
Bắt đầu từ hôm nay, chatbot Bard của Google sẽ sử dụng Gemini Pro để trợ giúp về lý luận, lập kế hoạch, hiểu biết nâng cao và các khả năng khác. Đầu năm tới, hãng sẽ ra mắt “Bard Advanced”, sẽ sử dụng Gemini Ultra, các giám đốc điều hành cho biết trong cuộc gọi với các phóng viên hôm thứ Ba. Nó đại diện cho bản cập nhật lớn nhất cho Bard, chatbot giống ChatGPT của nó.
Bản cập nhật này xuất hiện 8 tháng sau khi gã khổng lồ tìm kiếm ra mắt Bard lần đầu tiên và một năm sau khi OpenAI ra mắt ChatGPT trên GPT-3.5. Vào tháng 3 năm nay, công ty khởi nghiệp do Sam Altman dẫn đầu đã ra mắt GPT-4. Các nhà điều hành cho biết hôm thứ Ba rằng Gemini Pro hoạt động tốt hơn GPT-3.5 nhưng né tránh các câu hỏi về cách nó so sánh với GPT-4.
Tuy nhiên, mô hình Ultra của Gemini vượt trội hơn GPT-4 ở một số điểm chuẩn, theo sách trắng mà Google phát hành hôm thứ Tư.
Khi được hỏi liệu Google có kế hoạch tính phí quyền truy cập vào “Bard Advanced” hay không, tổng giám đốc Google của Bard, Sissie Hsiao, cho biết họ tập trung vào việc tạo ra trải nghiệm tốt và chưa có bất kỳ chi tiết kiếm tiền nào.
Khi được hỏi trong một cuộc họp báo rằng liệu Gemini có bất kỳ khả năng mới nào so với các mô hình ngôn ngữ lớn (LLM) thế hệ hiện tại hay không, Eli Collins, phó chủ tịch sản phẩm tại Google DeepMind, đã trả lời: “Tôi nghi ngờ là có” nhưng họ vẫn đang nỗ lực tìm hiểu các khả năng mới của Gemini Ultra.
Google được cho là đã hoãn việc ra mắt Gemini vì họ chưa sẵn sàng, gợi lại những ký ức về quá trình triển khai mạnh mẽ các công cụ AI của công ty vào đầu năm.
Nhiều phóng viên đã hỏi về sự chậm trễ, Collins trả lời rằng việc thử nghiệm các mẫu máy tiên tiến hơn sẽ mất nhiều thời gian hơn. Collins cho biết Gemini là mô hình AI được thử nghiệm nhiều nhất mà công ty đã xây dựng và nó có “các đánh giá an toàn toàn diện nhất” so với bất kỳ mô hình nào của Google.
Collins cho biết mặc dù là mô hình mới nhất nhưng chi phí phục vụ của Gemini Ultra lại rẻ hơn đáng kể. “Nó không chỉ có khả năng cao hơn mà còn hiệu quả hơn,” ông nói. “Chúng tôi vẫn yêu cầu khả năng tính toán đáng kể để đào tạo Gemini nhưng chúng tôi đang ngày càng hiệu quả hơn nhiều về khả năng đào tạo những mô hình này.”
Collins cho biết công ty sẽ phát hành sách trắng kỹ thuật với nhiều thông tin chi tiết hơn về mô hình vào thứ Tư nhưng cho biết họ sẽ không công bố số lượng chu vi. Đầu năm nay, CNBC nhận thấy mô hình ngôn ngữ lớn PaLM 2 của Google, mô hình AI mới nhất của hãng vào thời điểm đó, đã sử dụng lượng dữ liệu văn bản để đào tạo gần gấp 5 lần so với LLM tiền nhiệm.
Cũng trong ngày thứ Tư, Google đã giới thiệu bộ xử lý tensor thế hệ tiếp theo để đào tạo các mô hình AI. Google cho biết chip TPU v5p mà Salesforce và công ty khởi nghiệp Lightricks đã bắt đầu sử dụng, mang lại hiệu suất tốt hơn ở mức giá so với TPU v4 được công bố vào năm 2021. Nhưng công ty không cung cấp thông tin về hiệu suất so với công ty dẫn đầu thị trường Nvidia.
Thông báo về chip được đưa ra vài tuần sau khi các đối thủ đám mây Amazon và Microsoft trình diễn AI nhắm mục tiêu silicon tùy chỉnh.
Trong cuộc gọi hội nghị thu nhập quý 3 của Google vào tháng 10, các nhà đầu tư đã hỏi các giám đốc điều hành nhiều câu hỏi hơn về cách biến AI thành lợi nhuận thực tế.
Vào tháng 8, Google đã khởi động một “thử nghiệm ban đầu” có tên là Search Generative Experience hay SGE, cho phép người dùng xem trải nghiệm AI tổng quát sẽ như thế nào khi sử dụng công cụ tìm kiếm - tìm kiếm vẫn là một trung tâm lợi nhuận lớn của công ty. Kết quả là mang tính trò chuyện nhiều hơn, phản ánh thời đại của chatbot. Tuy nhiên, nó vẫn được coi là một thử nghiệm và vẫn chưa ra mắt công chúng.
Các nhà đầu tư đã yêu cầu về mốc thời gian cho SGE kể từ tháng 5, khi công ty lần đầu tiên công bố thử nghiệm này tại hội nghị nhà phát triển hàng năm Google I/O. Thông báo của Gemini hôm thứ Tư hầu như không đề cập đến SGE và các giám đốc điều hành còn mơ hồ về kế hoạch ra mắt công chúng, nói rằng Gemini sẽ được sáp nhập vào nó “trong năm tới”.
Pichai cho biết trong bài đăng trên blog hôm thứ Tư: “Kỷ nguyên mô hình mới này đại diện cho một trong những nỗ lực khoa học và kỹ thuật lớn nhất mà chúng tôi đã thực hiện với tư cách là một công ty”. “Tôi thực sự vui mừng vì những gì phía trước và những cơ hội mà Gemini sẽ mở ra cho mọi người ở khắp mọi nơi.”