Microsoft đã tiết lộ hai con chip tại hội nghị Ignite ở Seattle vào thứ Tư.
Đầu tiên, chip trí tuệ nhân tạo Maia 100, có thể cạnh tranh với các đơn vị xử lý đồ họa AI được săn đón nhiều của Nvidia. Loại thứ hai, chip Cobalt 100 Arm, nhằm vào các tác vụ tính toán thông thường và có thể cạnh tranh với bộ xử lý Intel.
Các công ty công nghệ giàu tiền mặt đã bắt đầu cung cấp cho khách hàng của họ nhiều lựa chọn hơn về cơ sở hạ tầng đám mây mà họ có thể sử dụng để chạy các ứng dụng. Alibaba, Amazon và Google đã làm điều này trong nhiều năm. Theo một ước tính, Microsoft, với khoảng 144 tỷ USD tiền mặt vào cuối tháng 10, chiếm 21,5% thị phần đám mây vào năm 2022, chỉ sau Amazon.
Rani Borkar, phó chủ tịch công ty, cho biết trong một cuộc phỏng vấn rằng, các phiên bản máy ảo chạy trên chip Cobalt sẽ có sẵn trên thị trường thông qua đám mây Azure của Microsoft vào năm 2024. Cô ấy không cung cấp mốc thời gian phát hành Maia 100.
Google đã công bố bộ xử lý tensor ban đầu cho AI vào năm 2016. Amazon Web Services đã tiết lộ chip dựa trên Graviton Arm và bộ xử lý Inferentia AI vào năm 2018, đồng thời công bố Trainium, dành cho các mô hình đào tạo vào năm 2020.
Các chip AI đặc biệt từ các nhà cung cấp đám mây có thể giúp đáp ứng nhu cầu khi thiếu GPU. Nhưng Microsoft và các công ty cùng ngành trong lĩnh vực điện toán đám mây không có kế hoạch cho phép các công ty mua máy chủ chứa chip của họ, không giống như Nvidia hay AMD.
Borkar giải thích, công ty đã xây dựng chip dành cho điện toán AI dựa trên phản hồi của khách hàng.
Microsoft đang thử nghiệm cách Maia 100 đáp ứng nhu cầu của chatbot AI của công cụ tìm kiếm Bing (hiện được gọi là Copilot thay vì Bing Chat), trợ lý mã hóa GitHub Copilot và GPT-3.5-Turbo, một mô hình ngôn ngữ lớn từ OpenAI do Microsoft hậu thuẫn, Borkar nói. OpenAI đã cung cấp cho các mô hình ngôn ngữ của mình một lượng lớn thông tin từ internet và chúng có thể tạo email, tóm tắt tài liệu và trả lời các câu hỏi bằng một vài lời hướng dẫn của con người.
Mẫu GPT-3.5-Turbo hoạt động trong trợ lý ChatGPT của OpenAI, tính năng này đã trở nên phổ biến ngay sau khi ra mắt vào năm ngoái. Sau đó, các công ty đã nhanh chóng bổ sung các khả năng trò chuyện tương tự vào phần mềm của họ, làm tăng nhu cầu về GPU.
“Chúng tôi đã làm việc toàn diện và [với] tất cả các nhà cung cấp khác nhau để giúp cải thiện vị thế nguồn cung của chúng tôi cũng như hỗ trợ nhiều khách hàng cũng như nhu cầu mà họ đặt ra trước mắt chúng tôi,” Colette Kress, giám đốc tài chính của Nvidia, cho biết tại hội nghị Evercore ở New York vào tháng 9.
OpenAI trước đây đã đào tạo các mô hình về GPU Nvidia trong Azure.
Ngoài việc thiết kế chip Maia, Microsoft còn phát minh ra phần cứng làm mát bằng chất lỏng tùy chỉnh có tên Sidekicks, đặt vừa trong các giá đỡ ngay cạnh các giá đỡ chứa máy chủ Maia. Người phát ngôn cho biết công ty có thể cài đặt các giá đỡ máy chủ và giá đỡ Sidekick mà không cần trang bị thêm.
Với GPU, việc tận dụng tối đa không gian hạn chế của trung tâm dữ liệu có thể đặt ra nhiều thách thức. Steve Tuck, đồng sáng lập và CEO của công ty khởi nghiệp máy chủ Oxide Computer, cho biết: Các công ty đôi khi đặt một vài máy chủ chứa GPU ở dưới cùng của giá đỡ như “những đứa trẻ mồ côi” để tránh tình trạng quá nóng, thay vì chất đầy giá từ trên xuống dưới. Tuck cho biết, các công ty đôi khi bổ sung thêm hệ thống làm mát để giảm nhiệt độ.
Microsoft có thể thấy việc áp dụng bộ xử lý Cobalt nhanh hơn so với chip Maia AI nếu trải nghiệm của Amazon là hướng dẫn. Microsoft đang thử nghiệm ứng dụng Teams và dịch vụ Cơ sở dữ liệu Azure SQL trên Cobalt. Microsoft cho biết cho đến nay, chúng đã hoạt động tốt hơn 40% so với các chip dựa trên Arm hiện có của Azure, đến từ công ty khởi nghiệp Ampere, Microsoft cho biết.
Trong một năm rưỡi qua, khi giá và lãi suất tăng cao hơn, nhiều công ty đã tìm ra các phương pháp giúp chi tiêu trên nền tảng đám mây của họ hiệu quả hơn và đối với khách hàng của AWS, Graviton là một trong số đó. Phó chủ tịch Dave Brown cho biết tất cả 100 khách hàng hàng đầu của AWS hiện đang sử dụng chip dựa trên Arm, điều này có thể mang lại sự cải thiện hiệu suất về giá 40%.
Tuy nhiên, việc chuyển từ GPU sang chip AI AWS Trainium có thể phức tạp hơn việc chuyển từ Intel Xeons sang Graviton. Mỗi mô hình AI đều có những đặc điểm riêng. Brown cho biết, nhiều người đã làm việc để tạo ra nhiều công cụ khác nhau hoạt động trên Arm vì sự phổ biến của chúng trong các thiết bị di động và điều đó ít đúng hơn đối với silicon dành cho AI. Nhưng theo thời gian, ông cho biết, ông hy vọng các tổ chức sẽ thấy mức tăng hiệu suất-giá tương tự với Trainium so với GPU.
Bà nói: “Chúng tôi đã chia sẻ những thông số kỹ thuật này với hệ sinh thái và với nhiều đối tác trong hệ sinh thái, điều này mang lại lợi ích cho tất cả khách hàng Azure của chúng tôi”. Borkar cho biết cô không có thông tin chi tiết về hiệu suất của Maia so với các lựa chọn thay thế như H100 của Nvidia. Hôm thứ Hai, Nvidia cho biết H200 của họ sẽ bắt đầu xuất xưởng vào quý 2 năm 2024.