Nvidia đã công bố một con chip mới được thiết kế để chạy các mô hình trí tuệ nhân tạo vào thứ ba khi công ty đang tìm cách chống lại các đối thủ cạnh tranh trong không gian phần cứng AI, bao gồm AMD, Google và Amazon.
Hiện tại, Nvidia đang thống trị thị trường chip AI với hơn 80% thị phần, theo một số ước tính. Chuyên môn của công ty là các đơn vị xử lý đồ họa hoặc GPU, đã trở thành chip ưa thích cho các mô hình AI lớn làm nền tảng cho phần mềm AI tổng quát, chẳng hạn như Bard của Google và ChatGPT của OpenAI. Nhưng chip của Nvidia đang bị thiếu hụt khi những gã khổng lồ công nghệ, nhà cung cấp đám mây và công ty khởi nghiệp tranh giành năng lực GPU để phát triển các mô hình AI của riêng họ.
Chip mới của Nvidia, GH200, có cùng GPU với chip AI cao cấp nhất hiện tại của công ty, H100. Nhưng GH200 kết hợp GPU đó với bộ nhớ tiên tiến 141 gigabyte, cũng như bộ xử lý trung tâm ARM 72 lõi.
Giám đốc điều hành Nvidia Jensen Huang cho biết trong một cuộc nói chuyện tại một hội nghị vào thứ Ba: “Chúng tôi đang tăng cường sức mạnh cho bộ xử lý này. Anh ấy nói thêm, “Bộ xử lý này được thiết kế để mở rộng quy mô của các trung tâm dữ liệu trên thế giới.”
Huang cho biết chip mới sẽ có sẵn từ các nhà phân phối của Nvidia vào quý hai năm sau và sẽ có sẵn để lấy mẫu vào cuối năm nay. Đại diện của Nvidia từ chối đưa ra mức giá.
Thông thường, quá trình làm việc với các mô hình AI được chia thành ít nhất hai phần: đào tạo và suy luận.
Đầu tiên, một mô hình được đào tạo bằng cách sử dụng lượng lớn dữ liệu, một quá trình có thể mất hàng tháng và đôi khi yêu cầu hàng nghìn GPU, chẳng hạn như trong trường hợp của Nvidia là chip H100 và A100 của nó. Sau đó, mô hình được sử dụng trong phần mềm để đưa ra dự đoán hoặc tạo nội dung, sử dụng quy trình gọi là suy luận. Giống như đào tạo, suy luận rất tốn kém về mặt tính toán và đòi hỏi nhiều sức mạnh xử lý mỗi khi phần mềm chạy, chẳng hạn như khi phần mềm hoạt động để tạo văn bản hoặc hình ảnh. Nhưng không giống như đào tạo, suy luận diễn ra gần như liên tục, trong khi đào tạo chỉ được yêu cầu khi mô hình cần cập nhật.
“Bạn có thể lấy gần như bất kỳ mô hình ngôn ngữ lớn nào bạn muốn và đặt nó vào đây và nó sẽ suy luận như điên,” Huang nói. “Chi phí suy luận của các mô hình ngôn ngữ lớn sẽ giảm đáng kể.”
GH200 mới của Nvidia được thiết kế để suy luận vì nó có nhiều dung lượng bộ nhớ hơn, cho phép các mô hình AI lớn hơn phù hợp với một hệ thống duy nhất, Phó chủ tịch Nvidia Ian Buck cho biết trong một cuộc gọi với các nhà phân tích và phóng viên hôm thứ Ba. H100 của Nvidia có bộ nhớ 80GB, so với 141GB trên GH200 mới. Nvidia cũng đã công bố một hệ thống kết hợp hai chip GH200 vào một máy tính duy nhất cho các mẫu thậm chí còn lớn hơn.
Buck cho biết: “Việc có bộ nhớ lớn hơn cho phép mô hình duy trì trạng thái cố định trên một GPU duy nhất và không cần phải yêu cầu nhiều hệ thống hoặc nhiều GPU để chạy,” Buck nói.
Thông báo này được đưa ra khi đối thủ GPU chính của Nvidia, AMD, gần đây đã công bố chip định hướng AI của riêng mình, MI300X, có thể hỗ trợ bộ nhớ 192GB và đang được bán trên thị trường nhờ khả năng suy luận AI. Các công ty bao gồm Google và Amazon cũng đang thiết kế chip AI tùy chỉnh của riêng họ để suy luận.