Google đã công bố thông tin chi tiết về một trong những siêu máy tính trí tuệ nhân tạo của mình vào thứ Tư tuần này. Công ty cho biết, nó nhanh hơn và hiệu quả hơn so với các hệ thống cạnh tranh của Nvidia, vì các mô hình học máy ngốn điện tiếp tục là phần nóng nhất của ngành công nghệ.
Trong khi Nvidia thống trị thị trường đào tạo và triển khai mô hình AI, với hơn 90%, Google đã thiết kế và triển khai các chip AI có tên là Bộ xử lý Tensor, hay TPU, kể từ năm 2016.
Google là nhà tiên phong lớn về AI và các nhân viên của Google đã phát triển một số tiến bộ quan trọng nhất trong lĩnh vực này trong thập kỷ qua. Nhưng một số người tin rằng họ đã bị tụt hậu trong việc thương mại hóa các phát minh của mình và trong nội bộ, công ty đã chạy đua để tung ra sản phẩm và chứng minh rằng họ không lãng phí vị trí dẫn đầu, một tình huống “mã đỏ” trong công ty.
Các mô hình và sản phẩm AI như Bard của Google hay ChatGPT của OpenAI — được cung cấp bởi chip A100 của Nvidia — yêu cầu rất nhiều máy tính và hàng trăm hoặc hàng nghìn chip hoạt động cùng nhau để đào tạo các mô hình, với các máy tính chạy suốt ngày đêm trong nhiều tuần hoặc nhiều tháng.
Vào thứ ba tuần này, Google cho biết họ đã xây dựng một hệ thống với hơn 4.000 TPU được kết hợp với các thành phần tùy chỉnh được thiết kế để chạy và huấn luyện các mô hình AI. Nó đã chạy từ năm 2020 và được sử dụng để đào tạo mô hình PaLM của Google, cạnh tranh với mô hình GPT của OpenAI, trong hơn 50 ngày.
Các nhà nghiên cứu của Google đã viết siêu máy tính dựa trên TPU của Google, được gọi là TPU v4, “nhanh hơn 1,2 lần–1,7 lần và sử dụng ít năng lượng hơn 1,3–1,9 lần so với Nvidia A100”. Họ tiếp tục thông tin: “Hiệu suất, khả năng mở rộng và tính khả dụng khiến siêu máy tính TPU v4 trở thành con ngựa của các mô hình ngôn ngữ lớn”.
Tuy nhiên, kết quả TPU của Google không được so sánh với chip Nvidia AI mới nhất, H100, bởi vì nó ra đời gần đây hơn và được sản xuất bằng công nghệ sản xuất tiên tiến hơn, các nhà nghiên cứu của Google cho biết.
Kết quả và xếp hạng từ bài kiểm tra chip AI toàn ngành có tên MLperf đã được công bố vào thứ Tư và Giám đốc điều hành Nvidia Jensen Huang cho biết kết quả của chip Nvidia gần đây nhất, H100, nhanh hơn đáng kể so với thế hệ trước.
“MLPerf 3.0 hôm nay làm nổi bật Hopper mang lại hiệu suất gấp 4 lần so với A100,” Huang viết trong một bài đăng trên blog. “Cấp độ tiếp theo của AI sáng tạo yêu cầu cơ sở hạ tầng AI mới để đào tạo các Mô hình ngôn ngữ lớn với hiệu quả năng lượng cao.
Lượng điện năng máy tính đáng kể cần cho AI rất đắt đỏ và nhiều người trong ngành đang tập trung vào phát triển chip mới, các thành phần như kết nối quang học hoặc kỹ thuật phần mềm giúp giảm lượng điện năng máy tính cần thiết.
Các yêu cầu về năng lượng của AI cũng là một lợi ích cho các nhà cung cấp đám mây như Google, Microsoft và Amazon, những công ty có thể cho thuê máy tính xử lý theo giờ và cung cấp tín dụng hoặc thời gian tính toán cho các công ty khởi nghiệp để xây dựng mối quan hệ. (Đám mây của Google cũng bán thời gian trên chip Nvidia.) Ví dụ: Google cho biết Midjourney, một trình tạo hình ảnh AI, đã được đào tạo trên chip TPU của họ.