Các bộ xử lý đồ họa (GPU) của Nvidia đã là những con chip bán chạy nhất trong nhiều năm, nhưng sự xuất hiện đột ngột của trí tuệ nhân tạo dựa trên tác nhân (agent-AI) đã mang lại sự hồi sinh cho con chip chủ khiêm tốn hơn của hãng, bộ xử lý trung tâm (CPU).
Giờ đây, Nvidia chuẩn bị tiết lộ những chi tiết mới về CPU được tối ưu hóa cho tác nhân tại hội nghị GTC thường niên bắt đầu vào thứ Hai (16/3), với khả năng một dàn CPU riêng biệt sẽ xuất hiện tại triển lãm.
“CPU đang trở thành nút thắt cổ chai trong việc phát triển quy trình làm việc AI và tác nhân này,” Dion Harris, người đứng đầu cơ sở hạ tầng AI của Nvidia, cho biết, gọi đó là một “cơ hội thú vị”.
Gã khổng lồ chip này đã công bố CPU trung tâm dữ liệu đầu tiên của mình, Grace, vào năm 2021, và thế hệ tiếp theo, Vera, hiện đang được sản xuất. Các CPU này thường được triển khai cùng với các GPU nổi tiếng của Nvidia như Hopper, Blackwell hoặc Rubin trong các hệ thống quy mô rack đầy đủ.
Nhu cầu bùng nổ đối với GPU đã biến Nvidia thành một cái tên quen thuộc và là công ty niêm yết công khai có giá trị nhất thế giới, với vốn hóa thị trường 4,4 nghìn tỷ đô la. Chiến lược chip tổng thể của Nvidia đã có một bước ngoặt lớn vào tháng Hai, khi hãng này ký kết một thỏa thuận nhiều năm với Meta, bao gồm việc triển khai quy mô lớn đầu tiên các CPU Grace độc lập, với kế hoạch triển khai Vera vào năm 2027.
Nvidia cho biết rằng hàng nghìn CPU Nvidia độc lập cũng đang giúp cung cấp năng lượng cho các siêu máy tính tại Trung tâm Tính toán Cao cấp Texas và Phòng thí nghiệm Quốc gia Los Alamos.
Ngân hàng Bank of America dự đoán thị trường CPU có thể tăng hơn gấp đôi, từ 27 tỷ đô la vào năm 2025 lên 60 tỷ đô la vào năm 2030. Chỉ riêng trong quý gần nhất, Nvidia đã tạo ra doanh thu trung tâm dữ liệu hơn 62 tỷ đô la, tăng 75% so với cùng kỳ năm ngoái. Sự hồi sinh của CPU được thúc đẩy bởi sự thay đổi cơ bản trong nhu cầu tính toán, khi việc áp dụng AI đại trà chuyển từ chatbot hỏi đáp sang các ứng dụng tác nhân hướng nhiệm vụ.
Trong khi GPU lý tưởng cho việc đào tạo và chạy các mô hình AI vì chúng có hàng nghìn lõi nhỏ tập trung vào việc thực hiện nhiều thao tác đồng thời, CPU có số lượng lõi mạnh mẽ hơn chạy các tác vụ đa năng tuần tự. Trí tuệ nhân tạo dựa trên tác nhân (Agentic AI) đòi hỏi rất nhiều sức mạnh tính toán tổng quát, vì chúng xử lý lượng lớn dữ liệu cho các quy trình làm việc của AI, điều phối hoạt động giữa nhiều tác nhân khác nhau.
“Các hệ thống tác nhân này đang tạo ra nhiều tác nhân khác nhau hoạt động theo nhóm,” Giám đốc điều hành Jensen Huang cho biết trong cuộc họp báo cáo thu nhập của Nvidia tháng trước. “Số lượng token được tạo ra đã tăng lên theo cấp số nhân, vì vậy chúng ta cần tốc độ suy luận nhanh hơn nhiều.” Huang đã đề cập đến trí tuệ nhân tạo tác nhân (agentic AI) hàng chục lần trong cuộc họp, và nói rằng “hiệu suất trên mỗi watt tốt nhất thực sự là tất cả mọi thứ” khi nhu cầu phần cứng thay đổi.
Công ty cho biết trong một thông cáo báo chí rằng CPU độc lập của họ mang lại những cải tiến đáng kể về hiệu suất trên mỗi watt trong các trung tâm dữ liệu của Meta. “Đây là cơ sở hạ tầng mới: Mở rộng hoàn toàn các giá đỡ CPU mà nhiệm vụ duy nhất của chúng là chạy trí tuệ nhân tạo tác nhân,” nhà phân tích chip Ben Bajarin của Creative Strategies cho biết. “Phần mềm của bạn sẽ được đặt ở nơi khác, bộ tăng tốc của bạn chỉ chạy các token, nhưng cần có thứ gì đó ở giữa để điều phối điều đó.”
“Khủng hoảng nguồn cung âm thầm”
Hiện tại, thị trường bộ xử lý trung tâm (CPU) vốn từng khá trầm lắng đang đối mặt với điều mà Tập đoàn Futurum gọi là “khủng hoảng nguồn cung âm thầm”, dự đoán tốc độ tăng trưởng của thị trường CPU có thể vượt qua tốc độ tăng trưởng của GPU vào năm 2028.
Theo Reuters, các nhà cung cấp CPU hàng đầu là AMD và Intel đã cảnh báo khách hàng tại Trung Quốc về tình trạng thiếu hụt nguồn cung. Thời gian giao hàng CPU có thể lên đến sáu tháng, và giá cả đã tăng hơn 10%, theo báo cáo.
“Nhu cầu tăng chưa từng có trong sáu đến chín tháng qua”, người đứng đầu bộ phận trung tâm dữ liệu của AMD, Forrest Norrod, cho biết trong một cuộc phỏng vấn.
Nonorrod cho biết ông không thấy “bất kỳ triển vọng nào cho thấy điều này sẽ chậm lại hoặc dừng lại trong thời gian tới”, nhưng AMD đã dự đoán được sự gia tăng nhu cầu và đang “làm việc chăm chỉ” để đáp ứng điều đó.
Một người phát ngôn của Intel nói rằng họ dự kiến lượng hàng tồn kho sẽ đạt “mức thấp nhất” trong quý hiện tại, “Nhưng chúng tôi đang giải quyết vấn đề một cách quyết liệt và kỳ vọng nguồn cung sẽ được cải thiện trong quý 2 đến năm 2026”.
“Tấm wafer không mọc trên cây,” Bajarin nói. “Chúng ta không thể cứ thế mà thu hoạch thêm 10% tấm wafer silicon. Toàn ngành đang thiếu hụt trầm trọng. Vì vậy, thật không may, nguồn cung wafer CPU đang bị hạn chế.” Về việc Nvidia có gặp phải tình trạng chậm trễ giao hàng CPU hay không, Harris nói, “Cho đến nay, mọi việc vẫn ổn.” Ông cho biết “chuỗi cung ứng mạnh mẽ” của Nvidia đã có thể đáp ứng được nhu cầu, phần lớn là do nhiều CPU của hãng sẽ được bán kèm với GPU trong các hệ thống rack-scale của mình.
Được tối ưu hóa để "cung cấp năng lượng cho GPU", Harris cho biết Nvidia đã áp dụng một cách tiếp cận hoàn toàn khác trong thiết kế, khiến CPU của hãng "phù hợp nhất" cho việc xử lý dữ liệu và các quy trình AI dựa trên tác nhân, so với các CPU đa năng hơn được sản xuất bởi các nhà lãnh đạo ngành như Intel và AMD.
Một điểm khác biệt lớn nằm ở số lượng lõi trong mỗi CPU. Dòng EPYC của AMD và CPU máy chủ hiệu năng cao Xeon của Intel thường có 128 lõi, so với 72 lõi trong CPU Grace của Nvidia. "Nếu bạn là một nhà cung cấp dịch vụ điện toán đám mây quy mô lớn, bạn muốn tối đa hóa số lượng lõi trên mỗi CPU, và điều đó về cơ bản sẽ làm giảm chi phí, số tiền trên mỗi lõi. Đó là một mô hình kinh doanh," Harris giải thích. Thay vào đó, Nvidia đã thiết kế CPU của mình đặc biệt để hỗ trợ các GPU hàng đầu của hãng chạy các tác vụ AI. "Hiệu năng đơn luồng của bạn trở nên quan trọng hơn nhiều so với số tiền trên mỗi lõi vì bạn đang cố gắng đảm bảo rằng tài nguyên rất đắt tiền đó, tức là GPU, không bị bỏ phí," Harris nói.
Nvidia cũng dựa trên kiến trúc Arm cho CPU của mình, thường được sử dụng cho các chip trong các thiết bị tiêu thụ điện năng thấp như điện thoại thông minh, trong khi Intel và AMD dựa trên kiến trúc x86 truyền thống. Được Intel giới thiệu cách đây gần 50 năm, x86 là tập lệnh hàng đầu đã thống trị thiết kế bộ xử lý PC và máy chủ kể từ khi ra đời.
Ông Norrod của AMD cho biết Nvidia đã, “tối ưu hóa chip của họ rất tốt, theo tôi, để cung cấp năng lượng cho GPU. Chúng chưa được tối ưu hóa tốt cho các ứng dụng đa năng.”
Thực tế, Nvidia dựa vào các CPU đa năng hơn cho một số sản phẩm của mình. Ví dụ, Nvidia kết hợp GPU của mình với CPU chủ từ Intel hoặc AMD trong nền tảng HGX Rubin NVL8 mà khách hàng sử dụng làm khối xây dựng cho các hệ thống AI của riêng họ.
“Không phụ thuộc nền tảng”
Việc Nvidia thâm nhập vào thị trường CPU độc lập diễn ra trong bối cảnh ngày càng nhiều khách hàng của hãng tự sản xuất bộ xử lý dựa trên kiến trúc Arm cho trung tâm dữ liệu của họ.
Amazon là nhà cung cấp dịch vụ điện toán đám mây lớn đầu tiên ra mắt CPU nội bộ với việc phát hành Graviton vào năm 2018. Bộ xử lý Axion của Google, được phát hành vào năm 2024, hiện đang xử lý khoảng 30% các ứng dụng nội bộ. Microsoft đã phát hành bộ xử lý Cobalt thế hệ thứ hai vào tháng 11. Arm dự kiến sẽ ra mắt CPU nội bộ của riêng mình trong năm nay, với Meta là một trong những khách hàng đầu tiên.
Mercury Research ước tính thị phần CPU máy chủ trong quý cuối năm 2025 do Intel thống trị với 60%, AMD với 24,3% và Nvidia với 6,2%, phần còn lại được chia cho các CPU dựa trên kiến trúc Arm nội bộ từ các nhà cung cấp dịch vụ điện toán đám mây như Amazon, Microsoft và Google.
Trước nhu cầu tính toán không ngừng tăng cao, Nvidia thường có thái độ hoan nghênh cạnh tranh. Tiếp nối truyền thống đó, Nvidia đã mở rộng công nghệ mạng NVLink của mình cho phép cấp phép từ bên thứ ba vào tháng 5.
Trong phần còn lại của năm 2025, Nvidia đã ký kết hàng loạt thỏa thuận NVLink với Intel, Qualcomm, Fujitsu và Arm, tạo điều kiện thuận lợi cho việc tích hợp CPU của bên thứ ba với GPU của Nvidia trong các máy chủ AI.
Mặc dù các thỏa thuận này liên quan đến CPU được sản xuất trên kiến trúc Arm hoặc x86, Nvidia hiện cũng hỗ trợ kiến trúc tập lệnh mở RISC-V. RISC-V, đang ngày càng phổ biến trong những năm gần đây, cho phép các công ty thiết kế bộ xử lý tùy chỉnh mà không phải trả phí cấp phép cho các công ty như Arm.
Vào tháng 1, Nvidia đã đạt được thỏa thuận cho phép công ty chip SiFive của Mỹ sử dụng NVLink để kết nối các thiết kế chip RISC-V của họ với GPU của Nvidia.
Harris cho biết, bất kể nhu cầu CPU được đáp ứng như thế nào, chiến lược của Nvidia vẫn là “không phụ thuộc vào nền tảng”. “Chúng tôi chắc chắn đang xây dựng CPU dựa trên Arm, nhưng chúng tôi đầu tư rất nhiều vào cộng đồng x86, chúng tôi đầu tư rất nhiều vào toàn bộ hệ sinh thái, vì vậy chúng tôi sẽ có một vị thế vững chắc dù thế nào đi nữa.”
Bajarin mô tả chiến lược thay đổi của Nvidia là “toàn diện”. “Để cạnh tranh, câu trả lời của Nvidia không thể chỉ là bạn mua GPU từ chúng tôi hoặc không mua gì khác,” Bajarin nói. Cho dù đó là GPU, CPU hay phần cứng chuyên dụng, “đó là cách sản phẩm phải mở rộng để đáp ứng sự đa dạng của các khối lượng công việc,” ông nói.