Nvidia gọi mô hình R1 của DeepSeek là "một bước tiến tuyệt vời về AI", mặc dù sự xuất hiện của công ty khởi nghiệp Trung Quốc này khiến giá cổ phiếu của nhà sản xuất chip này giảm 17% vào thứ Hai.
"DeepSeek là một bước tiến tuyệt vời về AI và là ví dụ hoàn hảo về Test Time Scaling", một phát ngôn viên của Nvidia đã chia sẻ vào thứ Hai. "Công trình của DeepSeek minh họa cách tạo ra các mô hình mới bằng kỹ thuật đó, tận dụng các mô hình có sẵn rộng rãi và tính toán tuân thủ hoàn toàn kiểm soát xuất khẩu".
Các bình luận được đưa ra sau khi DeepSeek phát hành R1 vào tuần trước, đây là một mô hình lý luận nguồn mở được cho là vượt trội hơn các mô hình tốt nhất từ các công ty Hoa Kỳ như OpenAI. Chi phí đào tạo tự báo cáo của R1 là dưới 6 triệu đô la, chỉ bằng một phần nhỏ trong số hàng tỷ đô la mà các công ty ở Thung lũng Silicon đang chi để xây dựng các mô hình trí tuệ nhân tạo của họ.
Tuyên bố của Nvidia cho thấy họ coi bước đột phá của DeepSeek là tạo ra nhiều công việc hơn cho các đơn vị xử lý đồ họa hay GPU của nhà sản xuất chip Hoa Kỳ.
“Suy luận đòi hỏi số lượng lớn GPU NVIDIA và mạng hiệu suất cao”, người phát ngôn nói thêm. “Chúng tôi hiện có ba quy tắc mở rộng quy mô: tiền đào tạo và hậu đào tạo, vẫn tiếp tục, và mở rộng quy mô thời gian thử nghiệm mới”.
Nvidia cũng cho biết GPU mà DeepSeek sử dụng hoàn toàn tuân thủ xuất khẩu. Điều đó trái ngược với bình luận của Alexandr Wang, Giám đốc điều hành Scale AI trên CNBC tuần trước rằng ông tin rằng DeepSeek đã sử dụng các mẫu GPU Nvidia bị cấm ở Trung Quốc đại lục. DeepSeek cho biết họ đã sử dụng các phiên bản GPU đặc biệt của Nvidia dành cho thị trường Trung Quốc.
Các nhà phân tích hiện đang đặt câu hỏi liệu các khoản đầu tư vốn hàng tỷ đô la từ các công ty như Microsoft, Google và Meta cho cơ sở hạ tầng AI dựa trên Nvidia có bị lãng phí hay không khi có thể đạt được cùng một kết quả với chi phí rẻ hơn.
Đầu tháng này, Microsoft cho biết họ sẽ chi 80 tỷ đô la cho cơ sở hạ tầng AI chỉ riêng trong năm 2025 trong khi tuần trước, Mark Zuckerberg, Giám đốc điều hành Meta, cho biết công ty truyền thông xã hội này có kế hoạch đầu tư từ 60 đến 65 tỷ đô la vào chi tiêu vốn trong năm 2025 như một phần của chiến lược AI.
“Nếu chi phí đào tạo mô hình chứng minh là thấp hơn đáng kể, chúng tôi sẽ mong đợi lợi ích về chi phí trong ngắn hạn cho các công ty quảng cáo, du lịch và các công ty ứng dụng tiêu dùng khác sử dụng dịch vụ AI đám mây, trong khi doanh thu và chi phí liên quan đến AI siêu quy mô dài hạn có thể sẽ thấp hơn”, nhà phân tích Justin Post của BofA Securities đã viết trong một ghi chú vào thứ Hai.
Bình luận của Nvidia cũng phản ánh một chủ đề mới mà Giám đốc điều hành Nvidia Jensen Huang, Giám đốc điều hành OpenAI Sam Altman và Giám đốc điều hành Microsoft Satya Nadella đã thảo luận trong những tháng gần đây.
Phần lớn sự bùng nổ của AI và nhu cầu về GPU Nvidia được thúc đẩy bởi "luật mở rộng quy mô", một khái niệm trong phát triển AI do các nhà nghiên cứu OpenAI đề xuất vào năm 2020. Khái niệm đó cho thấy rằng các hệ thống AI tốt hơn có thể được phát triển bằng cách mở rộng đáng kể lượng tính toán và dữ liệu đưa vào xây dựng một mô hình mới, đòi hỏi ngày càng nhiều chip.
Kể từ tháng 11, Huang và Altman đã tập trung vào một kênh mới của luật mở rộng quy mô, mà Huang gọi là "mở rộng quy mô thời gian thử nghiệm".
Khái niệm này cho rằng nếu một mô hình AI được đào tạo đầy đủ dành nhiều thời gian hơn để sử dụng thêm sức mạnh máy tính khi đưa ra dự đoán hoặc tạo văn bản hoặc hình ảnh để cho phép nó "lý luận", nó sẽ cung cấp câu trả lời tốt hơn so với khi chạy trong thời gian ngắn hơn.
Các dạng của luật tỷ lệ thời gian thử nghiệm được sử dụng trong một số mô hình của OpenAI như o1 cũng như mô hình R1 đột phá của DeepSeek.