Tuần trước, DeepSeek đã ra mắt một chương trình có tên là R1, để giải quyết các vấn đề phức tạp, được đào tạo trên 2000 GPU Nvidia so với hàng chục nghìn GPU thường được các nhà phát triển chương trình AI như OpenAI, Anthropic và Groq sử dụng.
Bên cạnh R1, DeepSeek còn có một chương trình có tên là V3. R1 và V3 cùng nhau được xếp hạng trong mười mô hình AI hàng đầu trên dịch vụ xếp hạng AI của Đại học California tại Berkeley, Chatbot Arena, đánh bại Claude và Grok của Anthropic từ xAI của Elon Musk.
"DeepSeek-R1 hiện đã hoạt động và là mã nguồn mở, cạnh tranh với Model o1 của OpenAI, có sẵn trên web, ứng dụng và IMG_0544-150x150.pngAPI", trang web của DeepSeek cho biết, đồng thời nói thêm "V3 đạt được bước đột phá đáng kể về tốc độ suy luận so với các mô hình trước đó. Nó đứng đầu bảng xếp hạng trong số các mô hình mã nguồn mở và cạnh tranh với các mô hình mã nguồn đóng tiên tiến nhất trên toàn cầu".
V3 miễn phí nhưng các công ty muốn kết nối các ứng dụng của riêng họ với mô hình và cơ sở hạ tầng điện toán của DeepSeek phải trả phí để làm như vậy.
Nó được thiết kế cho các tác vụ như mã hóa, toán học và lý luận. DeepSeek Coder sử dụng mạng nơ-ron để tạo mã trong hơn 80 ngôn ngữ lập trình, sử dụng các kiến trúc như Transformer và Mixture-to-Expert.
Công ty được lãnh đạo bởi Liang Wenfeng, một cựu quản lý quỹ đầu cơ đã sử dụng các kỹ thuật AI để điều hành quỹ của mình có tên là High-Flyer và sau đó ra mắt DeepSeek để tách ra công nghệ AI.