Sau khi chứng minh hiệu suất và hiệu quả mạnh mẽ được tối ưu hóa cho trí tuệ nhân tạo (AI) tác nhân với Kanana-2, được phát hành mã nguồn mở vào tháng 12 trên Hugging Face, công ty đã tung ra một bản cập nhật lớn một tháng sau đó, bổ sung bốn mô hình được cải tiến đáng kể vào dòng sản phẩm mã nguồn mở của mình.
Các mô hình mới được phát hành — Base, Instruct, Thinking tập trung vào suy luận và Mid-training được tối ưu hóa cho nghiên cứu — nhấn mạnh hiệu quả cao và tiết kiệm chi phí, đồng thời tăng cường đáng kể khả năng gọi công cụ cần thiết cho AI tác nhân.
“Phiên bản Kanana-2 được cập nhật là kết quả của sự tập trung sâu sắc của chúng tôi vào việc xây dựng trí tuệ nhân tạo (AI) thực tiễn mà không cần dựa vào cơ sở hạ tầng đắt tiền,” ông Kim Byung-hak, trưởng nhóm hiệu năng dự án Kanana của Kakao, cho biết. “Bằng cách công khai mã nguồn các mô hình mang lại hiệu quả cao ngay cả trên cơ sở hạ tầng đa năng, chúng tôi hy vọng sẽ cung cấp một lựa chọn mới cho việc ứng dụng AI và giúp thúc đẩy hệ sinh thái nghiên cứu và phát triển AI của Hàn Quốc.”
Các mô hình được tối ưu hóa để chạy mượt mà trên các bộ xử lý đồ họa (GPU) đa năng ở cấp độ A100 của Nvidia, giúp AI dễ tiếp cận hơn với các doanh nghiệp nhỏ và các nhà nghiên cứu học thuật mà không gây gánh nặng chi phí lớn.
Kanana-2, chứa tổng cộng 32 tỷ tham số, sử dụng kiến trúc hỗn hợp chuyên gia (MoE), chỉ kích hoạt 3 tỷ tham số trong quá trình suy luận để cải thiện đáng kể hiệu quả tính toán. Tham số là các biến nội bộ mà mô hình AI học được từ dữ liệu trong quá trình huấn luyện để đưa ra dự đoán.
Ngoài những cải tiến về kiến trúc và dữ liệu, Kakao cũng đã tinh chỉnh quy trình huấn luyện cho phiên bản cập nhật. Nó giới thiệu một giai đoạn huấn luyện trung gian mới giữa giai đoạn huấn luyện trước và sau, và áp dụng cơ chế phát lại để ngăn chặn hiện tượng quên đột ngột khi mô hình học thông tin mới. Điều này cho phép mô hình giữ lại các kỹ năng ngôn ngữ và suy luận hiện có trong khi tiếp thu các kỹ năng mới.
Không giống như các mô hình AI đàm thoại thông thường, dòng Kanana-2 được cập nhật tập trung vào AI tác nhân có khả năng thực hiện các nhiệm vụ trong thế giới thực. Các mô hình đã được tinh chỉnh với các tập dữ liệu gọi công cụ đa lượt mở rộng, cho phép chúng diễn giải các hướng dẫn phức tạp của người dùng và tự động chọn và thực hiện các công cụ phù hợp.
Trong các bài kiểm tra đánh giá hiệu năng, các mô hình này đã vượt trội hơn mô hình tương đương Qwen-30B-A3B-Instruct-2507 về độ chính xác khi thực hiện lệnh, hiệu suất gọi công cụ nhiều lượt và khả năng hỗ trợ tiếng Hàn.