
DeepSeek ra mắt công nghệ giảm một nửa chi phí gọi API
DeepSeek vừa công bố mô hình thử nghiệm V3.2-exp giúp cắt giảm tới 50% chi phí vận hành trong các tác vụ xử lý ngữ cảnh dài.
Mô hình mới DeepSeek-V3.2-Exp được các nhà nghiên cứu DeepSeek giới thiệu trên nền tảng Hugging Face, kèm theo bài báo học thuật công bố trên GitHub. Tính năng đột phá nhất của mô hình mới là DeepSeek Sparse Attention, hệ thống sử dụng bộ chỉ mục lightning indexer để ưu tiên các đoạn văn bản quan trọng, sau đó hệ thống lựa chọn token chi tiết sẽ chọn các token cụ thể để tải vào cửa sổ chú ý giới hạn.
Kết hợp lại, hai cơ chế này cho phép mô hình hoạt động hiệu quả với ngữ cảnh dài trong khi chỉ yêu cầu tài nguyên máy chủ thấp. Thử nghiệm ban đầu của DeepSeek cho thấy chi phí cho mỗi lần gọi API có thể giảm tới một nửa trong các tình huống xử lý ngữ cảnh dài. Mô hình mã nguồn mở này đang chờ đánh giá độc lập từ cộng đồng nghiên cứu.
Đây là bước đột phá mới nhất trong nỗ lực giảm chi phí suy luận, khoản chi phí vận hành mô hình AI sau khi đào tạo. Các nhà nghiên cứu DeepSeek tập trung cải thiện hiệu suất kiến trúc transformer cốt lõi thay vì phát triển công nghệ hoàn toàn mới.
DeepSeek, công ty AI Trung Quốc từng gây chú ý với mô hình R1, tiếp tục khẳng định vị thế trong cuộc đua AI toàn cầu. Dù sparse attention không tạo ra cơn sốt như R1 nhưng công nghệ này có thể cung cấp giải pháp hữu ích giúp các nhà cung cấp dịch vụ AI kiểm soát chi phí vận hành.