Apple ra mắt mô hình AI viết văn bản dài nhanh gấp 128 lần

Apple ra mắt mô hình AI viết văn bản dài nhanh gấp 128 lần

Apple vừa công bố nghiên cứu về mô hình khuếch tán có khả năng tạo văn bản nhanh hơn tới 128 lần so với các đối thủ cùng loại.

Trong nghiên cứu mang tên “FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models” mới được công bố, các nhà nghiên cứu từ Apple và Đại học Ohio đã giới thiệu mô hình Few-Step Discrete Flow-Matching (FS-DFM). Đây là bước đột phá quan trọng trong lĩnh vực tạo văn bản bằng trí tuệ nhân tạo.

Khác với các mô hình ngôn ngữ lớn như ChatGPT hoạt động theo mô hình tự hồi quy (tạo văn bản tuần tự từng từ một), FS-DFM sử dụng mô hình khuếch tán để sinh nhiều từ đồng thời và tinh chỉnh qua nhiều vòng lặp. Đặc biệt, mô hình này áp dụng phương pháp flow-matching, cho phép bỏ qua quá trình lặp phức tạp và tạo ra kết quả cuối cùng nhanh chóng hơn.

Apple ra mắt mô hình AI viết văn bản dài nhanh gấp 128 lần

Nghiên cứu cho thấy FS-DFM chỉ cần 8 vòng tinh chỉnh để viết được đoạn văn hoàn chỉnh, đạt chất lượng tương đương các mô hình khuếch tán truyền thống cần hơn 1.000 bước xử lý. Để đạt được điều này, nhóm nghiên cứu đã áp dụng ba bước quan trọng: huấn luyện mô hình xử lý các mức độ tinh chỉnh khác nhau, sử dụng mô hình “giáo viên” hướng dẫn để cập nhật chính xác hơn mà không làm lệch văn bản, và tối ưu hóa từng vòng lặp để đạt kết quả nhanh hơn.

Khi so sánh với các mô hình khuếch tán lớn hơn như Dream (7 tỉ tham số) và LLaDA (8 tỉ tham số), các phiên bản FS-DFM với 1,7, 1,3 và 0,17 tỉ tham số liên tục đạt điểm perplexity thấp hơn và duy trì entropy ổn định hơn. Perplexity đo độ chính xác và tự nhiên của văn bản với điểm số càng thấp càng tốt. Trong khi đó, entropy đo độ tự tin khi mô hình chọn từ, cần cân bằng để tránh văn bản lặp lại hoặc thiếu mạch lạc.

Nhóm nghiên cứu cho biết sẽ công khai mã nguồn và các checkpoint của mô hình để hỗ trợ tái tạo kết quả và thúc đẩy nghiên cứu sâu hơn. Bài báo chi tiết đã được đăng trên arXiv, bao gồm nhiều ví dụ hiệu suất với mã màu thể hiện vòng lặp mà mỗi từ được thay đổi lần cuối.