Anthropic ra mắt Opus 4.5, vượt 80% SWE-Bench verified

Anthropic ra mắt Opus 4.5, vượt 80% SWE-Bench verified

Anthropic vừa công bố mô hình AI Opus 4.5, hoàn thiện bộ ba dòng 4.5 sau Sonnet 4.5 ra mắt tháng 9 và Haiku 4.5 tháng 10.

Claude Opus 4.5 đánh dấu bước tiến quan trọng trong lập trình khi trở thành mô hình AI đầu tiên vượt ngưỡng 80% SWE-Bench verified, một bài kiểm tra lập trình được đánh giá cao trong giới công nghệ.

Phiên bản mới này có hiệu suất hàng đầu trên nhiều bài kiểm tra, bao gồm lập trình (SWE-Bench và Terminal-bench), sử dụng công cụ (tau2-bench và MCP Atlas), và giải quyết vấn đề tổng quát (ARC-AGI 2, GPQA Diamond).

Anthropic ra mắt Opus 4.5, vượt 80% SWE-Bench verified

Anthropic đặc biệt nhấn mạnh khả năng sử dụng máy tính và xử lý bảng tính của Opus. Công ty đồng thời mở rộng phạm vi phân phối hai sản phẩm trước đây chỉ ở giai đoạn thử nghiệm: Claude for Chrome dành cho người dùng Max, còn Claude for Excel có sẵn cho các gói Max, Team và Enterprise.

Một cải tiến đáng chú ý khác của Claude là khả năng quản lý bộ nhớ cho các tác vụ ngữ cảnh dài. Người dùng trả phí Claude giờ đây có thêm tính năng “trò chuyện không giới hạn” được yêu cầu từ lâu. Khi đạt đến giới hạn ngữ cảnh, mô hình sẽ tự động nén bộ nhớ ngữ cảnh mà không làm gián đoạn cuộc trò chuyện.

Opus 4.5 là câu trả lời của Anthropic trước các mô hình tiên tiến mới ra mắt trong thời gian gần đây như GPT 5.1 của OpenAIGemini 3 của Google.