Google vừa ra mắt mô hình Gemini 2.5 Computer Use cho phép AI thao tác trực tiếp trên website thay vì chỉ gợi ý.
Thay vì chỉ trò chuyện và đưa ra lời khuyên, trợ lý AI mới của Google giờ đây có thể nhấp chuột, điền form và hoàn thành công việc trên trình duyệt. Mô hình Gemini 2.5 Computer Use hiện đã mở cho nhà phát triển thử nghiệm qua Gemini API trên Google AI Studio và Vertex AI.

Công nghệ này hoạt động theo vòng lặp thông qua công cụ computer_use trong Gemini API. Đầu vào bao gồm yêu cầu người dùng, ảnh chụp màn hình và lịch sử các thao tác gần đây. Gemini sẽ phân tích và đưa ra lệnh như “nhấp chuột”, “gõ phím” hoặc “cuộn trang”, sau đó hệ thống thực thi. Quá trình lặp lại cho đến khi hoàn thành hoặc dừng vì lý do an toàn. Điểm đặc biệt là Gemini 2.5 Computer Use có thể làm việc trên các trang web yêu cầu đăng nhập, nơi không hỗ trợ API.
Google cho biết mô hình được tối ưu cho trình duyệt trước tiên, với kết quả khả quan trên giao diện di động. Mô hình này hiện chưa tập trung vào điều khiển cấp hệ điều hành máy tính. Về hiệu suất, Gemini 2.5 Computer Use dẫn đầu các bài kiểm tra điều khiển trình duyệt như Online-Mind2Web và WebVoyager, đồng thời có độ trễ thấp hơn trong môi trường Browserbase.

Google cho biết, an toàn là ưu tiên hàng đầu. Mỗi thao tác đề xuất có thể được kiểm tra qua dịch vụ an toàn trước khi thực hiện. Nhà phát triển cũng có thể yêu cầu xác nhận từ người dùng cho các thao tác quan trọng như mua hàng hay bất kỳ thao tác nào có thể ảnh hưởng đến tính toàn vẹn hệ thống. Ngoài ra, nhà phát triển còn có thể giới hạn các thao tác được phép.
Các nhà phát triển muốn dùng thử có thể truy cập demo qua Browserbase. Với mô hình này, Gemini rõ ràng đã chuyển từ trợ lý gợi ý sang trợ lý hành động. Nếu công việc của bạn chủ yếu trên web, đây có thể là sản phẩm thú vị nhất mà Google tung ra năm nay.



