Google triển khai tính năng 'bộ nhớ đệm ngầm' trên API Gemini

Google đang triển khai một tính năng mới trong API Gemini, mà công ty cho rằng sẽ giúp giảm chi phí sử dụng các mô hình AI mới nhất cho các nhà phát triển bên thứ ba.

Tính năng này có tên là “bộ nhớ đệm ngầm” (implicit caching) và theo Google, nó có thể giúp tiết kiệm đến 75% chi phí cho phần “ngữ cảnh lặp lại” được gửi đến các mô hình qua API Gemini. Tính năng này hỗ trợ các mô hình Gemini 2.5 Pro và 2.5 Flash.

Đây có thể là tin vui với giới lập trình, đặc biệt là trong bối cảnh chi phí sử dụng các mô hình AI tiên tiến ngày càng gia tăng.

Bộ nhớ đệm (caching) là một kỹ thuật phổ biến trong ngành AI, cho phép tái sử dụng những dữ liệu được truy cập thường xuyên hoặc đã được xử lý sẵn từ trước, giúp giảm yêu cầu tính toán và tiết kiệm chi phí. Ví dụ, bộ nhớ đệm có thể lưu lại các câu trả lời mà người dùng thường hỏi, tránh cho mô hình phải tạo lại cùng một câu trả lời mỗi lần.

Trước đây, Google cũng đã cung cấp khả năng lưu bộ nhớ đệm cho prompt, nhưng chỉ ở dạng “bộ nhớ đệm rõ ràng” (explicit prompt caching), tức là các nhà phát triển phải tự chỉ định những câu lệnh được sử dụng nhiều nhất. Mặc dù về lý thuyết việc này giúp tiết kiệm chi phí, nhưng thực tế lại yêu cầu khá nhiều thao tác thủ công.

Một số nhà phát triển từng phàn nàn về cách Google triển khai tính năng lưu đệm rõ ràng với Gemini 2.5 Pro, cho rằng nó có thể gây ra hóa đơn API cao bất ngờ. Trong tuần qua, những lời phàn nàn này lên đến cao trào, buộc nhóm phát triển Gemini phải công khai thừa nhận và cam kết sẽ thay đổi.

Trái ngược với lưu đệm rõ ràng, việc lưu đệm ngầm được thực hiện hoàn toàn tự động. Tính năng này được bật mặc định trên các mô hình Gemini 2.5 và sẽ tự động áp dụng giảm chi phí nếu yêu cầu API khớp với dữ liệu đã được lưu trong bộ nhớ đệm.

Google giải thích trong một bài đăng blog: “Khi bạn gửi một yêu cầu đến một trong các mô hình Gemini 2.5, nếu yêu cầu đó có phần tiền tố giống với một yêu cầu trước đó, thì nó sẽ đủ điều kiện để được truy xuất từ bộ nhớ đệm. Chúng tôi sẽ tự động chuyển phần chi phí tiết kiệm được lại cho bạn”.

Theo tài liệu dành cho nhà phát triển, số token tối thiểu để caching ngầm hoạt động là 1.024 đối với Gemini 2.5 Flash và 2.048 đối với Gemini 2.5 Pro — đây không phải là con số quá lớn, tức là khả năng tiết kiệm tự động có thể được kích hoạt khá dễ dàng. Token là đơn vị dữ liệu thô mà mô hình xử lý; một nghìn token tương đương khoảng 750 từ.

Tuy nhiên, với tiền lệ những tuyên bố trước đây của Google về việc tiết kiệm chi phí nhờ lưu đệm không được như kỳ vọng, tính năng mới này vẫn cần được xem xét cẩn trọng. Google khuyến nghị các nhà phát triển nên đặt phần ngữ cảnh lặp lại ở đầu yêu cầu để tăng khả năng truy xuất bộ nhớ đệm. Ngữ cảnh có khả năng thay đổi giữa các yêu cầu nên để ở cuối.

Ngoài ra, Google không đưa ra bất kỳ xác minh độc lập nào từ bên thứ ba về việc hệ thống lưu đệm ngầm mới sẽ thực sự mang lại mức tiết kiệm như cam kết. Vì vậy, hiệu quả thực sự của nó còn phải chờ những phản hồi ban đầu từ người dùng.

Anh Tú

Nguồn Một Thế Giới: https://1thegioi.vn/google-trien-khai-tinh-nang-bo-nho-dem-ngam-tren-api-gemini-232397.html
Zalo