Google triển khai tính năng 'bộ nhớ đệm ngầm' trên API Gemini

9 giờ trướcGốc

Google đang triển khai một tính năng mới trong API Gemini, mà công ty cho rằng sẽ giúp giảm chi phí sử dụng các mô hình AI mới nhất cho các nhà phát triển bên thứ ba.

Tính năng này có tên là “bộ nhớ đệm ngầm” (implicit caching) và theo Google, nó có thể giúp tiết kiệm đến 75% chi phí cho phần “ngữ cảnh lặp lại” được gửi đến các mô hình qua API Gemini. Tính năng này hỗ trợ các mô hình Gemini 2.5 Pro và 2.5 Flash.

Đây có thể là tin vui với giới lập trình, đặc biệt là trong bối cảnh chi phí sử dụng các mô hình AI tiên tiến ngày càng gia tăng.

Bộ nhớ đệm (caching) là một kỹ thuật phổ biến trong ngành AI, cho phép tái sử dụng những dữ liệu được truy cập thường xuyên hoặc đã được xử lý sẵn từ trước, giúp giảm yêu cầu tính toán và tiết kiệm chi phí. Ví dụ, bộ nhớ đệm có thể lưu lại các câu trả lời mà người dùng thường hỏi, tránh cho mô hình phải tạo lại cùng một câu trả lời mỗi lần.

Trước đây, Google cũng đã cung cấp khả năng lưu bộ nhớ đệm cho prompt, nhưng chỉ ở dạng “bộ nhớ đệm rõ ràng” (explicit prompt caching), tức là các nhà phát triển phải tự chỉ định những câu lệnh được sử dụng nhiều nhất. Mặc dù về lý thuyết việc này giúp tiết kiệm chi phí, nhưng thực tế lại yêu cầu khá nhiều thao tác thủ công.

Một số nhà phát triển từng phàn nàn về cách Google triển khai tính năng lưu đệm rõ ràng với Gemini 2.5 Pro, cho rằng nó có thể gây ra hóa đơn API cao bất ngờ. Trong tuần qua, những lời phàn nàn này lên đến cao trào, buộc nhóm phát triển Gemini phải công khai thừa nhận và cam kết sẽ thay đổi.

Trái ngược với lưu đệm rõ ràng, việc lưu đệm ngầm được thực hiện hoàn toàn tự động. Tính năng này được bật mặc định trên các mô hình Gemini 2.5 và sẽ tự động áp dụng giảm chi phí nếu yêu cầu API khớp với dữ liệu đã được lưu trong bộ nhớ đệm.

Google giải thích trong một bài đăng blog: “Khi bạn gửi một yêu cầu đến một trong các mô hình Gemini 2.5, nếu yêu cầu đó có phần tiền tố giống với một yêu cầu trước đó, thì nó sẽ đủ điều kiện để được truy xuất từ bộ nhớ đệm. Chúng tôi sẽ tự động chuyển phần chi phí tiết kiệm được lại cho bạn”.

Theo tài liệu dành cho nhà phát triển, số token tối thiểu để caching ngầm hoạt động là 1.024 đối với Gemini 2.5 Flash và 2.048 đối với Gemini 2.5 Pro — đây không phải là con số quá lớn, tức là khả năng tiết kiệm tự động có thể được kích hoạt khá dễ dàng. Token là đơn vị dữ liệu thô mà mô hình xử lý; một nghìn token tương đương khoảng 750 từ.

Tuy nhiên, với tiền lệ những tuyên bố trước đây của Google về việc tiết kiệm chi phí nhờ lưu đệm không được như kỳ vọng, tính năng mới này vẫn cần được xem xét cẩn trọng. Google khuyến nghị các nhà phát triển nên đặt phần ngữ cảnh lặp lại ở đầu yêu cầu để tăng khả năng truy xuất bộ nhớ đệm. Ngữ cảnh có khả năng thay đổi giữa các yêu cầu nên để ở cuối.

Ngoài ra, Google không đưa ra bất kỳ xác minh độc lập nào từ bên thứ ba về việc hệ thống lưu đệm ngầm mới sẽ thực sự mang lại mức tiết kiệm như cam kết. Vì vậy, hiệu quả thực sự của nó còn phải chờ những phản hồi ban đầu từ người dùng.

Anh Tú

Google

Nguồn Một Thế Giới: https://1thegioi.vn/google-trien-khai-tinh-nang-bo-nho-dem-ngam-tren-api-gemini-232397.html

Google triển khai tính năng 'bộ nhớ đệm ngầm' trên API Gemini

Google đang triển khai một tính năng mới trong API Gemini, mà công ty cho rằng sẽ giúp giảm chi phí sử dụng các mô hình AI mới nhất cho các nhà phát triển bên thứ ba.

TIN KHÁC

Google: Nhiều người chán ngấy thiết kế thiếu biểu cảm của các ứng dụng iPhone

iPhone sắp bị 'xóa sổ' bởi AI?

Google Search sắp bị gỡ bỏ khỏi Safari sau lời khai của sếp Apple?

TIN NÓNG

Hội thi 'Sáng kiến, cải tiến ngành Hậu cần - Kỹ thuật' Lữ đoàn 171 năm 2025

Hà Nội khai trương Trung tâm Báo chí Thủ đô

Nga tìm ra giải pháp năng lượng cho vấn đề khai thác Bitcoin

Nan giải bài toán xử lý rác thải rắn sinh hoạt ở Lâm Đồng

Kho báu sâu 9.000m lộ diện nhờ công nghệ mới

Tranh cãi xoay quanh công nghệ xe tự lái

TIN MỚI

Cảnh báo về những siêu du thuyền ngày càng khổng lồ

Từng bước xây dựng hệ thống tài trợ khoa học chuẩn mực quốc tế

Cù Lao Dung: Tập huấn chuyển đổi số và ứng dụng trí tuệ nhân tạo AI năm 2025

Nghiệm thu đề tài khoa học cấp tỉnh 'Nghiên cứu, xác định tiềm năng sản xuất nông nghiệp hữu cơ cho một số cây trồng chủ lực của tỉnh Nam Định và đề xuất các giải pháp phát triển hiệu quả, bền vững'

Việt Nam có hơn 1.000 giống cây trồng đã được công nhận

Tham vọng tiếp theo của Apple

EVNCPC có 5 sáng kiến được công nhận cấp Tập đoàn

Minister Tran Hong Minh: Strive to open the expressway from Cao Bang to Ca Mau