Blog sur les outils d'IA > Google cuts Gemini API costs with implicit caching
Gardez une longueur d'avance grâce à des outils d'IA quotidiens, des mises à jour et des informations importantes.
PARTAGER
Google a introduit une nouvelle fonctionnalité dans son API Gemini qui pourrait réduire considérablement les coûts pour les développeurs travaillant avec ses outils d'IA avancés. Appelée API Gemini, mise en cache impliciteCette mise à jour vise à réduire les dépenses en identifiant et en réutilisant automatiquement les contextes répétés dans les demandes d'API pour les modèles Gemini 2.5 Pro et 2.5 Flash.
Contrairement à l'ancien système où la mise en cache exigeait des développeurs qu'ils prédéfinissent les invites fréquemment utilisées, la nouvelle approche fonctionne automatiquement et est activée par défaut. Cela signifie que les programmeurs n'ont plus besoin de gérer manuellement les demandes qui doivent être stockées pour être réutilisées, ce qui permet d'économiser du temps et de l'argent.
Chaque fois qu'une demande d'API avec une section de début partagée est envoyée aux modèles Gemini 2.5, le système vérifie si une invite identique a été utilisée auparavant. S'il trouve une correspondance, il extrait la réponse du cache et transmet les économies réalisées directement au développeur.
Google affirme que API Gemini, mise en cache implicite peut permettre une réduction des coûts allant jusqu'à soixante-quinze pour cent lorsque les mêmes données sont répétées d'une invite à l'autre. Le seuil d'activation de ces économies est bas, puisqu'il ne nécessite que 1 024 jetons pour Gemini 2.5 Flash et 2 048 jetons pour Gemini 2.5 Pro, ce qui équivaut à environ 750 à 1 500 mots.
Le passage à la mise en cache automatique fait suite aux commentaires des développeurs qui trouvaient l'ancien système explicite trop manuel et parfois coûteux, notamment en raison de factures d'API inattendues. Google a réagi en promettant des changements et assure aujourd'hui que cette mise à jour permettra de réduire les coûts plus facilement.
Pour maximiser les avantages, les développeurs sont encouragés à placer le contexte répétitif au début de leurs demandes. Toute partie de la demande qui change souvent doit être placée à la fin, ce qui augmente la probabilité d'atteindre le cache et de recevoir la réduction.
Ce nouveau système présente toutefois quelques inconvénients. Google n'a pas autorisé les audits de tiers à confirmer les économies promises grâce à la mise en cache implicite. Il convient donc d'être prudent pendant que la fonctionnalité est testée en conditions réelles.
Au fur et à mesure que les développeurs commenceront à utiliser cette mise en cache automatique, leurs commentaires détermineront l'efficacité de ces réductions de coûts. Nombreux sont ceux qui espèrent que cette mise à jour sera à la hauteur de son potentiel, en rendant l'IA avancée plus accessible à ceux qui utilisent l'API Gemini de Google.
PARTAGER
Gardez une longueur d'avance grâce à des outils d'IA quotidiens, des mises à jour et des informations importantes.
Plus de nouvelles sur l'IA
C'est mieux dans l'application
Nous utilisons des cookies pour améliorer votre expérience sur notre site. Si vous continuez à utiliser ce site, nous supposerons que vous en êtes satisfait.