Critiqs

Google réduit les coûts de l'API Gemini grâce à la mise en cache implicite

google-cuts-gemini-api-costs-with-implicit-caching

Brève

  • L'API Gemini de Google utilise désormais la mise en cache implicite pour réduire les coûts de développement en réutilisant les contextes d'invite répétés.
  • La mise en cache automatique dans les modèles Gemini 2.5 permet d'économiser jusqu'à soixante-quinze pour cent sur les demandes répétées d'API.
  • Le fait de placer les données en double au début des invites permet de maximiser le potentiel de réduction des coûts.

Google a introduit une nouvelle fonctionnalité dans son API Gemini qui pourrait réduire considérablement les coûts pour les développeurs travaillant avec ses outils d'IA avancés. Appelée API Gemini, mise en cache impliciteCette mise à jour vise à réduire les dépenses en identifiant et en réutilisant automatiquement les contextes répétés dans les demandes d'API pour les modèles Gemini 2.5 Pro et 2.5 Flash.

Contrairement à l'ancien système où la mise en cache exigeait des développeurs qu'ils prédéfinissent les invites fréquemment utilisées, la nouvelle approche fonctionne automatiquement et est activée par défaut. Cela signifie que les programmeurs n'ont plus besoin de gérer manuellement les demandes qui doivent être stockées pour être réutilisées, ce qui permet d'économiser du temps et de l'argent.

Fonctionnement de la mise en cache implicite

Chaque fois qu'une demande d'API avec une section de début partagée est envoyée aux modèles Gemini 2.5, le système vérifie si une invite identique a été utilisée auparavant. S'il trouve une correspondance, il extrait la réponse du cache et transmet les économies réalisées directement au développeur.

Google affirme que API Gemini, mise en cache implicite peut permettre une réduction des coûts allant jusqu'à soixante-quinze pour cent lorsque les mêmes données sont répétées d'une invite à l'autre. Le seuil d'activation de ces économies est bas, puisqu'il ne nécessite que 1 024 jetons pour Gemini 2.5 Flash et 2 048 jetons pour Gemini 2.5 Pro, ce qui équivaut à environ 750 à 1 500 mots.

Le passage à la mise en cache automatique fait suite aux commentaires des développeurs qui trouvaient l'ancien système explicite trop manuel et parfois coûteux, notamment en raison de factures d'API inattendues. Google a réagi en promettant des changements et assure aujourd'hui que cette mise à jour permettra de réduire les coûts plus facilement.

Pour maximiser les avantages, les développeurs sont encouragés à placer le contexte répétitif au début de leurs demandes. Toute partie de la demande qui change souvent doit être placée à la fin, ce qui augmente la probabilité d'atteindre le cache et de recevoir la réduction.

Ce nouveau système présente toutefois quelques inconvénients. Google n'a pas autorisé les audits de tiers à confirmer les économies promises grâce à la mise en cache implicite. Il convient donc d'être prudent pendant que la fonctionnalité est testée en conditions réelles.

Au fur et à mesure que les développeurs commenceront à utiliser cette mise en cache automatique, leurs commentaires détermineront l'efficacité de ces réductions de coûts. Nombreux sont ceux qui espèrent que cette mise à jour sera à la hauteur de son potentiel, en rendant l'IA avancée plus accessible à ceux qui utilisent l'API Gemini de Google.

PARTAGER

Ajouter un commentaire

Que se passe-t-il dans le domaine de l'IA ?

Gardez une longueur d'avance grâce à des outils d'IA quotidiens, des mises à jour et des informations importantes.

Écouter AIBuzzNow - Choisir sa plateforme

C'est mieux dans l'application

Nous utilisons des cookies pour améliorer votre expérience sur notre site. Si vous continuez à utiliser ce site, nous supposerons que vous en êtes satisfait.

Se connecter / S'inscrire

Rejoignez la communauté de l'IA qui a toujours une longueur d'avance