Technologie

Ollama 0.22.1 fait tourner les tool calls de Gemma 4 sur votre portable sans clé d’API

Susan Hill

Ollama 0.22.1 livre un moteur Gemma 4 mis à jour qui prend enfin en charge les deux capacités qui comptaient pour le travail sérieux en IA locale : le mode de réflexion explicite et l’appel de fonctions, ou tool calling. Le tool calling laisse le modèle décider du moment où invoquer une fonction externe — ouvrir une page web, interroger une base de données, exécuter un calcul — et réintégrer le résultat dans son propre raisonnement. Le mode de réflexion expose les étapes intermédiaires du modèle pour qu’une application puisse les capter et agir dessus. Ces deux fonctions étaient jusqu’ici facturées par les grandes API en cloud. Elles tournent maintenant en local contre Gemma 4, sans aucun service externe.

Ce qui fait que cette annonce pèse davantage qu’un énième lancement de modèle, c’est l’équation matérielle. La famille Gemma 4 que Google a publiée sous licence Apache-2.0 couvre quatre tailles : E2B, E4B, 26B A4B et 31B. Les variantes les plus légères tournent sur un portable récent à carte graphique intégrée et entre douze et seize gigaoctets de RAM. Les versions 26B A4B et 31B exigent un GPU de bureau, mais restent largement dans le territoire grand public. La même architecture qui imposait avant un contrat d’API payant ou un serveur domestique à quatre chiffres devient une installation d’un samedi après-midi pour quiconque possède une machine raisonnablement récente.

La conséquence concrète pour les non-développeurs, c’est qu’une catégorie entière d’applications de type agent — celles qui lisent votre boîte mail, rédigent des réponses, récupèrent des documents, remplissent des formulaires, résument des réunions — n’a plus besoin d’envoyer ces données vers un serveur tiers. Un utilisateur soucieux de sa vie privée avait jusque-là deux options : faire confiance à la politique de données d’un fournisseur cloud, ou faire tourner en local un modèle nettement plus faible sans tool calling. Le terrain du milieu était un trou, et Ollama 0.22.1 le bouche pour la classe de poids de Gemma 4.

La lecture sceptique consiste à rappeler qu’Ollama et Gemma 4 ne sont pas des équivalents de la frontière cloud. Un modèle 31B hébergé en local n’égale ni Claude d’Anthropic ni GPT-5 d’OpenAI sur le raisonnement complexe. La précision des appels d’outils sur des chaînes longues est sensiblement moindre sur les petites variantes. Les entrées multimodales fonctionnent, mais plus lentement. Et la charge d’intégration retombe sur l’utilisateur : personne n’a encore livré une application d’agent Gemma 4 plus Ollama assez aboutie pour rivaliser avec un workflow SaaS fini. Le plafond matériel et le poli logiciel restent deux vrais manques.

La version est disponible dès maintenant via l’installateur standard d’Ollama pour macOS, Linux et Windows. Les poids de Gemma 4 sont hébergés dans la bibliothèque de modèles d’Ollama sous l’espace de nom gemma4, et le changement de runtime introduit en 0.22.1 s’applique automatiquement à n’importe quelle taille une fois téléchargée.

Discussion

Il y a 0 commentaire.