Ollama 0.22.1 fait tourner les tool calls de Gemma 4 sur votre portable sans clé d’API

Ollama 0.22.1 livre un moteur Gemma 4 mis à jour qui prend enfin en charge les deux capacités qui comptaient pour le travail sérieux en IA locale : le mode de réflexion explicite et l’appel de fonctions, ou tool calling. Le tool calling laisse le modèle décider du moment où invoquer une fonction externe — ouvrir une page web, interroger une base de données, exécuter un calcul — et réintégrer le résultat dans son propre raisonnement. Le mode de réflexion expose les étapes intermédiaires du modèle pour qu’une application puisse les capter et agir dessus. Ces deux fonctions étaient jusqu’ici facturées par les grandes API en cloud. Elles tournent maintenant en local contre Gemma 4, sans aucun service externe.

Ce qui fait que cette annonce pèse davantage qu’un énième lancement de modèle, c’est l’équation matérielle. La famille Gemma 4 que Google a publiée sous licence Apache-2.0 couvre quatre tailles : E2B, E4B, 26B A4B et 31B. Les variantes les plus légères tournent sur un portable récent à carte graphique intégrée et entre douze et seize gigaoctets de RAM. Les versions 26B A4B et 31B exigent un GPU de bureau, mais restent largement dans le territoire grand public. La même architecture qui imposait avant un contrat d’API payant ou un serveur domestique à quatre chiffres devient une installation d’un samedi après-midi pour quiconque possède une machine raisonnablement récente.

La conséquence concrète pour les non-développeurs, c’est qu’une catégorie entière d’applications de type agent — celles qui lisent votre boîte mail, rédigent des réponses, récupèrent des documents, remplissent des formulaires, résument des réunions — n’a plus besoin d’envoyer ces données vers un serveur tiers. Un utilisateur soucieux de sa vie privée avait jusque-là deux options : faire confiance à la politique de données d’un fournisseur cloud, ou faire tourner en local un modèle nettement plus faible sans tool calling. Le terrain du milieu était un trou, et Ollama 0.22.1 le bouche pour la classe de poids de Gemma 4.

La lecture sceptique consiste à rappeler qu’Ollama et Gemma 4 ne sont pas des équivalents de la frontière cloud. Un modèle 31B hébergé en local n’égale ni Claude d’Anthropic ni GPT-5 d’OpenAI sur le raisonnement complexe. La précision des appels d’outils sur des chaînes longues est sensiblement moindre sur les petites variantes. Les entrées multimodales fonctionnent, mais plus lentement. Et la charge d’intégration retombe sur l’utilisateur : personne n’a encore livré une application d’agent Gemma 4 plus Ollama assez aboutie pour rivaliser avec un workflow SaaS fini. Le plafond matériel et le poli logiciel restent deux vrais manques.

La version est disponible dès maintenant via l’installateur standard d’Ollama pour macOS, Linux et Windows. Les poids de Gemma 4 sont hébergés dans la bibliothèque de modèles d’Ollama sous l’espace de nom gemma4, et le changement de runtime introduit en 0.22.1 s’applique automatiquement à n’importe quelle taille une fois téléchargée.

Ollama 0.22.1 fait tourner les tool calls de Gemma 4 sur votre portable sans clé d’API

Plus comme ceci

Deux points sous Opus 4.6, cinq fois moins cher : Gemini 3.5 Flash refait le calcul

Le nouveau modèle vocal d’OpenAI réfléchit à l’intérieur même de la boucle audio, et le silence qui trahissait l’IA disparaît

Claude Opus 4.8 repère quatre fois plus de ses propres erreurs de code

Le fantôme qui gouverne : quand l’IA autonome dépasse les systèmes conçus pour la contenir

Linus Torvalds reconnaît que les patches IA sont devenus la norme du noyau Linux

ChatGPT s’installe à l’intérieur d’Excel et de Google Sheets et corrige vos formules pendant que vous regardez

Discussion