Pour améliorer la recherche dans Bing, Microsoft a opté pour une association intelligente de SLM (Small Language Models) et de LLM (Large-Language Models). Parlant de SLM, Phi-4, assis sur 14 milliards de paramètres, bat GPT-4 d’OpenAI à plate couture.
Grâce à cette nouveauté, réduire la latence et fournir des résultats d’une précision chirurgicale devient du gâteau.
Mais à quel prix ?
Améliorer les performances à moindre coût
Les SLM (Small Language Models) sont 100 fois plus rapides que les LLM (Large-Language Models). Aussi, Bing les a utilisés comme base pour régler les problèmes de rapidité et de coût occasionnés par les LLM.
Pour arrondir la dépense, Bing a également fait appel à la technologie NVIDIA. Son outil TensorRT-LLM améliore les performances des SLM sur les GPU de la firme.
Scientifiquement, quel est l’impact ?
L’association SLM+LLM cible la recherche standard (Bing Search) et la recherche profonde (Deep Search) de Bing.
Il y a clairement un avant et un après.
- Avant : Une latence au 95e percentile de 4,76 secondes par lot de 20 requêtes. Débit : 4,2 requêtes par seconde et par instance.
- Après : Une latence de seulement 3,03 secondes par lot. Et le débit passe à 6,6 requêtes par seconde et par instance
En résumé, Bing a réduit la latence de 30% et fait s’évaporer 57% de ses coûts opérationnels. Que signifie ce javanais pour l’utilisateur normal qui souhaite juste choper une information en ligne ?
Quel est le bénéfice pour l’utilisateur de Bing ?
Les nouvelles performances de Bing constitue une avancée notable dont la firme est fière :
En pratique, plusieurs hypothèses se dessinent :
- Des résultats de recherche plus rapides avec une inférence optimisée (On parle de millisecondes, quel utilisateur lambda s’en soucie)?
- Une meilleure précision ET des résultats contextualisés (Bingo !)
- Des coûts réduits, qui laissent à Bing une marge confortable pour innover encore plus (Joli à entendre, qui vivra verra)
Marketeurs, utilisez le nouveau Bing à votre avantage
A retenir :
- Un LLM décortique et répond précisément aux questions complexes (telles que la crise de la quarantaine de l’oncle Jules)
- Un SLM répond aux questions simples et directes (telles que l’heure exacte à Londres pour envoyer un email aux heures habituelles de bureau)
Voici ce que vous pouvez faire pour mettre en avant votre contenu en ligne :
- Un contenu conversationnel. Cible tactique : ChatGPT
- Des solutions pratiques à des préoccupations concrètes. Cible tactique : les professionnels
- Optimiser votre contenu multimédia. Cible tactique : Les médias enrichis dans la recherche
- Insérer des mots-clés de niche et des expressions de longue traîne. Cible tactique : Les niches de consommateurs
- Utiliser des données structurées. Cible tactique : L’extrait enrichi dans les SERP
L’avenir de la recherche avec le combo SLM+LLM
Fini le diktat des LLM (Large-Language Models) dans l’écosystème IA. Les SLM (Small Language Models) semblent avoir pris la relève avec brio.
Répondre rapidement et clairement aux recherches de plus en plus complexes des utilisateurs devient enfin accessible aux grands pontes de l’IA.
A tout le moins, la voie est ouverte, et l’espoir est permis.