IA

La perfection est l'ennemi de l'IA

Des chercheurs de l'Université du Michigan ont présenté OptiReduce, un nouveau système de communication qui améliore la vitesse et l'efficacité de l'entraînement de l'IA sur des serveurs dans le cloud

La perfection est l'ennemi de l'IA
Agencias

Agencias

  • 30 avril 2025
  • Mise à jour: 30 avril 2025 à 22:17
La perfection est l'ennemi de l'IA

Une équipe de recherche de l’Université du Michigan a développé un nouveau système de communication collective appelé OptiReduce, qui accélère l’entraînement de l’intelligence artificielle (IA) et de l’apprentissage automatique sur plusieurs serveurs dans le cloud.

Ce système innovant établit des limites de temps pour la communication entre serveurs, éliminant ainsi la nécessité d’attendre que tous terminent leurs tâches, ce qui se traduit par une plus grande efficacité dans le traitement de grands modèles.

L’apprentissage profond distribué nécessite que plusieurs serveurs travaillent ensemble, mais les congestions et les retards sont courants dans les centres de calcul en nuage en raison de la charge simultanée des travaux.

Les modèles d’IA prospèrent grâce à la méthode de communication d’OptiReduce

OptiReduce propose une solution en introduisant des limites temporelles qui permettent au processus d’avancer sans attendre que les serveurs les plus lents rattrapent leur retard. De cette manière, on obtient une augmentation de 70 % de la rapidité pour atteindre la précision par rapport à Gloo et 30 % plus rapide que NCCL dans des environnements cloud partagés.

Bien que cette méthodologie implique la perte de certaines données en raison des limites de temps, OptiReduce utilise des techniques mathématiques avancées pour approcher les informations manquantes, minimisant ainsi l’impact sur la précision finale du modèle.

Les chercheurs soutiennent qu’en acceptant une « fiabilité limitée », les travaux d’apprentissage automatique peuvent s’exécuter plus rapidement sans compromettre leur précision.

Dans ses tests, OptiReduce a montré qu’il était significativement plus efficace par rapport aux modèles existants, permettant à de grands modèles d’IA, comme Llama 4 et Gemini, d’être plus résilients face à la perte de données.

L’équipe explore également des solutions au niveau matériel pour atteindre des communications de centaines de gigabits par seconde, une étape qui pourrait révolutionner encore plus la capacité de traitement dans le cloud.

Derniers articles

Chargement de l’article suivant