Back1 Back2 Back3 Mantik

Mantik
Outil de développement pour les scientifiques des données : l'utilisation des supercalculateurs simplifiée

RETOUR

Outil de développement pour les scientifiques des données : l'utilisation des supercalculateurs simplifiée

« Il faut des gens qui ont le courage de s'aventurer en territoire inconnu. »

 

Peter Düben, Responsable de la modélisation du système terrestre, ECMWF

 

-> Lire l'interview complète

Données clés du projet

2 personnes

4 années

Outil de développement logiciel

DevOps, intégration continue/déploiement continu

Python, JavaScript

ML Flow, Kubernetes, Docker, Node-js

Pourquoi nous aimons présenter ce cas

C'est agréable de se faciliter un peu la vie et de créer un outil qui permet de travailler plus rapidement et plus efficacement.

C'est encore plus agréable quand on peut aussi faciliter la vie des autres et avoir la possibilité de transformer son propre outil en un outil de développement Data Science commercialisable. Ici, nous avons pu combiner parfaitement nos deux compétences - le développement logiciel et la science des données - car les développeurs et les utilisateurs de Mantik travaillent dans la même pièce au sein de notre entreprise !

 

Tâche et solution

En 2016, nos scientifiques spécialisés dans les données ont identifié un certain nombre d'étapes qui revenaient sans cesse dans les projets d'apprentissage automatique, mais que personne n'avait envie d'effectuer car elles étaient répétitives et chronophages. Peu après, de grands acteurs tels qu'AWS et Microsoft Azure ont commencé à répondre aux besoins des spécialistes du machine learning, mais beaucoup d'entre eux restaient encore sans réponse :

Les résultats n'étaient pas suffisamment reproductibles, car pour cela, il fallait avoir une vision globale de l'application ML : un modèle se compose d'un trio de données, de code et de matériel. Ils sont indissociables et déterminent l'applicabilité des algorithmes ML. Le travail collaboratif sur un même modèle, et encore plus entre différents environnements, était difficilement pris en charge. Il n'existait aucun moyen de tester et de comparer rapidement, voire automatiquement, les modèles les uns par rapport aux autres. Le transfert des modèles développés en Python vers des langages plus performants dans les environnements de production était coûteux, et le déploiement des modèles entraînés pouvait s'avérer très fastidieux.

Ambrosys a commencé à concevoir un outil pouvant servir de base et d'aide quotidienne à des millions de scientifiques des données. Contrairement aux outils propriétaires des géants américains du logiciel, Mantik est open source afin d'activer le pouvoir de développement open source de la communauté des scientifiques des données.

En 2020, nous avons fait le point. L'architecture était en place, tout comme les interfaces vers les principales bibliothèques ML, et des cycles de formation reproductibles étaient possibles. Mais le reste du monde continuait également à évoluer ; de nombreux nouveaux outils faisaient leur apparition sur le marché. Nous ne pouvions pas tomber dans le piège qui consiste à essayer d'intégrer trop de fonctionnalités dans notre produit et de le rendre trop lent. Nous avons développé une architecture qui nous a permis d'intégrer de nouveaux composants au lieu de tout réinventer. Par exemple, nous avons combiné Mantik avec le ML Flow complet (une roue que nous n'avons pas eu à réinventer) et l'avons systématiquement déployé vers un créneau intéressant : le calcul haute performance.

La mission de Mantik est désormais de fournir des clusters de calcul de grande et très grande taille, comme le JSC à Jülich ou le CSCS à Lugano, aussi facilement qu'un cloud AWS. Actuellement, deux projets de recherche européens à grande échelle (MAELSTROM et KI:STE) sont en train de finaliser Mantik v2.0.

En savoir plus sur Mantik

À propos du calcul haute performance

Le calcul haute performance, ou HPC, parfois simplement appelé « supercalcul », offre d'énormes possibilités lorsqu'il s'agit de traiter des quantités extrêmement importantes de données dans un délai raisonnable. Les applications typiques sont celles qui traitent de systèmes particulièrement complexes, tels que la recherche météorologique et climatique, l'aérospatiale ou les mathématiques financières. L'apprentissage automatique et le HPC sont également des partenaires idéaux ; cependant, le HPC-ML étant une discipline récente et peu d'outils pratiques étant disponibles, le nombre d'utilisateurs accédant aux ressources HP est bien inférieur à ce qui serait possible ou utile.

Ambrosys est l'un des pionniers de l'ouverture du HPC à de nouveaux domaines d'application. Nous disposons d'un excellent réseau avec le JSC Jülich et d'autres centres de calcul haute performance et pouvons prendre en charge à la fois le développement d'applications HPC et la réservation et l'utilisation de capacités HPC externes.

 

→ Vous avez des questions ou des remarques concernant le calcul haute performance ? Le Dr Markus Abel se fera un plaisir d'y répondre.

Retour