Projet-ANR-20-CE25-0013
Démarrage : septembre 2021 - Durée : 42 mois
Le transfert de gros volumes de données
d’un ordinateur à un autre par un réseau informatique est
un sujet quasiment aussi vieux que la naissance de ces
mêmes réseaux. Ce sujet scientifique a mobilisé autant les
communautés scientifiques système et réseau que les plus
grandes sociétés industrielles du Cloud, de l’IoT, du Big
Data et bien sur de l’IA. Pourtant, fin 2019, la solution
la plus efficace pour transférer de très gros volumes de
données d’un ordinateur à un autre reste l’échange par La
Poste d’un disque dur entre le client et le fournisseur.
Amazon, l’un des plus grands acteurs du Cloud, avec son
offre Snowball, n’a actuellement pas trouvé mieux pour ses
clients qui souhaitent charger de grands volumes de
données dans le Cloud Amazon AWS. Avec les évolutions
récentes des interconnexions de datacenters, le point de
contention n’est plus le réseau informatique. Les
prévisions concernant les DCI (Datacenters Interconnect)
annoncent des débits de 100 à 400 Gb/s. Le point de
contention vient des applications qui centralisent les
transferts des données. De façon simplifiée, une
application s’exécutant dans un datacenter dc1 ouvre une
connexion avec application s’exécutant dans un datacenter
dc2 et transfeère ses données, sans tirer parti des
possibilités de parallélisme des datacenters qui incluent
de nombreux serveurs (et de nombreuses cartes réseaux –
NIC). A noter que cette situation est d’autant plus
aberrante que les données à transférer sont souvent
distribuées sur plusieurs machines dans les datacenters,
du fait de systèmes de fichiers distribués comme Ceph. Une
autre conséquence de la centralisation du transfert des
données, lorsque les données sont distribuées dans le
datacenter, est la surcharge du réseau interne au
datacenter. Les données doivent être transférées de leur
nœud de stockage vers le nœud hébergeant l’application de
transfert (par exemple un serveur FTP) pour ensuite être
transférées vers un client externe. Cette centralisation
des entrées-sorties, qui limite le débit global et
surcharge le réseau interne du datacenter, est appelée
Single Point of IO (SPIO) dans la suite.
L’approche du projet PicNic pour répondre à
ce problème est de permettre aux applications d’exploiter
des cartes réseaux (NIC) disponibles dans un datacenter (à
distance) afin d’optimiser les transferts (d’où l’acronyme
PicNic). L’objectif est de concevoir un ensemble de
services systèmes pour le transfert de données massives
entre des datacenters en distribuant et parallélisant les
flux réseaux. Ces services permettent de concevoir des
outils de transfert sur mesure répondant à des besoins
particuliers d’applications. Le dénominateur commun à ces
services visés est le fait de s’appuyer sur (1) le
parallélisme des communications permettant d’exploiter au
mieux les capacités de communication entre les datacenters
et (2) l’adaptation des infrastructures logicielles
existantes dans les datacenters (notamment les systèmes de
fichiers et les outils de communication) pour y intégrer
les fonctions de parallélisation.
L'IRIT (http://www/irit.fr) est une unité
mixte de recherche entre le CNRS, l'Institut National
Polytechnique de Toulouse (INPT), l'Université Paul
Sabatier (UPS) et l'Université des Sciences Sociales
Toulouse (UT1). Au sein de l'IRIT, Sepia est une équipe de
recherche dans le domaine des systèmes d'exploitation et
systèmes répartis, dont les travaux de recherche visent
les infrastructures logicielles déployées dans des
clusters, grilles, ou environnement de type cloud.
http://www.irit.fr/-Equipe-SEPIA-
Le LS2N (www.ls2n.fr) est une unité mixte de recherche entre le CNRS, l’IMT Atlantique, l’Ecole Centrale de Nantes et l’Université de Nantes. L’Inria est partenaire du LS2N. Réunissant 450 personnes au cœur des sciences du numérique, ce laboratoire a pour ambition de faire progresser significativement la visibilité de la recherche en Cybernétique et Informatique à Nantes. Au sein du LS2N, Stack est une équipe commune centre l’IMT Atlantique, le LS2N et l’INRIA. Elle se focalise sur les challenges liés à la gestion et management des ressources dans l’informatique utilitaire (Cloud, Fog, Edge). Plus précisément, l’équipe propose des nouvelles abstractions pour le management massif des infrastructures géo-distribuées, du bas (système) au haut niveau (application) de la couche logicielle.
Le LIP (http://www.ens-lyon.fr/LIP/) (Laboratoire de l’Informatique du Parallélisme) est une unité mixte de recherche du CNRS, de l’ENS de Lyon, de l'Inria et de l’université Claude-Bernard Lyon 1 implantée dans les locaux de l’Ecole Normale Supérieure de Lyon. L'équipe-projet commune Inria-CNRS-ENSL-LyonI Avalon (https://avalon.ens-lyon.fr/) travaille sur l'exécution efficace des applications parallèles et/ou distribuées sur des ressources parallèles et/ou distribuées telles que des supercalculateurs ou datacentres. Le défi est de définir des modèles d'applications, des systèmes, et des algorithmes pour exécuter les applications sous des contraintes d'utilisateurs (prix, performance, etc) et d'administrateurs système (maximisation de l'usage des ressources, minimisation de l'énergie consommée, etc.). L'équipe s'attaque en particulier au profilage et à la modélisation de la consommation d'énergie, à la gestion des données, à la description d'applications, à la réalisation de systèmes distribués (virtualisés ou pas) et au placement et à l'ordonnancement d'applications. Les résultats théoriques de l'équipe sont validés par des simulations ou des expériences sur Grid'5000 ou des plates-formes de production.
Le Laboratoire d’Informatique de Grenoble (LIG) est un laboratoire d’envergure, dont les partenaires académiques sont : le CNRS, Grenoble INP, Inria Grenoble Rhône-Alpes, l’Université Grenoble Alpes. Le LIG rassemble près de 500 chercheurs, enseignants-chercheurs, doctorants et personnels en support à la recherche. Au sein du LIG, l’objectif de l’équipe ERODS est d’étudier la construction et l’administration d’infrastructures de Cloud Computing. Les thèmes scientifiques sont : (1) Systèmes autonomes. Notre objectif est d’automatiser des opérations d’administration pour améliorer les aspects performance et robustesse de ces environnements, (2) Support distribué. L’objectif est de d’améliorer ou de concevoir de nouveaux supports d’exécution pour faciliter la construction d’une infrastructure de Cloud Computing robuste et performante, (3) Machine virtuelle. L’objectif est de revisiter la conception de machines virtuelles pour viser des domaines spécifiques et pour intégrer différentes couches de virtualisation (VM Langage, OS, Hyperviseur) dans une seule plateforme modulaire.
Né de la fusion en janvier 2011 du Centre de Lutte Contre le Cancer « Paul Papin » d'Angers et du Centre de Lutte Contre le Cancer « René Gauducheau » de Saint-Herblain, l'Institut de Cancérologie de l'Ouest (ICO) (https://www.institut-cancerologie-ouest.com/) a pour missions les soins, la recherche et l'enseignement. L'activité recherche de l'ICO a pour caractéristique majeure de faire se côtoyer des équipes de recherche fondamentale, de recherche translationnelle et de recherche clinique. Résolument tourné vers l'avenir grâce à la mise en place de techniques innovantes, la Plateforme de Génétique Moléculaire développe des analyses à haut débit générant un flux de données de plus en plus important. Le projet PicNic prend tout son sens pour le transfert de ces données massives vers leurs lieux de traitement et de stockage.
Nutanix est un éditeur de logiciels américain dédié au cloud computing créé en 2019. Il propose des solutions de gestion clouds hyperconvergée privés, publiques et hybrides. Nutanix compte aujourd'hui plus de 15,000 clients à l’échelle internationale.