Ce projet de recherche doctorale est publié a été réalisé par Guy Pujolle

Description d'un projet de recherche doctoral

Fiabilisation du routage et de la commutation pour les réseaux de data center

Mots clés :

Résumé du projet de recherche (Langue 1)

L'informatique dans les nuages (ou Cloud Computing) est une nouvelle voie de l'informatique promettant la séparation entre l'usage d'un service et les plate-formes matérielles requises pour ce service. Cette évolution a été possible par le formidable développement de nouvelles technologies de virtualisation. La virtualisation est une technologie permettant, notamment, de simuler l'exécution simultanée de plusieurs systèmes informatiques sur une même et unique plate-forme matérielle. Ainsi, la virtualisation permet de dissocier le service rendu par un système informatique de la machine requise par ce système. Une fois cette séparation réalisée, il est possible de : i) déplacer un système virtuel d'une machine physique vers une autre ; ii) sauvegarder et arrêter un système virtuel afin de pouvoir le re-démarrer ultérieurement . Le projet NU@GE est un projet de recherche et développement visant à mettre en oeuvre une infrastructure de virtualisation distribuée entres plusieurs centres informatiques (ou datacenter). Dans un tel projet, les systèmes de communications représentent un élément clé de la réussite de l'architecture. L'objet de ce projet de recherche est de travailler sur : • les briques de communications nécessaire aux différents usages des outils de virtualisations (déplacement, sauvegarde, etc.) • la maîtrise de la qualité de service réseau (ou QOS) permettant, à tout moment, d'adapter les besoins d'un client à l'infrastructure informatique mise à disposition pour rendre son service.

Résumé du projet de recherche (Langue 2)

Contexte technologique

Une direction envisageable pour faire face à des soucis de passage à
l'échelle, de sécurité et de fiabilité de l'architecture Internet est la mise en
oeuvre de protocoles de séparation de l’identificateur et du localisateur
dans le réseau Internet. Actuellement, l'adresse de niveau Réseau (IP)
résout à la fois la fonction d'identification du terminal et sa position dans
le réseau Internet. L’adresse de niveau liaison des données (MAC),
originellement utilisé pour identifier un terminal dans un réseau local, sert
dans ce nouveau paradigme à identifier également les passerelles réseaux
dans le cadre de nouvelles architectures de routage Ethernet.
La séparation des fonctionnalités d’identification et de localisation au
niveau réseau est donc à l’ordre du jour de l’agenda technologique en
matière de réseau. Des efforts de standardisation ont déjà été menés au
sein de l'IETF pour définir les architectures protocolaires
« Locator/Identifier Separation Protocol (LISP) » et « Transparent
Interconnection of a Lot of Links (TRILL) », mais l’interopérabilité entre
ces protocoles agissants dans deux couches différentes n’a pas été
abordée. Dans ce cadre, les passerelles/localisateurs sont des routeurs ou
des commutateurs capables d'effectuer la translation localisateuridentificateur,
entre lesquels des paquets encapsulés sont transmis (puis
décapsulés). Ces passerelles tracent une frontière entre les réseaux de
transit et les réseaux de frontière de l'Internet à laquelle on s’intéresse
dans cette thèse. La question est de savoir si changer la localisation de
niveau Réseau ou de niveau Liaison de données d’une façon unifiée
permet de résoudre les importants défis à la fois techniques et
algorithmiques que posent les très hauts débits dans le Cloud (voir Réf. 1
et 2).

Contexte économique

Différents acteurs, équipementiers, opérateurs de télécommunications,
poussent aujourd'hui à l'adoption de ces nouveaux protocoles de
communication. En particulier, dans le cadre du projet français NU@GE
mené par six PMEs innovantes et le LIP6, ces protocoles faciliteraient la
mise en oeuvre d’une nouvelle architecture de réseau d’accès au Cloud
très fiable et fortement répartie régionalement sur le territoire Français.
L'une des raisons principales est que ces protocoles peuvent améliorer la
qualité de service et les performances pour les services de type
« Infrastructure as a Service (IaaS) », ainsi que leur gestion, à travers
différents sites.
Notamment, on envisage d’améliorer significativement les taux de
disponibilité et de fiabilité de service à des niveaux carrier-grade
(99,999%) et au delà, les latences d’accès et la convergence de reroutage
inter-site et intra-site suite à des évènements qui peuvent être
résolus par un changement de localisateur tel que, par exemple, la
migration de serveurs d’un lieu à un autre pour économiser de l’énergie,
ou bien pour réagir face aux pannes ou aux congestions affectant les
performances d’accès à certains datacenters.
Comme l’architecture Internet évolue vers une délocalisation des
ressources de stockage et de calcul à l’extérieur du terminal, les
performances des réseaux qui hébergent les infrastructures de services
« Cloud computing » doivent être considérées attentivement par les
nouveaux protocoles de routage Internet. Les estimations sur la
croissance du secteur lié à l’informatique en nuage montrent que les
chiffres d’affaires des acteurs du cloud, petits et grands, sont toutes
orientées à la hausse, avec une croissance d’au moins 20% par an. Cette
croissance suit la tendance, à la fois pour des usages particuliers et pour
des usages professionnels, de stocker dans le Cloud ses données et
d’exécuter dans le Cloud des applications (notamment dans un contexte
mobile). Cette croissance est destinée à être confirmée pour les années à
venir si les performances restent au moins au même niveau actuel, d’où la
nécessité de définir des nouvelles briques technologiques pour permettre
aux architectures du cloud de passer à l’échelle, à la fois au niveau
réseaux et au niveau système.

Etat de l’art

L’Internet du futur s’appuiera donc de plus en plus sur la virtualisation et
l’informatique en nuage. Le défis principal dans ce contexte est d’offrir ces
réseaux virtuels et services dans le cloud avec à très haut niveau de
résilience. La résilience dans l’informatique en nuage implique la capacité
de s’adapter rapidement aux changement de configuration et de donner
des fortes garanties de continuité de service suite à des pannes matériels,
logiciels, à l’infrastructure et suite à des migrations de serveurs et
services, comme expliqué dans Ref. 3.
Par exemple, une infrastructure typique de cloud privé permet de rétablir
un serveur, suite à la détection d’une panne ou dans mal-fonctionnement,
en transférant à l’avance des données et des machines virtuelles d’un data
center à un autre, et puis en fournissant la nouvelle localisation du
serveur. Typiquement, la nouvelle localisation est dans un data center pas
très loin, dans une salle toute proche ou dans la même région
métropolitaine (ou MAN). Depuis quelques années, le cloud se banalise au
niveau Internet, ce qui représente l’évolution classique du cloud privé
dans l’écosystème Internet (cloud publique), donc sur la longue et très
longue distance (ou WAN). Il y a des nombreux défis technologiques et
scientifiques à lever lorsque on veut garantir des hauts niveaux de
résilience et performance sur la longue distance où résilience ne se
qualifie plus simplement comme robustesse faces aux pannes, mais aussi
comme capacité de migrer des machines virtuelles publiques (des
serveurs Internet) d’une localisation à une autre dans l’Internet pour
satisfaire des objectifs multiples, comme par exemple le cout énergétique,
la qualité de service, le volume de trafic, etc.

A l’état de l’art, la gestion du cloud publique long-distance a été
partiellement abordée. Le problème principale étant de garantir une
continuité IP aux services Internet, les solutions proposées se basent sur
l’utilisation du protocole mobile IP et ses extensions, définis pour les
réseaux mobiles et sans fils, et reconsidérés pour les réseaux de data
center. C’est le cas des études en Ref. 4, 5 et 6. Il y a d’autres travaux
prometteurs, comme celui présenté en Ref. 7, qui aborde la même
problématique avec une approche open-source (code ouvert). Des
problèmes réseaux persistent toutefois, à cause du caractère hétérogène
du paysage Internet avec plusieurs boitiers intermédiaires de gestion (ou
middle-boxes).

Contribution et plan de travail

Toutefois, aucune étude scientifique à cette date ne qualifie l’amélioration
de la qualité de service et des performances, et plus précisément du taux
de disponibilité et de fiabilité, due à l’adoption de tels nouveaux protocoles
dans une architecture de routage Internet et de commutation Ethernet
aujourd’hui fortement dépendantes des protocoles et des technologies
disponibles. L’objectif de cette thèse est de contribuer aux activités de
standardisation des nouveaux protocoles Internet décrits plus haut, de
qualifier les améliorations de la qualité de service qui peuvent être
atteintes par l’introduction de nouveaux protocoles de routage interniveau.
Un deuxième objectif est de qualifier les performances de
l’environnement protocolaire LISP et TRILL en termes de latence de
reroutage et de fiabilité. Pour atteindre cet objectif, la mise en place de la
nouvelle architecture de data center distribuée prévue dans le cadre du
projet nu@ge en 2014 facilitera les travaux expérimentaux et de
validation des protocoles.

Les jalons à franchir :

Première année

- Mise en place d’une plateforme de simulation de migration de
machines virtuelles sur la plateforme mondiale LISP4.net ;

- Mésure des performances de migration de machines virtuelles entre
data center universitaires du testbed (Université de Rome, VNU
Hanoi, INRIA Sophia-Antipolis) de partenaires avec lesques nous
avons des relations;

- Amélioration des briques logicielles et algorithmiques pour optimiser
les temps de migration (« handoff ») ;

- Définition et évaluation des performances de nouveaux protocoles et
dbilité
d’une architecture de data-center reparti du point de vue
topologique et routage ;

- Définition et évaluation de nouveaux algorithmes de routage
conjoint LISP-TRILL et des nouveaux sous-protocoles pour la
création d’un plan de contrôle unifié intra et inter datacenter ;

- Tests expérimentaux sur la plateforme du projet nu@ge constituée
d’au moins 4 data centers (Paris 1, Paris 2, Lyon, Nantes) à l’horizon
2014 ;

Troisième année :

- Définition et évaluation de nouveaux algorithmes de partage de
charge conjoint MPTCP-LISP et MPTCP-TRILL et des nouveaux sousprotocoles
pour la création d’un plan de contrôle unifié serveurréseau
de datacenter ;

- Contribution en standardisation à l’IETF et éventuellement à l’Open
Networking Forum ;

- Tests finaux et mise en production de l’architecture protocolaire
dans la plateforme du consortium nu@ge

Informations complémentaires (Langue 1)

Dans le cadre de la thèse, des collaborations seront établies avec des
partenaires académiques du LIP6 afin de prouver le passage à l’échelle
des solutions définies sur la longue distance (avec l’Université de Rome 1
– La Sapienza, Prof. A. Cianfrani) et la très longue distance (avec l’Université Féderale
de Rio de Janeiro, Brasil, Prof. Otto Duarte), par la mise en place d’une
interconnexion entre mini data-centers expérimentaux dans des pays et
des continents différents.

Informations complémentaires (Langue 2)

Références

1. M. Armbrust et al, "A view of cloud computing", Communications of the
ACM, Vol. 53, No. 4, 2010.

2. B. Ahlgre et al., « Content, Connectivity, and Cloud: Ingredients for the
Network of the Future », IEEE Communications Magazine, July 2011

3. A. Greenberg, J. Hamilton, D.A. Maltz, P. Patel, "The cost of a cloud:
research problems in data center networks", ACM SIGCOMM Computer
Communication Review, Vol. 39, 2008.

4. T. Wood et al., "CloudNet: dynamic pooling of cloud resources by live
WAN migration of virtual machines", in Proc. of 7th 2011 ACM int.
conference on Virtual execution environments.

5. H. Watanabe et al., "A Performance Improvement Method for the Global
Live Migration of Virtual Machine with IP Mobility", in Proc. of ICMU 2010.

6. E. Harney et al., "The efficacy of live virtual machine migrations over
the internet", in Proc. of the 2nd 2007 Int. workshop on Virtualization
technology in distributed computing.

7. J.N. Matthews et al, "Running Xen: a hands-on guide to the art of
virtualization", Prentice Hall.