Ce projet de recherche doctorale est publié a été réalisé par Guy Pujolle

Description d'un projet de recherche doctoral

Fiabilisation du routage et de la commutation pour les réseaux de data center

Mots clés :

Résumé du projet de recherche (Langue 1)

L'informatique dans les nuages (ou Cloud Computing) est une nouvelle voie de l'informatique promettant la séparation entre l'usage d'un service et les plate-formes matérielles requises pour ce service. Cette évolution a été possible par le formidable développement de nouvelles technologies de virtualisation. La virtualisation est une technologie permettant, notamment, de simuler l'exécution simultanée de plusieurs systèmes informatiques sur une même et unique plate-forme matérielle. Ainsi, la virtualisation permet de dissocier le service rendu par un système informatique de la machine requise par ce système. Une fois cette séparation réalisée, il est possible de : i) déplacer un système virtuel d'une machine physique vers une autre ; ii) sauvegarder et arrêter un système virtuel afin de pouvoir le re-démarrer ultérieurement . Le projet NU@GE est un projet de recherche et développement visant à mettre en oeuvre une infrastructure de virtualisation distribuée entres plusieurs centres informatiques (ou datacenter). Dans un tel projet, les systèmes de communications représentent un élément clé de la réussite de l'architecture. L'objet de ce projet de recherche est de travailler sur : • les briques de communications nécessaire aux différents usages des outils de virtualisations (déplacement, sauvegarde, etc.) • la maîtrise de la qualité de service réseau (ou QOS) permettant, à tout moment, d'adapter les besoins d'un client à l'infrastructure informatique mise à disposition pour rendre son service.

Résumé du projet de recherche (Langue 2)

Contexte technologique Une direction envisageable pour faire face à des soucis de passage à l'échelle, de sécurité et de fiabilité de l'architecture Internet est la mise en oeuvre de protocoles de séparation de l’identificateur et du localisateur dans le réseau Internet. Actuellement, l'adresse de niveau Réseau (IP) résout à la fois la fonction d'identification du terminal et sa position dans le réseau Internet. L’adresse de niveau liaison des données (MAC), originellement utilisé pour identifier un terminal dans un réseau local, sert dans ce nouveau paradigme à identifier également les passerelles réseaux dans le cadre de nouvelles architectures de routage Ethernet. La séparation des fonctionnalités d’identification et de localisation au niveau réseau est donc à l’ordre du jour de l’agenda technologique en matière de réseau. Des efforts de standardisation ont déjà été menés au sein de l'IETF pour définir les architectures protocolaires « Locator/Identifier Separation Protocol (LISP) » et « Transparent Interconnection of a Lot of Links (TRILL) », mais l’interopérabilité entre ces protocoles agissants dans deux couches différentes n’a pas été abordée. Dans ce cadre, les passerelles/localisateurs sont des routeurs ou des commutateurs capables d'effectuer la translation localisateuridentificateur, entre lesquels des paquets encapsulés sont transmis (puis décapsulés). Ces passerelles tracent une frontière entre les réseaux de transit et les réseaux de frontière de l'Internet à laquelle on s’intéresse dans cette thèse. La question est de savoir si changer la localisation de niveau Réseau ou de niveau Liaison de données d’une façon unifiée permet de résoudre les importants défis à la fois techniques et algorithmiques que posent les très hauts débits dans le Cloud (voir Réf. 1 et 2). Contexte économique Différents acteurs, équipementiers, opérateurs de télécommunications, poussent aujourd'hui à l'adoption de ces nouveaux protocoles de communication. En particulier, dans le cadre du projet français NU@GE mené par six PMEs innovantes et le LIP6, ces protocoles faciliteraient la mise en oeuvre d’une nouvelle architecture de réseau d’accès au Cloud très fiable et fortement répartie régionalement sur le territoire Français. L'une des raisons principales est que ces protocoles peuvent améliorer la qualité de service et les performances pour les services de type « Infrastructure as a Service (IaaS) », ainsi que leur gestion, à travers différents sites. Notamment, on envisage d’améliorer significativement les taux de disponibilité et de fiabilité de service à des niveaux carrier-grade (99,999%) et au delà, les latences d’accès et la convergence de reroutage inter-site et intra-site suite à des évènements qui peuvent être résolus par un changement de localisateur tel que, par exemple, la migration de serveurs d’un lieu à un autre pour économiser de l’énergie, ou bien pour réagir face aux pannes ou aux congestions affectant les performances d’accès à certains datacenters. Comme l’architecture Internet évolue vers une délocalisation des ressources de stockage et de calcul à l’extérieur du terminal, les performances des réseaux qui hébergent les infrastructures de services « Cloud computing » doivent être considérées attentivement par les nouveaux protocoles de routage Internet. Les estimations sur la croissance du secteur lié à l’informatique en nuage montrent que les chiffres d’affaires des acteurs du cloud, petits et grands, sont toutes orientées à la hausse, avec une croissance d’au moins 20% par an. Cette croissance suit la tendance, à la fois pour des usages particuliers et pour des usages professionnels, de stocker dans le Cloud ses données et d’exécuter dans le Cloud des applications (notamment dans un contexte mobile). Cette croissance est destinée à être confirmée pour les années à venir si les performances restent au moins au même niveau actuel, d’où la nécessité de définir des nouvelles briques technologiques pour permettre aux architectures du cloud de passer à l’échelle, à la fois au niveau réseaux et au niveau système. Etat de l’art L’Internet du futur s’appuiera donc de plus en plus sur la virtualisation et l’informatique en nuage. Le défis principal dans ce contexte est d’offrir ces réseaux virtuels et services dans le cloud avec à très haut niveau de résilience. La résilience dans l’informatique en nuage implique la capacité de s’adapter rapidement aux changement de configuration et de donner des fortes garanties de continuité de service suite à des pannes matériels, logiciels, à l’infrastructure et suite à des migrations de serveurs et services, comme expliqué dans Ref. 3. Par exemple, une infrastructure typique de cloud privé permet de rétablir un serveur, suite à la détection d’une panne ou dans mal-fonctionnement, en transférant à l’avance des données et des machines virtuelles d’un data center à un autre, et puis en fournissant la nouvelle localisation du serveur. Typiquement, la nouvelle localisation est dans un data center pas très loin, dans une salle toute proche ou dans la même région métropolitaine (ou MAN). Depuis quelques années, le cloud se banalise au niveau Internet, ce qui représente l’évolution classique du cloud privé dans l’écosystème Internet (cloud publique), donc sur la longue et très longue distance (ou WAN). Il y a des nombreux défis technologiques et scientifiques à lever lorsque on veut garantir des hauts niveaux de résilience et performance sur la longue distance où résilience ne se qualifie plus simplement comme robustesse faces aux pannes, mais aussi comme capacité de migrer des machines virtuelles publiques (des serveurs Internet) d’une localisation à une autre dans l’Internet pour satisfaire des objectifs multiples, comme par exemple le cout énergétique, la qualité de service, le volume de trafic, etc. A l’état de l’art, la gestion du cloud publique long-distance a été partiellement abordée. Le problème principale étant de garantir une continuité IP aux services Internet, les solutions proposées se basent sur l’utilisation du protocole mobile IP et ses extensions, définis pour les réseaux mobiles et sans fils, et reconsidérés pour les réseaux de data center. C’est le cas des études en Ref. 4, 5 et 6. Il y a d’autres travaux prometteurs, comme celui présenté en Ref. 7, qui aborde la même problématique avec une approche open-source (code ouvert). Des problèmes réseaux persistent toutefois, à cause du caractère hétérogène du paysage Internet avec plusieurs boitiers intermédiaires de gestion (ou middle-boxes). Contribution et plan de travail Toutefois, aucune étude scientifique à cette date ne qualifie l’amélioration de la qualité de service et des performances, et plus précisément du taux de disponibilité et de fiabilité, due à l’adoption de tels nouveaux protocoles dans une architecture de routage Internet et de commutation Ethernet aujourd’hui fortement dépendantes des protocoles et des technologies disponibles. L’objectif de cette thèse est de contribuer aux activités de standardisation des nouveaux protocoles Internet décrits plus haut, de qualifier les améliorations de la qualité de service qui peuvent être atteintes par l’introduction de nouveaux protocoles de routage interniveau. Un deuxième objectif est de qualifier les performances de l’environnement protocolaire LISP et TRILL en termes de latence de reroutage et de fiabilité. Pour atteindre cet objectif, la mise en place de la nouvelle architecture de data center distribuée prévue dans le cadre du projet nu@ge en 2014 facilitera les travaux expérimentaux et de validation des protocoles. Les jalons à franchir : Première année - Mise en place d’une plateforme de simulation de migration de machines virtuelles sur la plateforme mondiale LISP4.net ; - Mésure des performances de migration de machines virtuelles entre data center universitaires du testbed (Université de Rome, VNU Hanoi, INRIA Sophia-Antipolis) de partenaires avec lesques nous avons des relations; - Amélioration des briques logicielles et algorithmiques pour optimiser les temps de migration (« handoff ») ; - Définition et évaluation des performances de nouveaux protocoles et dbilité d’une architecture de data-center reparti du point de vue topologique et routage ; - Définition et évaluation de nouveaux algorithmes de routage conjoint LISP-TRILL et des nouveaux sous-protocoles pour la création d’un plan de contrôle unifié intra et inter datacenter ; - Tests expérimentaux sur la plateforme du projet nu@ge constituée d’au moins 4 data centers (Paris 1, Paris 2, Lyon, Nantes) à l’horizon 2014 ; Troisième année : - Définition et évaluation de nouveaux algorithmes de partage de charge conjoint MPTCP-LISP et MPTCP-TRILL et des nouveaux sousprotocoles pour la création d’un plan de contrôle unifié serveurréseau de datacenter ; - Contribution en standardisation à l’IETF et éventuellement à l’Open Networking Forum ; - Tests finaux et mise en production de l’architecture protocolaire dans la plateforme du consortium nu@ge

Informations complémentaires (Langue 1)

Dans le cadre de la thèse, des collaborations seront établies avec des partenaires académiques du LIP6 afin de prouver le passage à l’échelle des solutions définies sur la longue distance (avec l’Université de Rome 1 – La Sapienza, Prof. A. Cianfrani) et la très longue distance (avec l’Université Féderale de Rio de Janeiro, Brasil, Prof. Otto Duarte), par la mise en place d’une interconnexion entre mini data-centers expérimentaux dans des pays et des continents différents.

Informations complémentaires (Langue 2)

Références 1. M. Armbrust et al, "A view of cloud computing", Communications of the ACM, Vol. 53, No. 4, 2010. 2. B. Ahlgre et al., « Content, Connectivity, and Cloud: Ingredients for the Network of the Future », IEEE Communications Magazine, July 2011 3. A. Greenberg, J. Hamilton, D.A. Maltz, P. Patel, "The cost of a cloud: research problems in data center networks", ACM SIGCOMM Computer Communication Review, Vol. 39, 2008. 4. T. Wood et al., "CloudNet: dynamic pooling of cloud resources by live WAN migration of virtual machines", in Proc. of 7th 2011 ACM int. conference on Virtual execution environments. 5. H. Watanabe et al., "A Performance Improvement Method for the Global Live Migration of Virtual Machine with IP Mobility", in Proc. of ICMU 2010. 6. E. Harney et al., "The efficacy of live virtual machine migrations over the internet", in Proc. of the 2nd 2007 Int. workshop on Virtualization technology in distributed computing. 7. J.N. Matthews et al, "Running Xen: a hands-on guide to the art of virtualization", Prentice Hall.