|
Máster Universitario en Ingeniería Informática |
TRABAJOS FIN DE MáSTER curso: 2020-21
Monitorización y reconfiguración en tiempo real de redes de interconexión de altas prestaciones |
Descripcion y Objetivos
Los supercomputadores actuales están formados por un gran número de nodos de procesamiento que trabajan de forma paralela. Uno de los requisitos más importantes para obtener el máximo rendimiento es que entre estos nodos exista un gran ancho de banda y una baja latencia, para favorecer la comunicación y cooperación entre los nodos de procesamiento. Por tanto, en un supercomputador, la red de interconexión es un elemento fundamental, que debe ofrecer las prestaciones requeridas para soportar eficientemente la comunicación entre los nodos, ya que si no se convertirá en el cuello de botella del sistema completo. Buena parte de las prestaciones de la red vienen determinada por la topología y la(s) ruta(s) disponible(s) para ir desde un nodo de la red a otro, que se calcula(n) mediante el algoritmo de encaminamiento. La topología y el encaminamiento deben ser eficientes, para que el sistema HPC pueda aprovechar al máximo las prestaciones de los nodos de procesamiento.
Existen multitud de herramientas que permiten medir el rendimiento de la red de interconexión, como benchmarks o aplicaciones especiales, herramientas de diagnóstico o software de monitorización en tiempo real.
Sin embargo, estas herramientas por sí solas no pueden mejorar las prestaciones de la red. Se hace necesario por tanto, una infraestructura que sea capaz de medir el estado actual de la ocupación de los enlaces de la red, e informar a un proceso supervisor para que tome decisiones para mejorar las prestaciones de la red en tiempo real.
En este TFM se aborda la construcción de esta infraestructura de monitorización de la red de interconexión en tiempo real, con el objetivo de tomar decisiones de configuración de la red que ayuden a mejorar sus prestaciones. En concreto, se propone conectar el monitor en tiempo real LIMITLESS, desarrollado en la Universidad Carlos III Madrid (UC3M), con el software de control (OpenSM) de la red de interconexión InfiniBand del clúster CELLIA, del grupo RAAP. Mediante esta arquitectura se pretende demostrar que la conexión de LIMITLESS y OpenSM permitirá tomar decisiones de configuración de la red en tiempo real que mejoren las prestaciones cuando se ejecutan determinadas aplicaciones en el clúster CELLIA.
Metodología y Competencias
Para alcanzar los objetivos del TFM, las actividades principales a realizar son las siguientes. Se indica también el tiempo estimado de realización en meses, asumiendo una dedicación total de 150 horas (120 horas de trabajo autónomo y 30 horas de relación con los tutores) a lo largo de 4 meses, y una dedicación de 37,5 horas/mes:
1) Conectar el monitor LIMITLESS con el software de control OpenSM (0,5 meses).
2) Implementar el algoritmo de toma de decisiones en tiempo real para configurar la red InfiniBand, según la información proporcionada por LIMITLESS a OpenSM (1,5 meses).
3) Evaluar la eficiencia de la infraestructura de monitorización y configuración bajo aplicaciones reales ejecutadas en el clúster CELLIA (1 mes).
4) Documentar las resultados (1 mes).
Competencias de la asignatura:
CE1 - Capacidad para la integración de tecnologías, aplicaciones, servicios y sistemas propios de la Ingeniería Informática, con carácter generalista, y en contextos más amplios y multidisciplinares.
CE4 - Capacidad para modelar, diseñar, definir la arquitectura, implantar, gestionar, operar, administrar y mantener aplicaciones, redes, sistemas, servicios y contenidos informáticos.
CE5 - Capacidad de comprender y saber aplicar el funcionamiento y organización de Internet, las tecnologías y protocolos de redes de nueva generación, los modelos de componentes, software intermediario y servicios.
CE9 - Capacidad para diseñar y evaluar sistemas operativos y servidores, y aplicaciones y sistemas basados en computación distribuida.
CE16 - Realización, presentación y defensa, una vez obtenidos todos los créditos del plan de estudios, de un ejercicio original realizado individualmente ante un tribunal universitario, consistente en un proyecto integral de Ingeniería en Informática de naturaleza profesional en el que se sinteticen las competencias adquiridas en las enseñanzas.
Medios a utilizar
- Los medios a utilizar para el desarrollo del TFM son los siguientes:
- Cluster CELLIA del RAAP: este cluster está construido con componentes InfiniBand, concretamente tarjetas de red Mellanox ConnectX3 MCX353A-QCBT QSFP con conexión QDR, conmutadores Mellanox IS5022 y cableado InfiniBand estándar. El cluster está disponible para ser empleado durante la duración del TFM.
- Distribución de OpenSM: documentación, código fuente y tutoriales. La distribución está disponible.
- Monitor LIMITLESS, disponible.
- Benchmarks y aplicaciones paralelas para la generación de tráfico en el cluster CELLIA.
- Ordenador tipo PC.
Bibliografía
La bibliografía básica para el desarrollo del TFM es la siguiente:
- Jose Duato, Sudhakar Yalamanchili, and Ni Lionel. 2002. Interconnection Networks: An Engineering Approach. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.
- InfiniBand Architecture Specification, Volume 1, Release 1.3, Release 2014.
- Pedro Yebenes Segura, Jesús Escudero-Sahuquillo, Crispín Gómez Requena, Pedro Javier García, Francisco J. Quiles, José Duato: BBQ: A Straightforward Queuing Scheme to Reduce HoL-Blocking in High-Performance Hybrid Networks. Euro-Par 2013: 699-712
Toda la bibliografía está disponible.
Tutores ESCUDERO SAHUQUILLO, JESUS GARCÍA GARCÍA, PEDRO JAVIER | Alumno GÓMEZ LÓPEZ, GABRIEL
|
| |