Uso de los clusters asociados
Todas las tareas y los cluster asociados son gestionados con el software SLURM(Simple Linux Utility for Resources Management).
Que es SLURM?
SLURM es un conjunto de herramientas de software open-source que gestiona los recursos computacionales y agenda los trabajos en cada nodo de la federacion de clusters dedicados a la computacion cientifica en la Universidad Nacional de Colombia .
Los usuarios no ejecutan el software en estos clusters de la manera en que lo harían en una estación de trabajo: Aqui se deben enviar los trabajos, que se ejecutan durante un tiempo definido, con recursos asignados, sin supervisión del usuario y con una agenda y prioridad decidida por algoritmos.
Ejecutando trabajos con Sesiones iteractivas con SLURM
Una sesión interactiva (o interactiva) con SLURM le posibilita reservar recursos computacionales en los nodos de los clusters del CECC para ejecutar aplicaciones mientras se encuentra en una sesion de shell; Esto permite a los usuarios ejecutar aplicaciones que requieren el control o la decision del usuario o aplicaciones, se usa en procesos de depuracion o aplicaciones gráficas completas que requieren recursos informáticos más extensos.
En general existen 3 posibles rutas para reservar estos recursos:
sbatch: Para enviar un script el cual es agendado y enviado a procesar cuando los recursos solicitados y asignados al usuario esten disponibles; despues de enviado el usuario regresa inmediatamente a la shell.
srun: Envio de una tarea simple, no requiere de preparacion o procesamientos posteriores. La salida de la shell–normamente la pantalla– permite el control del usuario justo cuando el trabajo finalice.
salloc: Permite solicitar recursos sin tener necesariamente una tarea o proceso que los use. El usuario tendra el control de la salida estandar(Pantalla) se elimine o se cancele, la shell tambien sera bloqueada hasta que el trabajo inicie.
Que hacer y que no hacer en los Clusters
Nunca ejecute procesos en su $HOME, es un espacio de almacenamiento restringido.
Siempre use el envio de procesos por lotes, exceptuando cuando usa mos nodos de la particion debug, que ejecutara maximo 3 horas y luego eliminara su proceso, aun si no ha terminado.
Los nodos de login debe usarlos unicamente para editar archivos y enviar trabajos.
No ejecute procesos iteractivos en los nodos de login.