Utilisation du système de scheduling Sun Grid Engine
Transcription
Utilisation du système de scheduling Sun Grid Engine
Grid Engine FAQ :http://www.hpcvl.org/faqs/francais/GridEngine_fr.html Utilisation du système de scheduling Sun Grid Engine Par admin — Dernière modification 18/03/2008 14:44 Comment utiliser SGE. Cette FAQ regroupe les commandes permettant à la fois de lancer des calculs sur le cluster et d'en comprendre le fonctionnement de base. Le cluster fonctionne avec un système de file d'attente basé sur la soumissions de jobs. Chaque file d'attente pointe sur un des ressources qui correspondent à des noeuds de calculs. Pour soumettre un job en mode batchon utilise la commande qsub. Il suffit d'encapsuler la commande à lancer sur le cluster dans un un script. Un exemple de script commenté pour l'utilisation de cliquez BLAST Un numéro apparaîtra après la soumission vous donnant le numéro que SGE lui a attribué. Cet identifiant peut vous servir pour supprimer votre job, ou suivre son bon déroulement. Mode batch : Soumission de jobs avec qsub Pour soumettre votre script. qsub script.sh Soumettre un job 10 fois. qsub -t 1-10 job.sh Soumettre des jobs sur la file par défaut. A charge pour SGE de soumettre le job sur un noeud de calcul disponible. qsub -q long.q sge_blast.sh Soumission sur un noeud particulier d'une file connue qsub -q long.q@n46 sge_blast.sh Soumettre un job sur un noeud particulier. qsub -l hostname=n55 sge_clustal.sh Dans un groupe de machines. qsub -q "*@@allhosts" sge_blast.sh Soumettre un job sur la file slow.q mais sur les noeuds disposant du plus de mémoire. On utilise la ressource big_mem. qsub -l big_mem -q long.q sge_blast.sh Lister les jobs (qstat) et les ressources disponibles (qhost) Afficher les noeuds de calcul disponibles et leurs ressources. qhost Afficher les groupes de noeuds de calcul qconf -shgrpl Afficher l'état des files d'attente. qstat qstat -f qstat -g c Afficher les jobs en attente pour l'utilisateur martin qstat -u martin -s p Afficher les jobs en cours de traitement pour l'utilisateur martin qstat -u martin -s r Afficher l'état d'un job en erreur (la ligne error peut indiquer la raison de non soumission si le job est en mode Eqw) qstat -j 165432 Signification des flags sur l'état de la file issu de qstat -f. a(larm), A(larm), C(alendar suspended), s(uspended), S(ubordinate), d(isabled), D(isabled), E(rror) Savoir pourquoi un job n a pas ete schedule. qstat -j job_id Suppression de jobs :qdel Supprimer le job numéro 12. qdel 12 Supprimer tous les jobs de l'utilisateur dont le login est "martin". qdel -u martin Forcer la suppression du job numéro 12. qdel -f 12 Les files d'attente Par défaut tous les jobs ont la même priorité (0) dans une file. La politique actuelle repose une modèle de partage (Fair Share Scheduling) qui équilibre la charge sur une fenêtre glissante de 7 jours. Pour basculer les jobs d'un utilisateur de la file courante vers une nouvelle file (newshort.q) qalter -u martin -q newshort.q Gestions des messages d'erreurs • Cannot execute binary file. Vérifier que l'on a bien #! /bin/bash en première ligne du shell