Utilisation du système de scheduling Sun Grid Engine

Transcription

Utilisation du système de scheduling Sun Grid Engine
Grid Engine FAQ :http://www.hpcvl.org/faqs/francais/GridEngine_fr.html
Utilisation du système de scheduling Sun Grid Engine
Par admin — Dernière modification 18/03/2008 14:44
Comment utiliser SGE. Cette FAQ regroupe les commandes permettant à la fois de lancer des
calculs sur le cluster et d'en comprendre le fonctionnement de base.
Le cluster fonctionne avec un système de file d'attente basé sur la soumissions de jobs. Chaque file
d'attente pointe sur un des ressources qui correspondent à des noeuds de calculs. Pour soumettre un
job en mode batchon utilise la commande qsub. Il suffit d'encapsuler la commande à lancer sur le
cluster dans un un script. Un exemple de script commenté pour l'utilisation de cliquez BLAST Un
numéro apparaîtra après la soumission vous donnant le numéro que SGE lui a attribué. Cet
identifiant peut vous servir pour supprimer votre job, ou suivre son bon déroulement.
Mode batch : Soumission de jobs avec qsub
Pour soumettre votre script.
qsub script.sh
Soumettre un job 10 fois.
qsub -t 1-10 job.sh
Soumettre des jobs sur la file par défaut. A charge pour SGE de soumettre le job sur un noeud de
calcul disponible.
qsub -q long.q sge_blast.sh
Soumission sur un noeud particulier d'une file connue
qsub -q long.q@n46 sge_blast.sh
Soumettre un job sur un noeud particulier.
qsub -l hostname=n55 sge_clustal.sh
Dans un groupe de machines.
qsub -q "*@@allhosts" sge_blast.sh
Soumettre un job sur la file slow.q mais sur les noeuds disposant du plus de mémoire. On utilise la
ressource big_mem.
qsub -l big_mem -q long.q sge_blast.sh
Lister les jobs (qstat) et les ressources disponibles (qhost)
Afficher les noeuds de calcul disponibles et leurs ressources.
qhost
Afficher les groupes de noeuds de calcul
qconf -shgrpl
Afficher l'état des files d'attente.
qstat
qstat -f
qstat -g c
Afficher les jobs en attente pour l'utilisateur martin
qstat -u martin -s p
Afficher les jobs en cours de traitement pour l'utilisateur martin
qstat -u martin -s r
Afficher l'état d'un job en erreur (la ligne error peut indiquer la raison de non soumission si le job
est en mode Eqw)
qstat -j 165432
Signification des flags sur l'état de la file issu de qstat -f.
a(larm), A(larm), C(alendar suspended), s(uspended), S(ubordinate), d(isabled),
D(isabled), E(rror)
Savoir pourquoi un job n a pas ete schedule.
qstat -j job_id
Suppression de jobs :qdel
Supprimer le job numéro 12.
qdel 12
Supprimer tous les jobs de l'utilisateur dont le login est "martin".
qdel -u martin
Forcer la suppression du job numéro 12.
qdel -f 12
Les files d'attente
Par défaut tous les jobs ont la même priorité (0) dans une file. La politique actuelle repose une
modèle de partage (Fair Share Scheduling) qui équilibre la charge sur une fenêtre glissante de 7
jours.
Pour basculer les jobs d'un utilisateur de la file courante vers une nouvelle file (newshort.q)
qalter -u martin -q newshort.q
Gestions des messages d'erreurs
•
Cannot execute binary file.
Vérifier que l'on a bien
#! /bin/bash en première ligne du shell