IBM Presentations: Smart Planet Template
Transcription
IBM Presentations: Smart Planet Template
Surveillance de l'infrastructure Power Thibaud Besson – Support Technique avantvente Power Systems STG 1 Agenda Quoi surveiller ? Pourquoi surveiller Outils système Unix Nmon-topas Nmon to rrdtools Ganglia Systems Director Nagios / Cacti Sysload IBM Tivoli Monitoring Source: If applicable, describe source origin 2 Les domaines de surveillance sont variés CPU, mémoire, swap, débit interfaces, réseau Indicateurs de performance Sytème up/down, filesystems, démons Indicateurs vitaux Intrusion, login/logout, mots de passe Indicateurs de sécurité Temps de réponse, nombre de connexions Indicateurs des applications 3 La surveillance est vitale Garder une trace du passé ━ Définir une ligne de base – PerfPMR en particulier ━ Suivre les changements dans la configuration du système ━ Enregistrer les paramètres du système lors de l'incident Respecter les niveaux de service SLA ━ Maintenir l'intégrité du système : intrusion, état des miroirs disques ━ résoudre un problème avant l'effet avalanche Connaître son infrastructure : qui a besoin de quelles ressources et quand ? ━ Pour gérer les priorités d'attribution des ressources ━ Pour planifier les arrêts Préparer le futur ━ Extrapoler la croissance future ━ planifier les besoins ━ gérer le changement (de plateforme matérielle, d'OS, d'application) 4 Le coût / ROI de la surveillance Prix de l'outil ━ intégré au système d'exploitation ━ Open Source ━ Soumis à licence Prix de la mise en oeuvre ━ Administrateur système ━ Consultant(s) ━ Durée du projet ━ Capacité à intégrer de nouveaux serveurs ━ Automatisation du déployement Services apportés ━ Situations critiques évitées ━ Niveau de service garanti ━ Communication aux décideurs efficace ━ Gestion de l'infrastructure plus efficace – optimisation, planification, facturation 5 Outils système 6 Commandes sytème AIX CPU Memory I/O subsystem Network Processes & threads Status Commands vmstat iostat mpstat lparstat emstat/alstat sar ps time/timex topas nmon vmstat topas ps lsps ipcs vmstat iostat lvmstat lsps lspv/lsvg/lslv lsattr/lsdev topas nmon netstat atmstat entstat tokstat fddistat nfsstat ifconfig topas nmon ps pstat emstat/alstat topas nmon Monitor commands netpmon svmon netpmon filemon fileplace filemon netpmon tcpdump svmon,truss,kdb, dbx,gprof,fuser,prof Trace Level commands tprof curt splat trace trcrpt trace trcrpt trace trcrpt iptrace Ipreport trace trcrpt truss, trace, pprof, curt, splat, trcrpt 7 Focus sur quelques commandes système - filemon Most Active Logical Volumes -----------------------------------------------------------------------util #rblk #wblk KB/s volume description -----------------------------------------------------------------------1.00 10551264 5600 17600.8 /dev/rms09_lv /RMS/bormspr0/oradata07 1.00 6226928 7584 10394.4 /dev/rms06_lv /RMS/bormspr0/oradata04 Most Active Physical Volumes -----------------------------------------------------------------------util #rblk #wblk KB/s volume description -----------------------------------------------------------------------1.00 3313059 4520 5531.2 /dev/hdisk66 SAN Volume Controller Device 1.00 7563668 22312 12647.6 /dev/hdisk59 SAN Volume Controller Device VOLUME: /dev/rms09_lv description: /RMS/bormspr0/oradata07 reads: 23999 (0 errs) read sizes (blks): avg 439.7 min 16 max 2048 sdev 814.8 read times (msec): avg 85.609 min 0.139 max 1113.574 sdev 140.417 read sequences: 19478 read seq. lengths: avg 541.7 min 16 max 12288 sdev 1111.6 writes: 350 (0 errs) write sizes (blks): avg 16.0 min 16 max 16 sdev 0.0 write times (msec): avg 42.959 min 0.340 max 289.907 sdev 60.348 write sequences: 348 write seq. lengths: avg 16.1 min 16 max 32 sdev 1.2 seeks: 19826 (81.4%) seek dist (blks): init 18262432, avg 24974715.3 min 16 max 157270944 sdev 44289553.4 time to next req(msec): avg 12.316 min 0.000 max 537.792 sdev 31.794 throughput: 17600.8 KB/sec utilization: 1.00 8 Focus sur quelques commandes système sar -d AIX parva3106074 3 5 00CD87BE4C00 05/18/09 System configuration: lcpu=10 drives=111 16:01:24 %usr device 16:01:26 7 %sys %wio %busy 9 %idle avque 6 mode=Capped physc r+w/s 78 Kbs/s avwait avserv 5.03 hdisk0 42 0.6 89 1322 44.8 11.1 hdisk1 40 0.5 80 393 43.2 11.5 Similaire à iostat D Sar peut enregistrer les mesures : System Activity Recorder 9 Signification des indicateurs de performance CPU %user ━ ━ ━ For dedicated partitions, the entitled processing capacity is the number of physical processors. For shared pool when below CE, percentage of the entitled processing capacity used while executing at the user level (application). For shared pool and partition above CE (uncapped partitions with a current physical processor consumption above their entitled capacity), the percentage becomes relative to the number of physical processor consumed (physc) IO Wait Sys %IO wait n'est pas un bon indicateur des performances IO Idle IO Wait CE Sys physc CE user user 10 Commandes système : pour l'audit et le tuning Avantages liés à leur nature ━ Toujours présentes car intégrées à AIX (nmon aussi !) ━ Très proches du microcode / du matériel : outils pour le tuning ━ Très complètes (trop ?) ━ Scriptables Inconvénients ━ Vue locale de la partition, au mieux du serveur (CEC view dans certaines commandes) – Pas de vue globale de plusieurs machines ━ Nécessitent des compétences avancées pour les utiliser : options nombreuses Pour les interpréter : que représentent ces colonnes ? Ont-elles toujours le même sens ? ━ Ent : entitlement %Entc : entitlement consumed physc : physical proc consumed ━ Vue à un instant t, pas d'historique (ou presque... sar) 11 RMC Ressource Monitoring Control Elément de Reliable Scalable Cluster Technology (RSCT) Permet de surveiller l'état de ressource et de réagir à des seuils Complètement customisable et automatisable Interface graphique : WebSM GUI 12 RMC : pour le HPC Ligne de commande peu conviviale WebSM : ancienne interface Peu adapté à une production standard # lscondition "/var space used" Displaying condition information: To create an association between the condition and response: # mkcondresp "/var space used“ “Informational notifications” To start monitoring the resource: # startcondresp "/var space used“ “Informational notifications” condition 1: Name = "/var space used" Node = "masms1" MonitorStatus = "Not monitored" ResourceClass = "IBM.FileSystem" EventExpression = "PercentTotUsed > 90" EventDescription = "An event will be generated when more than 90 percent of the total space in the /var directory is in use." RearmExpression = "PercentTotUsed < 75" RearmDescription = "The event will be rearmed when the percent of the space used in the /var directory falls below 75 percent." SelectionString = "Name == \"/var\"" Severity = "i" NodeNames = {} MgtScope = "l" 13 Tester le monitoring : générer une charge nstress package : http://www.ibm.com/collaboration/wiki/display/WikiPtype/nstress ncpu : hammers the CPUs (can be slowed down to use a percentage) ndisk : hammers the disks (can be slowed down to use a percentage) ndiskaio : same as ndisk but does Asynchronous I/O (AIO handling changed in AIX 5L so not currently available) ndiskmio : same as ndisk but uses Modular IO AIX Expansion pack library it is assumed this is installed (experimental not currently available) nmem : hammers or touches memory nipc : tests shared memory, semaphores and shared messages take 1 CPU nlog : generates output like error messages nfile : creates, writes and deletes files to push the JFS log hard Ipctest : Manually test IPC createfs.sh : Script to create the filesystems used by the below scripts you will need to edit this for your system dbstart.sh : Script to start a fake database RDBMS you will need to edit this for your system webstart.sh : Script to start a fake webserver you will need to edit this for your system 14 Tester le monitoring : générer une charge disque Random IO avec ndisk # dd if=/dev/zero of=tempfile_10MB bs=1m count=10 # ndisk -R -f ./tempfile_10MB -r 50 -t 60 Command: ndisk -R -f ./tempfile_10MB -r 50 -t 60 Synchronous Disk test (regular read/write) No. of processes = 1 I/O type = Random Block size = 4096 Read-Write = Equal read and write Sync type: none = just close the file Number of files = 1 File size = 33554432 bytes = 32768 KB = 32 MB Run time = 60 seconds Sequential IO Test sequential read thruput from a device: # timex dd if=<device> of=/dev/null bs=1m count=100 Test sequential write thruput to a device: # timex dd if=/dev/zero of=<device> bs=1m count=100 Note that /dev/zero writes the null character, so writing this character to files in a file system will result in sparse files For file systems, either create a file, or use the lptest command to generate a file, e.g., # lptest 127 32 > 4kfile Test multiple sequential IO streams – use a script and monitor thruput with topas: dd if=<device1> of=/dev/null bs=1m count=100 & dd if=<device2> of=/dev/null bs=1m count=100 & Snooze % = 0 percent ----> Running test with block Size=4096 (4KB) . Proc - <--Disk IO--> | <--Throughput--> RunTime Num - TOTAL IO/sec | MB/sec KB/sec Seconds 1 - 331550 5517.4 | 21.55 22069.64 60.09 15 nmon / topas Solution simple, sûre, efficace ━ AIX 4, 5, 6 ━ Linux Power, x86, mainframe Pas d'installation ━ Très complet ━ beaucoup d'information à l'écran ━ Affichage totalement paramétrable ━ LPARs, VIOS, WPAR Conçu pour des serveurs puissants ━ exécutable maintenant intégré à AIX 64 CPU, 4000+ disques, 35 000 processes Extensible & intégré à smitty 16 VIOS 2.1 monitoring via topas Hit “E” Virtual Enternet including SEA Topas Monitor for host: bronze_ivm Interval: 2 Fri Dec 5 08:08:19 2008 =============================================================================== Network KBPS I-Pack O-Pack KB-In KB-Out ent10 (SEA) 31.3 43.0 43.0 15.9 15.4 |\--ent2 (VETH) 15.9 15.5 27.0 14.3 1.6 \--ent0 (PHYS) 15.5 27.5 16.0 1.6 13.9 lo0 0.0 0.0 0.0 0.0 0.0 Hit “D” and then “d” Virtual SCSI over the VIOS Topas Adapter View : bronze_ivm Interval: 2 Fri Dec 5 08:29:17 2008 =============================================================================== Adapter KBPS TPS KB-R KB-W sissas0 9.9K 92.0 0.0 9.9K vhost0 0.0 0.0 0.0 0.0 vhost1 9.9K 184.0 92.0 92.0 =============================================================================== Vtargets/Disks Busy% KBPS TPS KB-R ART MRT KB-W AWT MWT AQW AQD hdisk0 0.0 0.0 0.0 0.0 0.0 3.6 0.0 0.0 62.6 0.0 0.0 hdisk1 25.0 9.9K 92.0 0.0 0.0 3.5 9.9K 4.2 28.9 0.0 0.0 hdisk2 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 hdisk3 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 17 nmon – Online or Data Collector NMON nmon f c 400 s 1 Data Collection CSV file in nmon format Online 21/10/09 18 Screen nmon f or –F option Others Federico’s pGraph Bruce’s nmon2web Perl nmon2rrd C filter nmon file Stephen’s nmon Analyser Stephen’s nmon Consolidator 180 160 140 120 100 80 60 40 20 0 Java Dynamic Graphs Excel graphs Scripts rrdtool scripts + CPU & RAM aggregation nmon flow Scripts Create rrd Load rrd Graph rrd index.html Website +.jpg graphs rrdtool open source rrdtool open source nmon Analyzer Feuille Excel alimentées par enregistrement nmon ou topas Génère des graphiques Excel & tableaux de données Benchmark, peu adapté à l'historisation 21/10/09 CPU Disques Mémoire IO transferts IO interfaces Réseau Systèmes de fichier Paging Processes ... 20 nmon Consolidator Feuille Excel alimentée par enregistrements nmon ou topas Génèrent des graphiques Excel Suivi d'infrastructure / Etude de consolidation / tendances CPU Capacity Utilisation by Time of Day (all nodes) 12,00 10,00 8,00 radio2 radio1 6,00 rac2 rac1 dataguard 4,00 2,00 21/10/09 16:00 14:20 12:40 11:00 09:20 07:40 13:10 13:08 13:05 13:03 13:00 12:58 12:55 12:53 12:50 12:48 12:45 12:43 12:40 12:38 12:35 12:33 12:30 12:28 12:25 0,00 21 RRDTool – Round Robin Database Tool Spécialement conçue pour stocker & afficher des données temporelles ━ ━ ━ ━ Stockage très compact Taille de base fixe : Round-Robin. 12 ko par défaut Résolution variable : consolide les données pour limiter le volume et moyenner les données anciennes Le standard pour ce type d’usage Fonctionnalités graphiques Ligne de commande ━ rrdcreate / rrdfetch / rrdgraph / rrdtool update / … Intégration à des scripts ━ Perl, PHP, etc. 22 Screen nmon f or –F option Others Federico’s pGraph Bruce’s nmon2web Perl nmon2rrd C filter nmon file Stephen’s nmon Analyser Stephen’s nmon Consolidator 180 160 140 120 100 80 60 40 20 0 Java Dynamic Graphs Excel graphs Scripts rrdtool scripts + CPU & RAM aggregation nmon flow Scripts Create rrd Load rrd Graph rrd index.html Website +.jpg graphs rrdtool open source rrdtool open source Nmon2rrdtool – version basique http://www.aixtips.com/AIXtip/nmon2rrdv1.htm Nmon Enregistrement Nmon2rrd nmon2rrd -f nmon_file -d output_dir -x output_dir/index.html output_dir/*.gif 21/10/09 24 Nmon2rrd - historisation Télécharger l'archive & lire le script nmon2rrd.v2 ━ http://www.aixtips.com/AIXtip/nmon2rrdv2.htm Upload sur le serveur web des fichiers nmon : cron Création des pages web correspondantes par le script ━ Portail d'accès aux pages à personnaliser ━ $WEB_DIR/server/year/month/day/index.htm $WEB_DIR/index.htm Mise à jour / archivage ━ Un nouveau serveur est automatiquement pris en charge ━ Les fichiers nmon traités sont zippés 21/10/09 25 nmon2web Télécharger l'archive & lire index.html & readme.hmtl ━ http://ps-2.kev009.com:8081/AIXtip/nmon2rrdv3.htm nmon2web.pl ━ alimente rrdtool ━ crée les graphiques journaliers et historisés pour chaque partition nmon2web.cgi ━ 21/10/09 crée les graphiques de performances agrégés dynamiques 26 IBM developerWorks : Performance Wiki http://www.ibm.com/developerworks/wikis/display/WikiPtype/Performance+Other+Tools Références aux outils présentés précédemment 27 Solution open source de monitoring 28 Un outil de surveillance de cluster 21/10/09 Les origines de Ganglia Né du projet Millenium en 1998 à l’université de Berkeley ━ Déploiement d’une grille de nœuds de calcul à l’échelle du campus Ses origines ont des conséquences sur son architecture Maintenant supporté par la communauté des utilisateurs et développeurs ━ Wiki ━ listes de distribution ━ FAQ, How-to, etc. 21/10/09 Hiérarchie de Ganglia LPAR = nœud •Serveur Physique = cluster Salle ou site = grid preprodDB prodDB as1 as2 sandbox VIOS1 VIOS2 Cluster2 Cluster1 GRID 21/10/09 vio1 vio2 Propriétés remarquables Scalabilité : plus de 2000 noeuds Hiérarchie et fédération de clusters Robuste car appuyé sur des technologies éprouvées : XML, RRDTool Très économe en ressources système Code C Open Source, versions compilées disponibles pour de nombreuses plateformes Extensible pour surveiller d’autres paramètres Utilisé pour plus de 500 clusters dans le monde 21/10/09 ━ les universités : Berkeley, Stanford, MIT, Yale, … ━ Le secteur public : US Air Force, NASA, CERN, … ━ Les entreprises : Motorola, HP, Dell, Microsoft, SUN, Boeing, … Composants de Ganglia Deux démons ━ ━ G MON D = Ganglia MONitoring Daemon sur chacun des nœuds, collecte les données G META D = Ganglia META Daemon rassemble les données des clients gmond dans une base de données Une base de données RRDTool Un frontal web basé sur PHP dans un serveur HTTP Apache Quelques autres petits utilitaires 21/10/09 Ganglia MONitoring Daemon GMOND Tourne sur chacun des nœuds du cluster (LPARs) Simple à installer : le démon et un fichier de configuration gmond.conf Responsabilités : ━ ━ ━ ━ Deux manières de transmettre des informations ━ ━ 21/10/09 Surveiller les changements dans l’état de son hôte Annoncer les changements Ecouter l’état des autres nodes par unicast ou multicast Répondre aux demandes de description XML du cluster Unicast ou multicast de l’état de son hôte en format XDR par UDP Envoi de XML par connexion TCP Ganglia META Daemon GMETAD Tourne sur un seul nœud du cluster Simple à installer : le démon et un fichier de configuration gmetad.conf Rassemblement de clusters = grid, par interconnexion des gmetad Responsabilités de gmetad ━ ━ ━ ━ 21/10/09 Interroge ses sources de données : gmond ou gmetad Traite les fichiers XML reçus Sauvegarde les données dans une base de données Round-Robin Exporte du XML sur connexion TCP Schéma de principe 21/10/09 Frontal web Affiche les informations collectées forme graphique dynamique avec historique Basé sur PHP 4.1 et Apache 21/10/09 Intervalles d’échantillonnage Example d’intervalles d’échantillonnage : ━ 15 secondes pendant 1 jour, ━ 1 minute pendant 2 mois, ━ 10 minutes pendant 1 an RRAs "RRA:AVERAGE:0.5:1:5760" \ "RRA:AVERAGE:0.5:4:86400" \ "RRA:AVERAGE:0.5:40:52560" Traduction : Prendre 5760 échantillons chaque 1×15 secondes 5760 = 4 (échantillons/minute) × 60 (échantillons/heure) × 24 (heures) Prendre 86400 échantillons chaque 4×15 secondes (= 1 minute) 86400 = 60 (échantillons/heure) ×24 (heures) ×30 (jours) ×2 (mois) Prendre 52560 échantillons chaque 40×15 secondes (= 10 minutes) 52560 = 6 (échantillons/heure) ×24 (heures) ×365 (jours) ×1 (an) 21/10/09 Les métriques Une propriété du système qui est observée par gmond : ━ ━ ━ ━ Gmetric permet d’ajouter de nouveaux métriques ━ ━ Variables : cpu_user, disk_free, mem_free, etc Plus statiques : os_release, boottime, MTU_size, etc Généraux : 34 métriques définis sur toutes les plateformes Spécifiques : 8 métriques Solaris, 4 métriques HP-UX, 18 métriques AIX Coder les métriques Recompiler gmond pour les intégrer Travail réalisé par Michael Perzl pour les serveurs Power ━ ━ 21/10/09 Cappé, CPU entitlement, weight, etc. http://www.perzl.org/ganglia Métriques standard 1/2 boottime ━ ━ ━ ━ percent CPU nice not defined on AIX, Linux yes number of CPUs cpu_intr ━ ━ 21/10/09 number of interrupts (??) not defined on AIX, Linux yes load average over 1 minute load_five ━ total available disk space in GB load_one ━ total free disk space in GB disk_total ━ CPU time spent waiting for I/O disk_free ━ percent CPU user cpu_wio ━ percent CPU system cpu_user ━ speed of CPUs in MHz cpu_system ━ number of system interrupts (??) not defined on AIX, Linux yes cpu_speed ━ cpu_num ━ percent CPU idle time cpu_nice ━ percent of time since boot idle CPU not defined on AIX, Linux yes cpu_idle ━ ━ number of network bytes sent out per second cpu_aidle cpu_sintr ━ number of network bytes received per second bytes_out ━ system boot timestamp bytes_in ━ load average over 5 minutes load_fifteen ━ load average over 15 minutes Métriques standard 2/2 machine_type ━ ━ amount of shared memory ━ not defined on AIX, Linux yes mem_buffers ━ amount of memory used for buffers ━ not defined on AIX, Linux yes ━ amount of memory used for cache ━ AIX: numpermmemory pages os_name name of OS most filled disk partition ━ not defined on AIX, Linux yes pkts_in number of network packets sent out proc_run total number of running processes proc_total ━ number of network packets received pkts_out ━ mtu MTU size reported in bytes ━ ━ OS release version (on AIX: level of filesetbos.mp) part_max_used ━ mem_cached ━ 21/10/09 mem_shared ━ total available memory in kB amount of free memory in kB os_release ━ mem_free ━ type of machine (e.g., POWER5) mem_total ━ total number of processes swap_free ━ free swap space in kB ━ AIX: paging space free swap_total ━ total available swap space in kB ━ AIX: paging space 18 métriques spécifiques Power (AIX et Linux) kernel64bit capped lpar cpu_entitlement lpar_name cpu_in_lpar lpar_num cpu_in_machine oslevel cpu_in_pool serial_num cpu_pool_idle smt cpu_used splpar disk_read weight disk_write 21/10/09 Prérequis recommandés Hostnames ━ ━ Un nouveau hostname est une nouvelle machine Utiliser DNS pour résoudre les adresses IP Adresses IP stables Date et heure fiables à l’échelle du cluster : NTP Ces prérequis sont habituels pour des machines de production… 21/10/09 “Démo” Ganglia file:///media/CRUZER%2016GB/Projets/Journ%C3%A9es %20Techniques/2009-10-21%20TJ/Ganglia%20%20Host %20Report.htm 21/10/09 Critiques Ce n’est pas un outil officiel IBM Pas de support officiel d’IBM 21/10/09 Uniquement un outil de monitoring, ne déclenche pas d’actions Avantages Utilisation ━ ━ Configuration ━ ━ ━ ━ Une vision globale (cluster/grid) et détaillée (node) Un accès facile par interface web, une navigation aisée Facile à installer, sans risque et gratuit Disponible pour de nombreuses plateformes donc global Adapté aux serveurs Power Très paramétrable, de nombreux exemples d’utilisation très divers Extensibilité ━ ━ ━ Données stockées extractibles vers un outil d’accounting Facilement extensible à de nouveaux métriques exemple pour le temps de réponse d'une base de données : cron de gmetric --name tpm --value `/usr/local/bin/transactions` --type double 21/10/09 Références Le Wiki IBM sur Ganglia : http://www-941.ibm.com/collaboration/wiki/display/WikiPtype/ganglia Le wiki IBM Ganglia sur Linux on Power : http://www-941.ibm.com/collaboration/wiki/display/WikiPtype/ganglia La page de Michael Perzl : http://perzl.org/ganglia/ La liste de distribution de Ganglia : http://www.mail-archive.com/[email protected]/ La documentation officielle de Ganglia : http://ganglia.wiki.sourceforge.net/ganglia_documents Un « quickstart » : http://wiki.freaks-unidos.net/ganglia-quickstart Un exemple : la grille Wikipedia : http://ganglia.wikimedia.org/ 21/10/09 IBM Systems Director 21/10/09 Managing physical & virtual – end to end IBM Tivoli (and selected other enterprise management tools) IBM ® Systems Director Physical and virtual platforms Server, Storage, Networking Foundation Deployment Health Virtualization Optimization Configuration Maintain Advanced Monitoring Replication Platform-specific capabilities Managed Extension Groups Operating systems Virtualization environments software Hardware System x, i, z, p System Storage Other 3rd Party, Custom IBM Systems Director simplifie l'administration Découvre les serveurs et les ressources virtuelles Surveille la santé des systèmes Informe des défaillances et prend des actions Déploie, optimise et met à jour les serveurs S'intègre avec les services de gestion de l'entreprise 21/10/09 50 Architecture Systems Director IBM Systems Director Agents 21/10/09 IBM Systems Director Server Application Logic + Database Management Console(s) Web Interface 51 Découverte des relations entre ressources virtuelles et physiques Automated discovery Discovers hardware and virtual resources via the Hardware Management Console LPAR LPAR LPAR LPAR LPAR LPAR LPAR VIO Discovers physical and shared I/O VIO Statut d'un coup d'oeil Résumé de l'état de santé personnalisable ━ Systèmes favoris ━ Indicateurs critiques ━ Groupes de systèmes Surveillance Surveillances des ressources avec ou sans agents (AIX®, i, VIOS, LPARs, etc) ━ Seuils ━ Évènements Plans d'automatisation ━ Notifications ━ Exécution de commandes ━ Déclenchement de tâches ━ 21/10/09 53 La vue topologie facilite la résolution d'incidents Topologie des ressources ━ Relations ━ Dépendances ━ Physiques et virtuelles Tâches contextuelles ━ Lancement de tâches ━ Création de serveurs virtuels ━ Relocalisation de serveurs virtuels ━ Gestion de l'OS État de santé des ressources Exploration des ressources ━ Propriétés détaillées ━ Logs des évènements ━ Résolution d'incidents 21/10/09 54 Récapitulatif de la santé Etat de santé Tableau de bord personnalisable Ressources avec incidents 21/10/09 Graphique de performances 21/10/09 Personnalisation de la page d'accueil 21/10/09 Détail des incidents Serveur éteint 21/10/09 Journal des évènements L'agent sur la ressource signale un événement Le serveur Director signale qu'un agent a un problème 21/10/09 Contrôleurs (Monitors) Compteurs sur une ressource succeptible d'être : ━ Observé en temps réel ━ Enregistré pour historisation ━ Soumis à un seuil, pour déclencher une alerte ou une action automatisée 21/10/09 Dépendant du type de la ressource et de l'OS (de l'agent) Peuvent être regroupés en vues Cibler les contrôleurs Définir les contrôleurs sur les systèmes à observer Les groupes de contrôleurs facilitent l'affectation Ne pas confondre avec les évènements (arrêt serveur par exemple), toujours observés Pour le moment, pas de mise en graphiques mais export : ━ CSV ━ HTML ━ TXT ━ XML 21/10/09 "Machine Name = ws2k3isdv02.hatteras.lab","","" "Attribute Path = [[Director Agent][CPU Monitors][CPU Utilization]]","","" "Description = ISD CPU Utilization","","" "Start Time = November 4, 2008 at 9:45:53 AM","","" "Stop Time = November 4, 2008 at 10:26:24 AM","","" "Sampling Rate = 5000 msecs","","" "","","" "Date","Time","Data" "November 4, 2008","9:45:57 AM","11.801242236024844" "November 4, 2008","9:46:02 AM","13.437500000000002" "November 4, 2008","9:46:07 AM","13.437500000000002" "November 4, 2008","9:46:12 AM","15.552099533437014" Seuil d'un contrôleur Lorsqu'un contrôleur atteint une valeur ━ trop haute ━ trop basse ━ dans un état particulier Valeur numérique (90%) ou textuelle (STOPPED, PAUSED) Valeur d'alerte & de seuil critique, durée minimum Géré par l'agent, peut déclencher un événement et donc une action sur le serveur Systems Director Wizard pour la création d'un seuil 21/10/09 Création d'un événement CPU 21/10/09 Plan d'automatisation Evènement système Contrôleur Seuil Problème matériel Alerte 21/10/09 Action Serveur Systems Director Etc. Agent Évènement Tâche Director Evènements, filtres, actions Les sources d'évènements sont multiples ━ Information venant du matériel (défaillance, etc.) ━ Information venant du système d'exploitation (CPU, espace disque, etc) ━ Information venant de l'agent Director (contrôleur, mises à jour en cours, etc) ━ Information venant du serveur Director (arrêt d'une ressource) ━ SNMP, CIM (Common Information Model), RSA System x ━ Nombreux événements préconfigurés Plan d'automatisation ━ Choix des ressources cibles ━ Choix de l'évènement par filtre (prédéfini ou personnalisé) ━ Choix de l'action (prédéfinie ou personnalisée) : email, Tivoli Console, exec,... 21/10/09 Choix des systèmes sujets au plan 21/10/09 Filtre d'évènement 21/10/09 21/10/09 Action personnalisée – envoi d'un courriel 21/10/09 Action personnalisée – envoi d'un courriel 21/10/09 Systems Director surveille efficacement l'infrastructure Solution gratuite S'interface avec tout le matériel IBM S'interface également avec du matériel tiers Support des futures évolutions du management d'infrastructure IBM Interface conviviale et puissante 21/10/09 21/10/09 Nagios Système de surveillance open-source à large spectre ━ Applications ━ Services ━ Systèmes d'exploitation ━ Réseau ━ Performances ━ Hautement scalable Capable de prendre des actions correctives Extensible pour répondre aux besoins spécifiques Environ 250 000 utilisateurs dans le monde Communauté active 73 Architecture Scheduler – serveur Nagios ━ Gère l'ordonnancement des vérifications ━ Exécute les actions à prendre suite aux incidents (alerte, escalade, action corrective) Interface web ━ Vue de l'infrastructure supervisée par Nagios ━ Production de rapport Addons ━ Extensions des fonctionnalités du serveur Nagios Plugins (greffons, sondes) ━ Scripts ou programmes qui effectuent les vérifications ━ Retourne un code 0, 1 ou 2 → état remonté à Nagios ━ En local sur la machine supervisée ou sur le serveur (test de protocole réseau ou exécution via ssh) 74 Vue des groupes de serveurs Une des nombreuses vue de la console Nagios 75 Détail des services par host 76 Addons Nagios NRPE ━ exécute des plugins sur des machines Unix distantes par SSL ━ Plus léger pour le serveur Nagios NCSA ━ Modifie le mode de vérification de Nagios d'actif à passif ━ L'agent distant envoie son état au démon Nagios ━ Utilisé dans les configurations distribuées, redondantes, ou pour des services par nature irréguliers 77 Ajouter des plugins 78 Installation Nagios Sur Ubuntu x86, quelques minutes pour compiler et installer Sous AIX ━ Projet Open source : recompilation des sources ━ En cours de compilation par M. Perzl : http://www.perzl.org/aix/ 79 Historisation des performances Ce n'est pas l'objectif d'origine de Nagios Des addons développés en Open Source ━ Basés sur RRDTool ━ NagiosGrapher ━ Cacti 80 Architecture de Cacti Frontend écrit en PHP pour RRDTool Utilise MySQL pour stocker les informations administratives Séquences ━ Récupération des données par SNMP – Origine monitoring réseau ━ Stockage des données dans RRDTool ━ Création des graphiques RRDTool et presentation HTML par PHP A tester... 81 Solution de gestion des performances du datacenter 82 Architecture produit Agents sur les machines ━ Différents types Données stockées par les agents Console client lourd Windows Requêtes TCP/IP vers management server, qui interroge les agents < 1% CPU utilisé 83 Les agents SP Analyst Code binaire natif – Pas de scripts 250-300 métriques selon la plateforme Echantillonnage toutes les 5s Combinaisons de métriques en temps réel Production d’évènements en temps réel Moins de 1% CPU Historique +/- 20Mo par mois en local par agent Historique long terme local (minute, jour, semaine, mois, année) → pas de problème de volumétrie centralisée Gestion de workloads : utilisateur, application, WPAR 84 SP Analyst - Fonctionnalités solution de monitoring et diagnostic de performances des systèmes et applications ━ Surveillance des ressources et des applications en temps réel et sur le long terme ━ Agents diversifiés : Système, Base de données, Exchange, SNMP, simulation d'utilisateur, etc. ━ Détection des incidents de production et analyse du contexte d’occurrence ━ Analyse de tendance, détermination des profils de journée type, semaine type ━ Validation des scénarios de consolidation 85 Sysload pour Power6 Sysload offre une métrologie dédiée aux environnements Power6 ━ ━ ━ AIX Linux i Support du SMT (purr, spurr) Support des LPAR (Server virtualization) Support des WPAR (OS virtualization) Partition dédiée / Micro-partition Physical server Physical server Agent ━ ━ Agent tourne dans le serveur Architecture classique "1 serveur, 1 agent" ━ ━ ━ ━ VIOS LPAR LPAR Agent Agent Agent Vision à l'intérieur d'un LPAR Agent dédié à l'OS du LPAR Architecture de monitoring homogène avec les serveurs dédiés et les autres OS. Métriques ‘LPAR’ (ent, entc, physc …) Vision serveur physique SP Analyst console Physical server LPAR AIX Agent for AIX LPAR Linux Agent for Linux LPAR OS/400 Agent for i Consolidation des informations des agents au niveau de la console SP Analyst 89 Contexte d'une alerte Graphique interractif 90 Tendances long terme 91 Journée typique Moyenne du mois heure par heure 92 Bilan de santé d'un groupe 93 Etude de Consolidation Groupe d'agents 94 SP Portal : tableaux de bord Client léger web publication automatique Synthétise l'état de santé de l'infrastructure 95 IBM Tivoli Monitoring 96 IBM Tivoli Monitoring : Architecture générale Excellente scalabilité Plusieurs serveurs ITM peuvent être rassemblés dans un seul OS Une seule DB peut être utilisée 97 Fonctionnalités d'ITM Surveillance transversale des ressources Interface personnalisable et dynamique Automatisation d'actions Historisation des mesures 21/10/09 98 ITM AIX/ Power Architecture: Internals TEP Client Console Server TEPS ITM Server Console Database Management Server TEMS Warehouse Topology Availability Performance VIOS Availability Health Performance HMC OS HMC/IVM HMC Agent CEC Agent CEC LPARs AIX AIX VIOS Premium or Base Agent VIOs AIX Availability Health Performance AIX Base Agent AIX AIX Premium Agent AIX AIX Premium Agent WPAR AIX TEP Workspaces Navigation ● Enterprise UNIX Systems – – – – Supplemental Workspaces Performance Object Status Resources – Summary Graph System Inventory <hostname> AIX Premium – Top Resource Views – System – Memory – Process – Storage – Networking – User – WPAR – Status VIOS Premium – Virtual IO Mappings – Security – Top Resources – System – Memory – Process – Storage – Networking – User – Status HMC Base – System – Managed Systems CEC Base – CEC Resources – CEC Utilization Resource Summary Performance Object Status System Inventory File System Logical Volume Details Physical Volume Details System Storage Information Volume Groups and Logical Volume MPIO Storage Information WPAR Summary CPU Information CPU Utilization LPAR Information * NIM Resources Print Queue Workload Manager Network Adapter Utilization Network Interfaces * Network Protocol Views Device Status Storage Mappings * Network Mappings NPIV Mappings Performance Object Status Resources – Summary Graph System Inventory File System Logical Volume Details Physical Volume Details * System Storage Information Volume Groups and Logical Volume MPIO Storage Information Device Status Network Adapter Details Network Adapter Utilization Network Interfaces * Network Protocol Views Shared Ethernet Shared Ethernet Adapter High Availability Details Shared Ethernet Bridging Details Performance Object Status HMC Summary Managed Systems List CEC View Monitored Partitions * CEC Utilization * LPAR Utilization* LPAR Summary Agent AIX Premium – Top Ressources 21/10/09 101 Agent AIX Premium – System view 21/10/09 102 VIOS Agent – Disk mapping 21/10/09 103 VIOS Agent : NPIV 21/10/09 104 CEC Agent : Frame utilization 21/10/09 105 Questions ? Merci de votre attention ! 106