Veille technologique sur la supervision

Transcription

Veille technologique sur la supervision
Supervision / Architecture Réseau I.
Supervision Qu’est-­‐ce que la supervision et la métrologie ? Pour commencer il ne faut bien distinguer les différents termes.
Il y a la supervision qui s’attache aux alertes donc en cas de problèmes, la métrologie qui se
rapporte avantage aux mesures à prendre et enfin le monitoring qui lui englobe les deux
concepts.
Donc le monitoring ou monitorage permet de surveiller et de mesurer en permanence l’état du
système d’information (SI). On parle aussi de supervision. Les objectifs sont simple, détecter les
anomalies et alerter en conséquence, prévoir mais aussi anticiper tout problèmes.
Il y a plusieurs raisons pour mettre en place un service de monitoring :
•
Effectuer des mesures pour mettre en relief des évolutions du SI (mesure de performance,
de disponibilité, et d’intégrité).
•
Analyser le déroulement d’un incident.
•
Produire des rapports d’détaillés.
Les enjeux de la mise en place du Monitoring o Etre capable de réagir rapidement lors d’une anomalie.
o
Etre alerter avant les utilisateurs des systèmes
Plusieurs mécanismes peuvent être mise en œuvre comme alerte email, SMS ou alertes
visuelles.
Réglage des seuils de criticité est primordial pour ne pas être submergé d’alertes.
Les différents niveaux de seuils d’alertes et les graphiques d’historiques de données aident à
détecter la saturation prochaine d’un espace de stockage, le sous-dimensionnement d’un
serveur en puissance de calcul, etc.
Connaître le niveau de fonctionnement réel du SI et pouvoir le justifier.
o
On peut surveiller :
o
o
o
o
•
•
•
•
•
C'est le dispositif qui va repérer et résoudre les problèmes d'un disque dur la nature
des protocoles d'un réseau et leur taux relatif : UDP, TCP, ICMP, idem pour la couche
4…
les attaques connues sur un pare-feu par exemple
les réponses protocolaires (simulation partielle d'une session)
les modifications, suivant le but de la surveillance et dans certain cas, sont
souhaitables ou au contraire signalent une anomalie.
la qualité du travail lors de montage audio/vidéo sur des périphériques professionnel
Ne pas supervisé le SI peut entrainer • un piratage sans le savoir
• les serveurs peuvent être fatigués
• les performances peuvent tomber
• Les utilisateurs préviennent en cas de panne – je perds toute crédibilité
• Ma Direction se lasse : « l’informatique est toujours en panne » …
Supervision centralisé ou décentralisé ? Centralisé : Ce type d’architecture répond bien à une supervision de taille humaine … (PME)
Tout est sur la même machine / les sauvegardes sont uniques / en cas de crash : plus rien n’est
surveillé.
Avantage :
Inconvenant :
•
•
Le coût (1 seule machine)
La gestion des agents, puisqu’ils sont sur le serveur
•
•
Le CPU de la console ne sert plus qu’à ça.
Lors d’une panne / nous sommes aveugles
•
Les bases de données sont immenses car elles enregistrent, bien souvent,
tous les événements
Décentralisé : Ce type d’architecture répond bien à une supervision de grande dimension (plusieurs
centaines d’agents).
Seules les informations traitées sont stockées en base de données. Les infos données aux
agents de surveillance ne sont pas stockées.
Avantage :
• Le CPU est épargné sur la console
• Chaque Agent est autonome
• Les agents ne consomment presque rien sur les stations « clientes »
Inconvenant :
• Lorsque qu’une station où se trouve un agent plante, nous devenons
aveugles sur ce qu’elle surveillait.
• Nous ne pouvons pas voir le détail des trames de surveillance.
Chaque architecture a ses avantages et inconvenant, Le choix ce fait sur la taille de votre
Réseau. Tous les logiciels ne permettent pas le choix d’architecture …C’est pourquoi il faut
choisir le logiciel de surveillance en rapport avec la taille du Réseau.
Dans tous les cas : Attention aux défauts cachés !
- Les mails d’alerte ne partent QUE si le serveur de messagerie fonctionne (et
internet)
- Les SMS d’alerte ne partent QUE si Internet fonctionne
- Les alertes écrans ne sont utiles que si vous êtes devant l’écran (pas de RTT).
Logiciels de supervision les plus utilisées •
System Center Operations Manager (outil de Microsoft) payant
•
•
•
•
II.
Zabbix : solution gratuite, un "tout en un" et il est bien foutu
Nagio : solution gratuite mais beaucoup de bricolage pour toute sorte de fonctionnalité,
ses dérivés et ses clones (Centreon, shinken, icenga, …) compatible qu’avec linux
Cacti : solution gratuite orienté graphes, l’alerting c’est un bricolage autour. Lui aussi
compatible qu’avec linux
PRPG network Monitor : payant et adapter qu’a du CISCO, MICROSOFT et VMWARE.
Architecture réseau du CHU •
Le réseau hiérarchique
•
Le réseau en bus
•
Le réseau en étoile
•
Le réseau linéaire
•
Le réseau maillé
•
Cisco campus
http://bibabox.fr/topologie-reseau-le-modele-hierarchique-en-3-couches/
Choix de SCOM (System Center Operations Manager)
Operations Manager, un composant de Microsoft System Center 2012, est un
logiciel qui vous aide à analyser des services, des périphériques et des
opérations pour de nombreux ordinateurs à partir d'une seule console
Il permet savoir quand il y a un problème, d'identifier l'emplacement du
problème et de déterminer la cause du problème et les solutions possibles,
idéalement avant que les utilisateurs des applications soient confrontés
aux problèmes. Plus le nombre d'ordinateurs et de périphériques est
important dans l'entreprise, plus cette tâche deviens difficile.
L'utilisation d'Operations Manager dans l'environnement facilite l'analyse
de plusieurs ordinateurs, périphériques, services et applications. La
console Opérateur, présentée sur l'image suivante, vous permet de vérifier
l'intégrité, les performances et la disponibilité de tous les objets
analysés dans l'environnement et vous aide à identifier et résoudre les
problèmes.
L'installation de Operations Manager crée un groupe d'administration. Le
groupe d'administration est l'unité de base de la fonctionnalité. Au
minimum, un groupe d'administration se compose d'un serveur
d'administration, de la base de données opérationnelle et de la base de
données de l'entrepôt de données de rapports.
- Le serveur d’administration permet d’administrer le groupe
d’administration et de communiquer avec les agents ainsi
qu’avec les bases de données.
- La base de données opérationnelle est une base de données SQL
server qui contient toutes les données de configuration et
d’analyse mais il stock aussi toutes les données de d'analyse
collectées et traitées qui sont stocker par défaut 7 jours.
- La base de données de l’entrepôt de données est une base de
données SQL Server qui stocke les données d'analyse et d'alerte
à des fins historiques.
Un groupe d’administration peut contenir plusieurs serveurs
d’administration pour fournir d’autres capacités et une disponibilité
permanente, deux serveurs ou plus forment un Pool de ressources qui permet
de répartir le travail entre ses membres. En cas de défaillance d’un des
membres du pool s’occupe de sa charge de travail, en cas d’ajout d’un
nouveau membre il intègre automatiquement une partie du travail.
Lorsque la fonctionnalité de création de rapport Operations Manager est
installée, le groupe d'administration contient également un Serveur de
rapports qui élabore et présente des rapports à partir des données figurant
dans la base de données de l'entrepôt de données. Ces composants peuvent
exister sur un serveur unique, ou ils peuvent être distribués sur plusieurs
serveurs
Les agents Un agent Operations Manager est un service installé sur un ordinateur, il
collecte les données, compare les données échantillonnées aux valeurs
prédéfinies, crée des alertes et exécute des réponses. Ils dépendent et
reçoivent des configurations du serveur d’administration qui est appelé
serveur d'administration principal de l'agent.
Les agents observent, collectent et analyse des informations sur les
sources de données sur l'ordinateur analysé selon leurs configurations.
Lorsque l'état d'intégrité d'un objet analysé change ou que d'autres
critères sont remplis, l'agent peut générer une alerte et ainsi fournir une
image à jour concernant l’intégrité du périphérique et de toutes les
applications qu’il héberge.
Les agents peuvent aussi agir comme un proxy qui permet de transférer des
données à un serveur d’administration pour le compte d’un ordinateur ou
d’un périphérique réseau autre que son ordinateur hôte, par exemple si
l’agent proxy est installé sur le nœud physique d’un cluster SQL il peut
analyser les ressources du cluster et donc avoir accès à l’analyse
d’ordinateur et de périphérique sur lesquels l’agent n’est pas installé
(Important, un ordinateur géré sans agent demande des besoins en ressources
plus important que ceux géré par un agent. La fonctionnalité n’est pas
possible sur un ordinateur géré sans agent communique via un pare-feu).
Les services Sur les ordinateurs analysés, l’agent Opérations Manager est répertorié
comme un service d’intégrité d’administration. Il collecte des données de
performances, exécute les tâches, etc. Même si le service ne communique pas
avec le serveur d’administration dont il dépend, il continuera d’être
exécuter et mettra les données en file d’attente en local sur l’ordinateur
et les revoit automatiquement lors du rétablissement de connexion.
Sur les serveurs d’administration le service d’intégrité exécute les flux
de travaux d’analyse et gère les informations d’identification grâce à des
processus MonitoringHost.exe spécifié (qui peuvent consommer toutes les
ressources du processeur lors de la création d’une trop grande quantité de
données de performance, problème prit en charge par Microsoft et des
correctif à mettre en place sur chaque poste existe). Ces processus
analysent et collectent les données du journal d’événement, les données de
l’infrastructure de gestion Windows et exécutent des actions telles que des
scripts.
Le service d’accès aux données System Center fournit un accès pour la
console Opérateur à la base de données opérationnelle et envoi des données
dans la base de données.
Le service de configuration d'administration System Center gère les
relations et la topologie du groupe d'administration. Il distribue
également des packs d'administration aux objets analysés.
Packs d'administration Les flux de travaux exécutés par le service d'administration System Center
sont définis par des packs d'administration, ils définissent les
informations que l’agent collecte et renvoie au serveur d’administration
pour une application ou une technologie spécifique (par exemple le pack
d'administration de BizTalk Server contient des règles et des analyses qui
collectent et évaluent les événements et opérations qui sont importants
pour garantir l'intégrité et l'efficacité de l'application BizTalk Server).
Lors de l’installation d’un Agent sur un poste par Operations Manager, il
envoie une configuration initiale à l’agent. Cette configuration inclut des
détections d’objet à partir du pack d’administration
Procédure de détection et d'analyse des objets L'image suivante est une illustration simplifiée de la façon dont les
objets sont détectés et analysés.
1. L'administrateur configure Operations Manager pour qu'il recherche
des ordinateurs à gérer. Pour plus d'informations sur la détection
d'ordinateurs.
2. Les ordinateurs qui satisfont aux critères spécifiés et ne sont pas
encore gérés sont identifiés.
3. Un agent Operations Manager est installé sur l'ordinateur détecté.
4. L'agent demande des données de configuration, le serveur
d'administration lui envoie les données depuis des packs
d'administration installés incluant.
5. L'agent identifie et renvoie les informations au serveur
d'administration. Par exemple, l'agent indiquera au serveur
d'administration qu'une instance du système d'exploitation Windows
Server 2008 R2 se trouve sur l'ordinateur.
6. Le serveur d'administration envoie à l'agent toute la logique
d'analyse de packs d'administration installés qui s'applique aux
objets détectés. Par exemple, l'agent recevra toute la logique
d'analyse qui s'applique à Windows Server 2008 R2.
7. L'agent applique la logique d'analyse, telle que les règles et les
analyses, exécute les flux de travaux et renvoie les données au
serveur d'administration.
8. Tandis que des modifications se produisent sur les objets détectés,
comme par exemple l'ajout ou la désinstallation d'applications,
l'agent envoie les informations mises à jour au serveur
d'administration, qui envoie ensuite la logique d'analyse mise à
jour.
Operations Manager peut également détecter et analyser les périphériques
réseau, les ordinateurs exécutant des systèmes d'exploitation UNIX et Linux
et fournir une analyse sans agent.
Communication entre les agents et les serveurs d'administration L'agent Operations Manager envoie des données d'alerte et de découverte au
serveur d'administration principal en fonction des paramètres de
planification pour chaque règle et analyse, qui envoi les données dans la
base de données opérationnelle. L'agent envoie également des événements,
des performances et des données d'état au serveur d'administration
principal pour cet agent, qui envoi les données dans les bases de données
opérationnelle et de l'entrepôt de données simultanément.
En outre, tous les agents envoient un paquet de données, appelé
une pulsation, au serveur d'administration à intervalles réguliers, par
défaut toutes les 60 secondes. L'objectif de la pulsation est de valider la
disponibilité de l'agent et la communication entre l'agent et le serveur
d'administration
Pour chaque agent, Operations Manager exécute un observateur du service
d'intégrité, qui analyse l'état du service d'intégrité à distance du point
de vue du serveur d'administration.
Problèmes possible à rencontrer •
•
•
Les processus MonitoringHost.exe spécifié peuvent consommer toutes
les ressources du processeur lors de la création d’une trop grande
quantité de données de performance, problème prit en charge par
Microsoft et des correctif à mettre en place sur chaque poste existe
Les modèles sont manquants lors de la création d’un nouveau Dashboard
à partir de l’assistant Dashboard and Widget. Ils apparaissent la
première fois mais disparaissent si vous annulez et retentez.
La console s’arrête temporairement ou se fige lorsque vous voulez
afficher des données de performance en changeant l’intervalle de
temps. La console se met à consommer de 1 à 2 GB de RAM avant de
redonner la main.
 Des tuto nagios : http://blog.nicolargo.com/nagios-tutoriels-et-documentations
 Instalation SCOM : http://www.malcher.fr/installation-scom-2012-sql/
 Installation SCOM et tout : http://prajwaldesai.com/installing-scom-2012-sp1/#
Prise en charge de serveurs Linux/Unix (amélioration de l’existant SCOM 2007 R2)