COMMUNICATION TECHNIQUE OmniPCX 4400/Enterprise - PABX-fr
Transcription
COMMUNICATION TECHNIQUE OmniPCX 4400/Enterprise - PABX-fr
COMMUNICATION TECHNIQUE N° TC0296 Ed. 02 OmniPCX 4400/Enterprise Nb de pages : 11 Date : 26-11-2003 URGENTE NON URGENTE TEMPORAIRE DEFINITIVE OBJET : RELEVÉ D'INFORMATIONS EN CAS DE PROBLÈMES CPU Cette communication technique fournit des trucs et astuces concernant des problèmes CPU tels que redémarrage, arrêt de l'application téléphone ou impossibilité de se connecter au système. 1 OmniPCX 4400/Enterprise RELEVÉ D'INFORMATIONS EN CAS DE PROBLÈMES CPU SOMMAIRE 1. INTRODUCTION ..........................................................................3 2. TRUCS ET ASTUCES SUR LES PROBLÈMES CPU .............................3 2.1. Qui a initialisé le redémarrage du système ?............................................ 3 2.1.1. Redémarrage automatique ...............................................................................3 2.2. Le téléphone s'arrête ................................................................................ 4 2.3. Une CPU redémarre continuellement ....................................................... 4 2.3.1. Problème avec la configuration IO2..................................................................4 2.3.2. Problème avec la carte IO2...............................................................................4 2.3.3. Reboot CPU lié à l'IO2 ......................................................................................4 2.3.4. Problème avec des fichiers OPS ........................................................................5 2.4. Corruption de la base de données............................................................ 5 2.5. Contrôle de l'installation de la version logicielle ....................................... 6 2.6. Contrôle des ports V24 ............................................................................. 6 2.7. Capture d'informations systèmes .............................................................. 6 3. INVESTIGATIONS MATÉRIELLES ...................................................7 4. INFORMATIONS À RELEVER POUR OUVRIR UNE DEMANDE DE SERVICE.......................................................................................7 4.1. Description du problème .......................................................................... 7 4.2. Description des investigations................................................................... 7 4.3. Fichiers log des incidents .......................................................................... 8 4.4. Fichiers log des exceptions téléphone ....................................................... 8 4.5. Fichiers log des black boxes...................................................................... 8 4.6. Fichiers log du téléphone.......................................................................... 8 4.7. Fichiers log de Chorus .............................................................................. 9 4.8. Fichiers log de Linux ................................................................................. 9 Ed. 02 / 26-11-2003 1 TC0296 OmniPCX 4400/Enterprise RELEVÉ D'INFORMATIONS EN CAS DE PROBLÈMES CPU 4.9. Fichiers log du système............................................................................. 9 4.10. Liste des cartes de l'installation ............................................................... 10 4.11. Configuration du système ....................................................................... 10 4.12. Type de CPU ........................................................................................... 10 4.13. Références de la CPU.............................................................................. 10 4.14. Détection d'une corruption mémoire....................................................... 10 TC0296 2 Ed. 02 / 26-11-2003 OmniPCX 4400/Enterprise RELEVÉ D'INFORMATIONS EN CAS DE PROBLÈMES CPU 1. INTRODUCTION Cette communication technique fournit des trucs et astuces concernant des problèmes CPU tels que redémarrage, arrêt de l'application téléphone ou impossibilité de se connecter au système. Si aucune solution n'est trouvée, un contrôle du matériel devra être effectué. Si la solution n'est toujours pas trouvée, une demande de service (Service Request) de type "Fiche d'observation" (Observation Sheet) devra être ouverte par le Business Partner. La Fiche d'observation devra contenir des informations dont la liste est donnée à la fin de ce document. De nombreux fichiers log sont stockés sur le système. Chaque reset du système remplacera les anciens fichiers log par des nouveaux. Les fichiers log concernant un problème particulier devront être sauvegardés le plus rapidement possible avant que les informations ne soient perdues. 2. TRUCS ET ASTUCES SUR LES PROBLÈMES CPU 2.1. Qui a initialisé le redémarrage du système ? 2.1.1. Redémarrage automatique Éditer les fichiers texte : • /DHS3dyn/incid/incpbm.1, • /DHS3dyn/incid/incpbm.2 • /DHS3dyn/incid/incpbm.3. La ligne qui contient mailsys asks shutdown signifie que le logiciel a lancé un redémarrage luimême. Il n'y a pas eu d'action manuelle pour lancer le shutdown. 0005 Fri Jan 25 15:42:30 2002 mailsys asks 'echo `ps|wc -l` processes running&' 0006 Fri Jan 25 15:42:30 2002 mailsys asks 'shutdown &' at 25/01/02 15:42:30 ; S 0007 Fri Jan 25 15:42:31 2002 mailsys asks 'echo `ps|wc -l` processes running&' Dans ce cas, la liste des incidents contiendra un incident de gravité 0 qui confirmera le redémarrage. Le redémarrage a été lancé, suite à des problèmes détectés sur le système. La cause des dysfonctionnements peut aussi être indiquée dans la liste des incidents. Note Lors de l'analyse des incidents système, vérifier qu'il n'y a pas de filtre et que tous les incidents sont affichés. Des incidents de gravité inférieure peuvent indiquer la cause du redémarrage. Ed. 02 / 26-11-2003 3 TC0296 OmniPCX 4400/Enterprise RELEVÉ D'INFORMATIONS EN CAS DE PROBLÈMES CPU 2.2. Le téléphone s'arrête Le téléphone s'est arrêté. Il n'y a pas d'accès V24 ou IP. L'écran du port console est vide. Essayer de générer un crashdump manuellement. Le crashdump est une copie de la mémoire du système. Le fichier du crashdump doit être fourni avec la fiche d'observation. La capture de texte doit être jointe à la fiche d'observation et au fichier crashdump ; se reporter à la communication technique TC0500 – Utilisation simplifiée du kernel debugger sous Chorus et Linux pour la façon de générer un crashdump et d'extraire le fichier crashdump. 2.3. Une CPU redémarre continuellement 2.3.1. Problème avec la configuration IO2 Si des cartes IO2/IO2N sont présentes, vérifier que la gestion de ces cartes est correcte et identique sur les CPU Main et Stand-By. Après le redémarrage de la CPU, arrêter le lancement du téléphone. À partir de la version C1.712, les commandes ci-dessous permettent de consulter et de modifier la gestion des cartes IO2 même si le téléphone est arrêté : login : mtcl a4400> RUNMAO a4400> mgr 2.3.2. Problème avec la carte IO2 Quand la carte IO2 est présente et gérée, elle joue le rôle de commutation. Elle remplace l’IO1 embarquée dans la CPU. Lorsque des redémarrages sont inexpliqués, il peut être intéressant, pour test, de la remplacer par une carte IO2N si c’est possible ; comme le logiciel est différent, la réaction du système sera aussi différente et pourra fournir des informations sur le défaut initial. Joindre le résultat de ce test dans la fiche d'observation. Note L’IO2N n’est prise en compte qu’à partir de certaines versions logicielles ; se reporter à la communication technique TC0192 - Procédure de mise en service des cartes IO2N. Quand une carte IO2 ou IO2N est installée avec une CPU, le même type de carte IO2 doit être installé sur la CPU dupliquée (si présente). 2.3.3. Reboot CPU lié à l'IO2 Certaines configurations avec cartes IO2 et INTOF reliant des noeuds entre eux posent problème. L'IO2 n'est pas assez puissante pour traiter tous les messages. Elle se "resette" et provoque le reboot de la machine. TC0296 4 Ed. 02 / 26-11-2003 OmniPCX 4400/Enterprise RELEVÉ D'INFORMATIONS EN CAS DE PROBLÈMES CPU Les incidents liés à ce défaut sont du type : 1608 : Plus de place pour stocker les messages 1621 : Driver IO2 : plus de mémoire pour émettre 1722 : Tache abortée 2998 : Commutateur de paquets aborté 3139 : IO2 Problème chemin de sig Faire un appel Hot Line pour investigation. 2.3.4. Problème avec des fichiers OPS Normalement, les mêmes fichiers OPS sont installés sur les deux CPU. Si ce n'est pas le cas et si le champ PARA_MAO 1 du fichier hardware.mao est différent, il peut se produire un redémarrage permanent de la CPU avec les incidents 2076 ou 2070: 2076 = Région du TEL ou des rémanents différentes sur CPU principale et secours ou pour les Releases 1.4/2.x : 2070 = Mode de swap différents sur CPU principale et secours Ce cas peut se produire lors de l'installation de nouveaux fichiers OPS sur la CPU Stand By, s'il y a une modification de la taille des données rémanentes. Dans ce cas, le téléphone doit être complètement arrêté pour installer les nouveaux fichiers OPS sur les deux CPU. 2.4. Corruption de la base de données Dans le cas d'une corruption de la base de données, des incidents peuvent être stockés dans le fichier incidents. Vous pouvez utiliser les commandes suivantes pour vérifier la base de données : a4400> cd /DHS3data/mao a4400> checkinitrem Si une corruption de la base de données est suspectée, vous devez restaurer une sauvegarde de la base de données. Dans les versions récentes, une sauvegarde automatique de la base de données est effectuée tous les jours sur le disque dur. Pour restaurer une sauvegarde de la base de données, utiliser les commandes ci-dessous : login : swinst Option 4 : Select Save & Restore operations Option 4 : Select Restore operations Option 2 : Select Restore from cpu disk Choisir un fichier de sauvegarde parmi ceux présents sur le disque. Ed. 02 / 26-11-2003 5 TC0296 OmniPCX 4400/Enterprise RELEVÉ D'INFORMATIONS EN CAS DE PROBLÈMES CPU 2.5. Contrôle de l'installation de la version logicielle Le test d'intégrité vérifie que la version logicielle a été correctement installée sur la CPU. Pour cela, taper les commandes suivantes : login : swinst Option 8 : Software identity display Option 6 : Application software validity checking Sélectionner la partition à contrôler. Contrôler le résultat du test d'intégrité. Si problème il y a (affichage d'un message de type "Checksum incorrect"), le logiciel devra être rechargé. 2.6. Contrôle des ports V24 En cas de présence de CPU3 : − si un modem ou TA est connecté à un port V24 avec un login, il ne doit pas être géré comme suit : • des codes Hayes de réponse aux commandes et l’écho local pour un modem, • un menu d’accueil sur TA, − vérifier la présence d’une application client qui dialoguerait avec un port V24 de la CPU, − une boucle peut se produire si le port V24 de la CPU est géré avec un login. Le système risque de redémarrer. Astuce Taper la commande ci-dessous pour vérifier l'activité des ports V24 : a4400> sar –y 1 <nb> (ou <nb> = nombre de "scan" sur le port ; exemple : 20 ) Le paramètre 1 signifie un scan toutes les secondes. Cette commande fournit le nombre d'octets émis/reçus sur les ports série. (410)xa004010> sar -y 1 20 Chorus xa004010 MiX V.3.2r4.1.5 r4.1.5 COMP-386 01/25/102 15:25:18 rawch/s canch/s outch/s rcvin/s xmtin/s mdmin/s 15:25:19 0 0 124 0 124 0 15:25:20 0 0 58 0 58 0 15:25:21 0 0 58 0 58 0 15:25:22 0 0 58 0 58 0 … etc. jusqu’à 20 lignes Surveiller le champ outch/s ; il donne le nombre de caractères émis sur tous les ports V24. 2.7. Capture d'informations systèmes En cas de problèmes CPU fréquents et sans aucune explication, démarrer une capture de texte permanente sur le terminal Windows du PC connecté sur le port console. Les messages systèmes ne sont pas stockés et ne sont édités que sur ce port. Cette trace est à joindre à la fiche d'observation. TC0296 6 Ed. 02 / 26-11-2003 OmniPCX 4400/Enterprise RELEVÉ D'INFORMATIONS EN CAS DE PROBLÈMES CPU 3. INVESTIGATIONS MATÉRIELLES Quand les contrôles logiciels ont été effectués et que le problème est toujours existant, il faut procéder à des investigations sur des éléments matériels tels que : − carte CPU : changer la carte CPU par une autre, − alimentation, raccordement de la terre, − défaut sur la carte ET (située au niveau du voyant en bas à gauche des bâtis), − redresseur mal dimensionné, − fond de panier, − environnement extérieur, etc. 4. INFORMATIONS À RELEVER POUR OUVRIR UNE DEMANDE DE SERVICE Chaque fois qu'il y a un problème CPU sur une version non en "Phase out", que le matériel a été vérifié et que vous ne pouvez pas trouver la cause ou fournir une solution, une fiche d'observation doit être élaborée avec toutes les informations décrites ci-dessous. 4.1. Description du problème La fiche d'observation doit comporter une description détaillée du problème et donner des réponses aux questions suivantes : − Le téléphone est-il toujours opérationnel ? − Y a t-il eu un reset manuel ? − Y a t-il eu un reset automatique ? − Le système a t-il résolu le problème lui-même? − Quelqu'un a t-il fait quelque chose manuellement pour redémarrer le système ? − Quel est l'affichage sur les postes UA durant le problème ? Ont-ils la tonalité ? − Pouvez-vous vous connecter durant le problème ? − Est ce une nouvelle installation ? − Si c'est un nouveau problème sur un ancien système, quelles modifications ont été effectuées sur l'installation ? − Quelle est la fréquence du problème ? Quand est ce arrivé (date et heure) ? − La configuration OPS est-elle en conformité avec les besoins fonctionnels du client (trafic, postes fictifs, etc.). 4.2. Description des investigations La fiche d'observation doit indiquer les investigations effectuées sur le site : échange de cartes, remplacement, contrôles, etc. Ces informations éviteront au Support Technique de demander des tests déjà effectués sur site. Ed. 02 / 26-11-2003 7 TC0296 OmniPCX 4400/Enterprise RELEVÉ D'INFORMATIONS EN CAS DE PROBLÈMES CPU 4.3. Fichiers log des incidents Les fichiers log des incidents sont stockés comme suit : <---------"incidents –2"---------><-------"incidents –1"--------><----"incidents actuels" ------------------↓---------------------------------↓-------------------------------↓---------------------•> temps reboot –2 reboot –1 dernier reboot MAINTENANT Joindre les résultats des commandes suivantes à la fiche d'observation : a4400> incvisu a4400> incvisu -1 a4400> incvisu -2 Vérifier que tous les incidents sont affichés et qu'aucun incident n'est filtré. 4.4. Fichiers log des exceptions téléphone Les fichiers log des exceptions sont stockés comme suit : <--------"exceptions –2"--------><-------"exceptions –1"-------><---"exceptions actuelles" ------------------↓---------------------------------↓-------------------------------↓---------------------•> temps reboot –2 reboot –1 dernier reboot MAINTENANT Joindre les résultats des commandes suivantes à la fiche d'observation : a4400> excvisu a4400> excvisu -1 a4400> excvisu -2 4.5. Fichiers log des black boxes Les fichiers log des black boxes sont stockés sous le répertoire /tmpd comme suit : <--------blackbox.3------><--------blackbox.2---------><------blackbox.1---------><-------blackbox… ----↓---------------------------↓------------------------------↓----------------------------↓-------------------•> temps reboot -3 reboot –2 reboot –1 dernier reboot MAINTENANT Joindre les résultats des commandes suivantes à la fiche d'observation : a4400> readbbox a4400> readbbox -1 a4400> readbbox -2 a4400> readbbox -3 4.6. Fichiers log du téléphone Les fichiers log du téléphone sont stockés sous le répertoire /tmpd comme suit : <----DHS3-INIT.log3----><-----DHS3-INIT.log2------><-----DHS3-INIT.olog----><---DHS3-INIT.log… ----↓---------------------------↓------------------------------↓----------------------------↓-------------------•> temps reboot -3 reboot –2 reboot –1 dernier reboot MAINTENANT TC0296 8 Ed. 02 / 26-11-2003 OmniPCX 4400/Enterprise RELEVÉ D'INFORMATIONS EN CAS DE PROBLÈMES CPU Joindre la copie des quatre fichiers texte à la fiche d'observation : • /tmpd/DHS3-INIT.log, • /tmpd/DHS3-INIT.olog, • /tmpd/DHS3-INIT.log2, • /tmpd/DHS3-INIT.log3. 4.7. Fichiers log de Chorus Les fichiers log de Chorus sont stockés sous le répertoire /etc comme suit : -------boot.log3-----><------------boot.log2----------><----------- boot.log1--------><------- boot.log ------------------↓---------------------------------↓-------------------------------↓---------------------•> temps reboot –2 reboot –1 dernier reboot MAINTENANT Joindre les résultats de la commande suivante à la fiche d'observation : a4400> traceboot –v 4.8. Fichiers log de Linux Récupérer les fichiers de type "messages" et "syslog" sous /var/log. login : root commande: cp messages* /tmpd et cp syslog* /tmpd : cd /tmpd : tar zxvf <fichier_final> messages* syslog* Joindre <fichier_final> à la fiche d'observation. Note La commande précédente compresse et crée un seul fichier contenant tous les fichiers messages et syslog. Supprimer ces fichiers dans /tmpd au final. 4.9. Fichiers log du système Les fichiers log du système sont stockés sous le répertoire /DHS3dyn/incid comme suit : ----incpbm.3-----<-----------incpbm.2------------><----------incpbm.1----------><----------incpbm… ------------------↓---------------------------------↓-------------------------------↓---------------------•> temps reboot –2 reboot –1 dernier reboot MAINTENANT Joindre la copie des trois fichiers texte à la fiche d'observation : • /DHS3dyn/incid/incpbm.1, • /DHS3dyn/incid/incpbm.2, • /DHS3dyn/incid/incpbm.3. Ed. 02 / 26-11-2003 9 TC0296 OmniPCX 4400/Enterprise RELEVÉ D'INFORMATIONS EN CAS DE PROBLÈMES CPU 4.10. Liste des cartes de l'installation Pour chaque alvéole de chaque nœud, joindre les résultats de la commande suivante à la fiche d'observation : a4400> config x (x = numéro d'alvéoles) ou config all –v (ne pas oublier les cartes virtuelles) 4.11. Configuration du système Indiquer : − le nombre de nœuds, la configuration réseau, − la configuration CCD, − le nombre d'usagers, − la présence d'applications externes telles que cartes de type "CMP", etc., 4.12. Type de CPU Joindre les résultats de la commande suivante à la fiche d'observation : a4400> uhwconf 4.13. Références de la CPU Indiquer sur la fiche d'observation les références techniques complètes de : − la carte CPU, − la mémoire, − disque dur, − la carte processeur. La carte CPU doit être défichée pour lire les références des différents éléments. 4.14. Détection d'une corruption mémoire Joindre les résultats des commandes suivantes à la fiche d'observation : login : root a4400 > /usr2/oneshot/mtch/memcheck En cas de corruption mémoire, des messages de type “Segment corrupted” seront affichés. TC0296 10 Ed. 02 / 26-11-2003