Presentation Geoplex PRA Air france
Transcription
Presentation Geoplex PRA Air france
Guide CICS du 03 Avril 2008 Mise en œuvre Geoplex dans le cadre d’un PRA Actif/Actif Jerome VIGUIER 1 AGENDA PRESENTATION DE LA CONFIGURATION ACTUELLE OBJECTIFS DE RTO ET RPO POUR AIR FRANCE SOLUTIONS ENVISAGEES SOLUTION CHOISIE GDPS CONFIGURATION CIBLE 2 AGENDA PRESENTATION DE LA CONFIGURATION ACTUELLE OBJECTIFS DE RTO ET RPO POUR AIR FRANCE SOLUTIONS ENVISAGEES SOLUTION CHOISIE GDPS CONFIGURATION CIBLE 3 Applications principales sur Tls Régulation des vols CICS DB2 Pas d’arrêt non planifié supérieur à 1H Fidélisation CICS DB2 4 Applications principales sur Vilgénis Plan de vols Maintenance IMS CICS/Adabas Pas d’arrêt non planifié supérieur à 1H 5 Configuration actuelle Tls Tls1 Tls2 CBU CBU ICB CF1 mqC* mqA* CicsA* CicsC* DB2A* DB2C* PROA PROC CF2 mqD* mqB* CicsB* DB2B* PROB CicsD* DB2D* PROD Activité transactionnelle en équilibrage de charge sur 4 partitions de même pour batch léger Back Up synchrone local pour les disques 6 Configuration actuelle Vilgénis Vlg1 Vlg2 CBU CBU CF1 Production IMS ISC CF2 Production Production CICS Batch Adabas Activité CICS limitée à une partition , Passage d’IMS en DataSharing en cours 7 AGENDA PRESENTATION DE LA CONFIGURATION ACTUELLE OBJECTIFS DE RTO ET RPO POUR AIR FRANCE SOLUTIONS ENVISAGEES SOLUTION CHOISIE GDPS CONFIGURATION CIBLE 8 Objectif de RTO 1 heure pour les applications critiques Le RTO dépendra du type de sinistre Panne disque avec HYPERWSAP = 0 Perte de site ? 9 Objectif de RPO Objectif RPO = 0 De base, la réplication synchrone des données n’est pas une protection totale contre la perte de données Dans le cas de perte partielle de liens, au début d’un « sinistre » impliquant la perte de la baie primaire, on peut avoir des problème de cohérence sur la copie secondaire Certaines données qui résident dans les structures CF ne sont pas répliquées sur DASD (MQ Shared Queues) Elles sont actuellement protégées par SMSD entre les deux Machines 10 AGENDA PRESENTATION DE LA CONFIGURATION ACTUELLE OBJECTIFS DE RTO ET RPO POUR AIR FRANCE SOLUTIONS ENVISAGEES SOLUTION CHOISIE GDPS CONFIGURATION CIBLE 11 Comment minimiser le RTO RTO Garder l’architecture workload en actif/actif sur les 2 Machines en Full DataSharing Protection contre les pannes de Machines, et les interruptions planifiées sur les Systèmes et les Machines HyperSwap Protection contre les pannes des Disk subsystems et les interruptions planifiées Protection des Lock Structure Utilisation de SMSD si possible (limitation par la distance entre les deux CFs) Ou évaluer l’utilisation de CF externes (pour se protéger de panne Machine) - Gain sur RTO, en évitant un Global Restart de DB2 Protection des données dans les Structures CF MQ - par SMSD si possible (Le Logging a un effet sur le RTO, temps de Recovery) DB2 - GBPs par User Managed Duplexing (peu d’impact du à la distance) pour éviter GRECP Automatisation et tests des Procédures de Recovery Impact direct sur le RTO - Réduction des interventions opérateurs au minimum L’éducation des opérateurs sur ces procédures est fondamental Optimisation des Processus de Recovery En priorisant les applications critiques dans le processus de recovery 12 Comment minimiser le RPO RPO Automatisation du « Freeze » en cas de panne des éléments de la réplication CGROUP FREEZE Pour avoir toujours une copie secondaire cohérente Protection des données dans les structures CF MQ par SMSD ou logging GBPs DB2 par User Managed Duplexing Les données sur bande sont écrites en double Mais il y a un risque de perte de données. Donc, les données vitales ne doivent pas être écrites sur Tape ou VSM 13 Configurations possibles OBJECTIF : « Architecture des travaux en mode actif/actif sur deux 2 Machines en Full DataSharing » Multi Sites Workload Single Site Workload 14 Multi Site Workload Actif – Actif éloigné avec réplication synchrone > Configuration cible nominale : Sysplex : • TLSPLEX TLSDEVL SYSPLEXA • • • • Configuration similaire à actuellement (sauf liaisons inter sites : ISC, Timers, FICON, FC, ESCON) Connectique symétrique (Hyperswap) Impact de la distance : voir étude CF plus loin Un des sysplex doit représenter plus de 50% de la consommation zOS totale de chaque serveur (règles d’agrégation) System Managed Structure Duplexing GDPS • • GDPS/HM minimum pour cohérence GDPS Complet si RTO < 2 heures et support « CF Hint => voir plus loin) • Hyperswap activé pour RPO = 0 Disques • Disques modernes avec TR < 5 ms supportant Hyperswap (Tagmastore ou DS8000) • Espaces de travail pour sauvegardes symétriques • Impact de la distance à déterminer avec fournisseur (modélisation) Impact de la distance sur les requêtes CF et PPRC 15 Single Site Workload Actif – actif local + site passif, avec réplication synchrone > Configuration cible nominale : Sysplex : TLSPLEX TLSDEVL SYSPLEXA • • • Connectique symétrique (Hyperswap) Impact de la distance : faible pour les CF Un des sysplex doit représenter plus de 50% de la consommation z/OS totale de chaque serveur (règles d’agrégation) • System Managed Structure Duplexing CBU SYSPLEXA GDPS • • • GDPS / HM minimum pour cohérence GDPS Complet si RTO < 2 heures Hyper swap activé pour RPO = 0 Disques • Disques modernes avec TR < 5 ms supportant Hyperswap (Tagmastore ou DS8000) • Espaces de travail pour sauvegardes symétriques • Impact de la distance à déterminer avec fournisseur Impact de la distance sur les requêtes PPRC uniquement 16 AGENDA PRESENTATION DE LA CONFIGURATION ACTUELLE OBJECTIFS DE RTO ET RPO POUR AIR FRANCE SOLUTIONS ENVISAGEES SOLUTION CHOISIE GDPS CONFIGURATION CIBLE 17 Choix de la solution La solution « Multi Site Workload » est la plus économique et la plus proche de nos objectifs de RTO L’impact de la distance pour les requêtes Sysplex doit être testé Le temps de réponse SYNC (local) est de 20 µs L’effet de la distance ajoute 200µs ( donc X11) Il y a peu de références de Multi Site Workload à 10 km L’impact de la distance pour les requêtes PPRC ne sera pas testé Le temps de réponse DASD est de 4 ms L’effet de la distance ajoute 200µs (+5%) Il y a beaucoup de références en PPRC à10km Modélisation benchmark ou test sur site? Les liens entre applications sur des plate formes et sites différents, rendent impossible l’extraction d’une partie du SI représentative de l’activité. De même la variété de l’activité rend impossible sa modélisation 4 ISC sont disponibles sur nos machines pour le rajout de bobines (coexistence possible auprès des 4 ICBs existants) Décision : Test sur site 18 Test Bobine(1) Dernier Trimestre 2006 Bobines de 10 kilomètres installées entre les deux Machines Les liens 10 kilomètres ont été utilisés le le Sysplex de Production, dans la même CU sur les 4 liens ICB existants 4 liens ICB UC« actuels » Machine1 Machine2 DWDM Bobine 10km DWDM Pour les tests, les liens ICBs sont configurés OFFLINE Pendant les tests, en cas d’impact sur le temps de réponse de l’applicatif, les liens ICBs sont configurés ONLINE (1 minute) Cette méthode rend le test possible en production pour en toute sécurité pour l’exploitation 19 Test Bobine(2) Définition de périodes de tests représentatives de l’activité Pour le transactionnel et le batch Établissement d’un référentiel 0km Définition des métriques Temps de réponse & écart type Mise en action des bobines pendant ces périodes sous forte surveillance Surveillance en direct Appels utilisateurs, & outils de monitoring Analyse à posteriori via la métrologie de la dégradation Actions prises au cours du test - Augmentation des tailles de structure - Rajout de liens ISCs Sur dégradation (Path Busy conditions) - Test d’ajout de processeur de coupling Impact du traitement en // des requêtes de coupling - Duplexing des structures de Lock IMS (sur nuit batch) DB2 Au début strict respect des périodes, puis devant le faible impact, bobines actives 24/24 20 Test Bobine(3) Conclusion: L’impact sur les applications est acceptable: +15% sur les temps de réponse des transactions CICS Impact sur les BATCH critiques acceptable aussi L’architecture « Multi Sites workload » peut être mise en oeuvre Recommandations d’IBM sur la taille de certaines structures CF, nombre de liens ISC et nombre de moteurs dans les CF 21 AGENDA PRESENTATION DE LA CONFIGURATION ACTUELLE OBJECTIFS DE RTO ET RPO POUR AIR FRANCE SOLUTIONS ENVISAGEES SOLUTION CHOISIE GDPS CONFIGURATION CIBLE 22 GDPS Les Bénéfices de GDPS HyperSwap Bascule dynamique du Primary disk subsystem vers le Secondary disk subsystem. Freeze automation Quand un problème de réplication est détecté, une commande “CGROUP FREEZE” est passée sur la configuration PPRC Ceci permet d’ cohérente d’avoir une copie toujours cohé Automatisation des Procédures de Recovery Basées sur un « Scripting language » Activation des CBU Reconfiguration des Ssysplex Policies et Couple Dataset Reconfiguration des IPL Parms Etc…. L’automatisation des Procé Procédures de Recovery est la meilleure garantie pour avoir un RTO MINIMUM Elle doivent être testé testées 23 AGENDA PRESENTATION DE LA CONFIGURATION ACTUELLE OBJECTIFS DE RTO ET RPO POUR AIR FRANCE SOLUTIONS ENVISAGEES SOLUTION CHOISIE GDPS CONFIGURATION CIBLE 24 Projet de configuration Cible Tls1 Production GDPS STP STP PRO3 PRO2 M0TR M0TP MQ sq DB2 GBP Lock SMSD Tls3 DEV1 M0TF SMSD? Test GDPS Tls2 Lock MQ sq DB2 GBP STP UMD 25 Projet de configuration Cible Workload multi site 1 Machine sur chaque site 1 CF Externe sur le site primaire Séparation totale des données entre le GDPS Test et le GDPS Production Lock structure dans le CF externe GBP en User Managed Duplexed Les MQ Shared Queues en SMSD à 10 km La question est: quel est le mieux dans notre utilisation entre le Duplexing et le Logging? Messages Asynchrones Coexistence des 2 modes? 2 Licences GDPS (Full Option) Production Test Développement, Système Utilisé pour les opérations régulières d’entraînement 26