Prozessbasierte Root-Cause Analysis von ServiceTrace
Transcription
Prozessbasierte Root-Cause Analysis von ServiceTrace
WHITE PAPER WHITE PAPER RESEARCH IN ACTION Unabhängige Marktforschung und Beratung PROZESSBASIERTE ROOT-CAUSE ANALYSIS VON SERVICETRACE: MEHR INFORMATION IM FEHLERFALL Januar 2015 EXECUTIVE SUMMARY Den Markt für die Überwachung und Verwaltung der Verfügbarkeit und Geschwindigkeit von Softwareanwendungen kennzeichnet eine hohe Dynamik. Als konstante Kundenanforderung hat sich in den letzten Jahren die Sicherstellung der Servicequalität aus Anwendersicht erwiesen. Research in Action hat sich daher entschieden, eine innovative Lösung in diesem Bereich näher zu untersuchen. Viele Lösungen in diesem Markt sind sowohl aufwendig zu implementieren als auch kostspielig im Unterhalt. Die Software der Firma ServiceTrace zeichnet sich nicht nur durch einfache Handhabe, schnelle Implementierung und niedrige Administrations-/Betriebskosten aus: Der ServiceTracer unterstützt eine effiziente Root-Cause Analysis auf Basis pragmatischer Datensammlung. Dies ist derzeit am Markt ein Alleinstellungsmerkmal. Prozessbasierte Root-Cause Analysis von ServiceTrace Seite 1 WHITE PAPER INHALT Herausforderung IT Servicequalität 3 Verwendetes Verfahren und Technik 5 Umsetzung der Anforderung mit ServiceTracer 6 Topologie-Übersicht 7 Vorgehen der Analyse 8 Root-Cause Analysis - kurzfristiger und nachhaltiger Nutzen 9 Zusammenfassung Prozessbasierte Root-Cause Analysis von ServiceTrace 10 Seite 2 WHITE PAPER HERAUSFORDERUNG IT-SERVICEQUALITÄT Der Markt für Lösungen, die interne und externe IT-Dienstleister bei der Verwaltung ihrer zunehmend komplexen Produktivumgebungen unterstützen, war schon immer sehr dynamisch. Schon seit den Zeiten der ersten Mainframes war Innovation ein ständiger Begleiter im Bereich der ITManagement-Lösungen. Im Verlauf der letzten 10 Jahre haben Themen wie ITIL1, automatische Anwendungserkennung, CMDB2 und BSM3 den Markt immer wieder neu belebt. Research In Action definiert daher Application Performance Management als die Überwachung und Verwaltung der Geschwindigkeit und Verfügbarkeit von Softwareanwendungen. Derzeit umfasst der Application Performance Management Markt in etwa US$ 5 Mrd. in Form von Softwarelizenzen, Wartungs- sowie SaaS4-Einnahmen. Die jährliche Wachstumsrate beläuft sich auf etwa 10-15%, was diesen Markt zu einem der dynamischsten in der IT-Industrie macht (siehe Abbildung 1). In den letzten Jahren hat sich die Servicequalität aus Anwendersicht immer mehr als Kernpunkt der Kundenanforderungen herauskristallisiert. Warum? In der modernen Wirtschaft bildet die Kommunikationstechnik, und im Speziellen die dahinterstehende IT mit Ihren angebotenen Services, das Rückgrat für Business und allgemeine Kommunikation. Die angebotenen Applikations-Services, deren Verfügbarkeit und Qualität bestimmen mehr denn je Misserfolg oder Erfolg von geschäftlichen Tätigkeiten. 1 IT Infrastructure Library, http://de.wikipedia.org/wiki/IT_Infrastructure_Library. 2 Configuration Management Database (CMDB) bezeichnet einen Begriff aus der Informatik. Nach der IT Infrastructure Library [ITIL] handelt es sich bei der CMDB um eine Datenbank, welche dem Zugriff und der Verwaltung von Configuration Items dient. Als Configuration Item (CI) werden dabei im IT-Management alle Betriebsmittel der IT bezeichnet. http://de.wikipedia.org/wiki/CMDB. 3 Business Service Management (BSM) stellt die Verbindung zwischen dem Prozessmanagement (auch Geschäftsprozessmanagement, GPM) und dem IT-Service-Management (ITSM) dar. Es hat das Ziel eine bessere Abstimmung zwischen Business und IT zu erzielen. Dabei werden die Abhängigkeit des Business von der IT dargestellt, sowie die Auswirkungen von IT-Störungen auf das Business aufgezeigt. http://de.wikipedia.org/wiki/Business_Service_Management. 4 Software as a Service ist ein Teilbereich des Cloud Computings. Das SaaS-Modell basiert auf dem Grundsatz, dass die Software und die IT-Infrastruktur bei einem externen IT-Dienstleister betrieben und vom Kunden als Service genutzt werden. http://de.wikipedia.org/wiki/Software_as_a_Service. Prozessbasierte Root-Cause Analysis von ServiceTrace Seite 3 WHITE PAPER Kurz: Der Erfolg eines Unternehmens hängt ab von der Qualität der IT. Aufgrund dieser Erkenntnis ist technisches Monitoring von Elementen und Netzwerken in den meisten Unternehmen mittlerweile etablierter Standard. Um Ausfälle und Datenverlust zu vermeiden, wird zudem viel Geld in redundant ausgelegte Systeme investiert: Damit ist die Verfügbarkeit der Infrastruktur gesichert. Abbildung 1: Der IT Operations und Service Management Markt Die Verfügbarkeit der Infrastruktur ist aber nicht gleichzusetzen mit der Verfügbarkeit und Qualität der Services bei den Anwendern. Aus dieser Erkenntnis und dem hohen Druck, der auf dem Business liegt, entstand in den letzten Jahren zunehmend die Forderung nach einer Überwachung der Servicequalität aus Sicht der Endanwender. Servicequalität nachweislich auf hohem Niveau zu liefern ist heute eine anspruchsvolle Herausforderung für alle Beteiligten. Das liegt an den zunehmend komplexen Servicearchitekturen, in denen eine Vielzahl eingebundener Teillieferanten den Gesamtservice verantwortet. Im Fall einer Störung muss schnell geklärt werden, welches Element der Servicekette den Fehler verursacht, und welche Person auf welchen Weg welche Information erhalten muss, um den Fehler zeitnah zu finden und zu beheben. Prozessbasierte Root-Cause Analysis von ServiceTrace Seite 4 WHITE PAPER Um Engpässe zu identifizieren und deren Behebung zu beschleunigen, gibt es Lösungen am Markt, die entsprechende technische Daten sammeln. Im Ergebnis liegt eine leider oft unüberschaubare Datenmenge vor, die nicht mehr zu bewältigen und für eine gezielte Analyse untauglich ist. Eine zielorientierte, problemfokussierte Datenerhebung ist hier der Königsweg: Laufen die Services reibungslos, ist keine Fehleranalyse nötig. Tritt eine Störung auf, müssen Daten im zeitlichen und architektonischen Zusammenhang mit dem Fehler erhoben werden. Drei Schritte bilden die Grundlage und Voraussetzung für diesen Ansatz: 1) Frühzeitiges Erkennen von Fehlern, die eine größere Auswirkung auf das Business haben 2) Gezieltes Sammeln der benötigten Daten für die Fehleranalyse 3) Schnelles Bereitstellen der gesammelten Daten an die richtigen Ansprechpartner. Die Firma ServiceTrace bietet hier eine pragmatische, aber trotzdem schlüssige Lösung an, die am Markt in dieser Form einmalig ist. VERWENDETES VERFAHREN UND TECHNIK Das verwendete Verfahren orientiert sich an der typischen Architektur eines Services. Jedes ITServiceangebot setzt sich aus diversen Einzelmodulen und Komponenten zusammen, die voneinander abhängen und deren Zusammenspiel die Servicequalität maßgeblich beeinflusst. Grundvoraussetzung für eine Überwachung der Servicequalität ist eine standardisierte und immer gleich wiederkehrende Servicebenutzung (-abnahme). Im Fehlerfall findet automatisiert eine Analyse der Abhängigkeiten und der beteiligten Elemente statt, die Daten sinnvoll aufbereitet und an die Verantwortlichen des betroffenen Servicebereichs weitergibt. Die verwendete Technik zur Analyse von Servicequalitäten beruht auf einer Simulation der Service-Nutzung durch einen Endanwender. Diese Simulation muss kontinuierlich erfolgen und sowohl authentisch als auch reproduzierbar sein. Eine gute Basis für eine solche anwendernahe Analyse von Servicequalitäten ist ein Softwareroboter, der Applikationen bzw. IT-Services auf der Oberfläche von Anwendergeräten genauso bedient, wie es ein echter Nutzer machen würde. Dabei folgt die Bedienung eines IT-Services einer immer Prozessbasierte Root-Cause Analysis von ServiceTrace Seite 5 WHITE PAPER wiederkehrenden logischen Abfolge separater Teilschritte bzw. Transaktionen (Start der Applikation, Einloggen, Bestellung ausführen….). Zu den Schritten werden im Fehlerfall die jeweiligen Abhängigkeiten in einer parallel zu der Ausführung des Schrittes laufenden Überwachung (Service-Abfrage) auf Funktion und Qualität geprüft. Businessabläufe bzw. Geschäftsprozesse integrieren häufig mehrere Plattformen und Applikationen bzw. IT-Services. Es ist daher wichtig, verschiedene Datenquellen für eine umfassende ServiceÜberwachung heranziehen und bündeln zu können, um zu erkennen, welche Businessabläufe durch den Ausfall von Service-Komponenten betroffen sind. UMSETZUNG DER ANFORDERUNG MIT SERVICETRACER Basis einer effizienten Analyse im Ausnahmefall ist die intelligente Fehlererkennung der Servicequalität durch den beschriebenen Softwareroboter ServiceTracer-Client (STC). Erkennt der STC nicht gewollte Zustände einer Applikation (z.B. Login nicht möglich), analysiert er die für diesen Schritt benötigten Elemente (Netz, Webserver, SAP System, DB, DNS, ADP,…) und übermittelt das Analysepaket an die verantwortlichen Experten. Das Alerting informiert Serviceverantwortliche im Fehlerfall. Neben der Problemindikation stehen zur Analyse folgende Daten zur Verfügung: • Zeitpunkt des Ausfalls • Ort des Ausfalls (geographisch und IP des Clients) • Prozessschritt, in dem der Ausfall entstanden ist • Zustände der für den Schritt notwendigen Elemente • Userdaten (zur Überwachung benutztes Profil) • Link, um bei der Messung zuzusehen • Ein User (STC), der immer wieder reproduzierbar dasselbe macht • Viele User (STC’s in anderen Messlokationen), die Benchmarkwerte liefern. Tabelle 1: Informations-Inhalt eines Alarms Prozessbasierte Root-Cause Analysis von ServiceTrace Seite 6 WHITE PAPER TOPOLOGIE-ÜBERSICHT Abbildung 2 zeigt einen Überblick des Zusammenwirkens der Analysetechniken. Block 1 zeigt die "Anwenderperspektive". Das ist die direkte Kommunikationsbeziehung, die der Anwender wahrnimmt, nämlich die zwischen seiner Arbeitsstation und dem Server (1. Ebene). Block 2 zeigt die indirekten Kommunikationsbeziehungen, die sich der Wahrnehmung des Anwenders entziehen, nämlich die zugrunde liegende Vielzahl von Servern und Netzkomponenten (2. Ebene). Abbildung 2: Zusammenwirken der Analysetechniken Störungen im Service können von allen beteiligten Komponenten ausgelöst werden und für die Anwendersicht relevant sein. Um diese messtechnisch zu ermitteln, muss die Monitoring-Lösung die Anwendersicht und die Systemsicht durch einen geeigneten Messaufbau kombinieren. Prozessbasierte Root-Cause Analysis von ServiceTrace Seite 7 WHITE PAPER VORGEHEN DER ANALYSE Basis der Überwachung sind z.B. von Key-Usern erstellte Workflows, die Business-Prozesse wie ein echter Anwender bedienen. Der Gesamtablauf der Bedienung (Workflow) wird in logische Teilbereiche (Transaktionen) unterteilt. Jeder Transaktion werden Servicechecks hinzugefügt, die die assoziierten, für die Transaktion notwendigen Elemente / Prozesskomponenten in Ihrer Funktion überprüfen. Transaktion Starten des Explorers Aufrufen einer Webseite Aufrufen der Login-Seite des Zielportals Anmelden im Portal über User und Passwort … Assoziierte Prozesskomponente Client Netzwerk, Web-Service allgemein Netzwerk, Web-Service des Portals Netzwerk, Datenbank-Verbindung zum Portal … Tabelle 2.: Beispiele für Abhängigkeiten während einer Servicenutzung Wird während der Ausführung des Workflows eine Transaktion nicht erfolgreich ausgeführt, kann durch die automatische Prüfung der Abhängigkeiten auf die ursächlich am Fehler beteiligte Prozesskomponente geschlossen werden. Die problembezogene Datenerhebung und die Rekapitulierbarkeit des Fehlerbildes ist der eindeutige Vorteil dieses Verfahrens. Durch diese Analyse kann bereits über den Alarm im Ticket der richtige Experte benachrichtigt werden, der dann auch noch wichtige Informationen zur Problembehebung erhält (siehe Tabelle 1). Weiterhin steht dem Experten der Testworkflow zur Überprüfung der Problembehebung ebenfalls zur Verfügung. Auf diese Weise kann eine wichtige Lücke im Qualitätsprozess geschlossen werden; Changes werden vor der Implementierung in ihrer Qualität geprüft. Prozessbasierte Root-Cause Analysis von ServiceTrace Seite 8 WHITE PAPER ROOT-CAUSE ANALYSIS - KURZFRISTIGER UND NACHHALTIGER NUTZEN Kurzfristig dient das Verfahren der Root-Cause Analysis dem schnellen Aufspüren und Beheben von Fehlern im Betrieb eines IT-Services bzw. einer Softwareanwendung, also dem reaktiven "Fire Fighting". Mit Blick auf den gesamten Service Lifecycle nach ITIL V3 ermöglicht das Verfahren von ServiceTrace jedoch die wirklichen Ursachen (Cause) für im Servicebetrieb auftretende Fehler schon in der Phase des Service Designs zu lokalisieren. Das heißt, dass diese Ursachen für Anwendungsfehler bei der nächsten Iteration bekannt sind und vermieden werden können, bevor der Service in den Betrieb ausgerollt wird. Firefighting während der Service Operations minimiert Fehlerkosten, indem Ausfälle möglichst schnell behoben werden. Proaktive Fehlervermeidung vor der Inbetriebnahme eines IT-Services reduziert Fehlerkosten gegen Null, weil Ausfälle gar nicht erst entstehen. Prozessbasierte Root-Cause Analysis von ServiceTrace Seite 9 WHITE PAPER ZUSAMMENFASSUNG Die prozessbasierte Root-Cause Analysis von ServiceTrace ist ein einfaches Verfahren, das im Fehlerfall genug Analysedaten sammelt, um dem zuständigen Serviceverantwortlichen das schnelle Auffinden der Ursache zu ermöglichen. Darüber hinaus kann der Serviceverantwortliche mit dem Mess-Workflow, ausgeführt vom synthetischen User (ServiceTracer-Client) den Fehler jederzeit reproduzieren. So kann synchron eine Tiefenanalyse (Debugging) des Zustands auf einem definierten, sich nicht verändernden Prüfablauf durchgeführt werden. Deshalb werden objektiv vergleichbare Prüfergebnisse erzielt, die die Ursachenanalyse deutlich beschleunigen. Viele Lösungen in diesem Markt sind sehr aufwendig zu implementieren und auch sehr kostspielig im Unterhalt. Hier herrscht deutlicher Handlungsbedarf. Das Produkt der Firma ServiceTrace zeichnet sich dadurch aus, dass pragmatische Datensammlung mit dem Verfahren der Root-Cause Analysis kombiniert wird. Dies resultiert in deutlich geringeren Gesamtkosten des Systems bei hohem Kundennutzen. Dies ist zurzeit am Markt ein Alleinstellungsmerkmal der Firma ServiceTrace. ----------------------------------------------------------------------------------------------------------------------------------Autor: Dr. Thomas Mendel Ph.D., Geschäftsführer Research In Action GmbH, [email protected] Über Research in Action: Die Research In Action GmbH ist ein führendes unabhängiges Markforschungs- und Beratungsunternehmen im Bereich Informations- und Kommunikationstechnologie. Das Unternehmen bietet sowohl zukunftsorientierte, als auch praxisnahe Beratung für Unternehmen und Lösungsanbieter an. © 2015, Research In Action GmbH, Vervielfältigung ist untersagt. Prozessbasierte Root-Cause Analysis von ServiceTrace Seite 10