Prozessbasierte Root-Cause Analysis von ServiceTrace

Transcription

Prozessbasierte Root-Cause Analysis von ServiceTrace
WHITE PAPER
WHITE PAPER
RESEARCH IN ACTION
Unabhängige Marktforschung und Beratung
PROZESSBASIERTE ROOT-CAUSE ANALYSIS
VON SERVICETRACE:
MEHR INFORMATION IM FEHLERFALL
Januar 2015
EXECUTIVE SUMMARY
Den Markt für die Überwachung und Verwaltung der Verfügbarkeit und Geschwindigkeit von
Softwareanwendungen kennzeichnet eine hohe Dynamik.
Als konstante Kundenanforderung hat sich in den letzten Jahren die Sicherstellung der Servicequalität aus Anwendersicht erwiesen.
Research in Action hat sich daher entschieden, eine innovative Lösung in diesem Bereich näher zu
untersuchen.
Viele Lösungen in diesem Markt sind sowohl aufwendig zu implementieren als auch kostspielig im
Unterhalt. Die Software der Firma ServiceTrace zeichnet sich nicht nur durch einfache Handhabe,
schnelle Implementierung und niedrige Administrations-/Betriebskosten aus:
Der ServiceTracer unterstützt eine effiziente Root-Cause Analysis auf Basis pragmatischer Datensammlung.
Dies ist derzeit am Markt ein Alleinstellungsmerkmal.
Prozessbasierte Root-Cause Analysis von ServiceTrace
Seite 1
WHITE PAPER
INHALT
Herausforderung IT Servicequalität
3
Verwendetes Verfahren und Technik
5
Umsetzung der Anforderung mit ServiceTracer
6
Topologie-Übersicht
7
Vorgehen der Analyse
8
Root-Cause Analysis - kurzfristiger und nachhaltiger
Nutzen
9
Zusammenfassung
Prozessbasierte Root-Cause Analysis von ServiceTrace
10
Seite 2
WHITE PAPER
HERAUSFORDERUNG IT-SERVICEQUALITÄT
Der Markt für Lösungen, die interne und externe IT-Dienstleister bei der Verwaltung ihrer zunehmend komplexen Produktivumgebungen unterstützen, war schon immer sehr dynamisch. Schon
seit den Zeiten der ersten Mainframes war Innovation ein ständiger Begleiter im Bereich der ITManagement-Lösungen. Im Verlauf der letzten 10 Jahre haben Themen wie ITIL1, automatische
Anwendungserkennung, CMDB2 und BSM3 den Markt immer wieder neu belebt.
Research In Action definiert daher Application Performance Management als die Überwachung
und Verwaltung der Geschwindigkeit und Verfügbarkeit von Softwareanwendungen.
Derzeit umfasst der Application Performance Management Markt in etwa US$ 5 Mrd. in Form von
Softwarelizenzen, Wartungs- sowie SaaS4-Einnahmen. Die jährliche Wachstumsrate beläuft sich
auf etwa 10-15%, was diesen Markt zu einem der dynamischsten in der IT-Industrie macht (siehe
Abbildung 1).
In den letzten Jahren hat sich die Servicequalität aus Anwendersicht immer mehr als Kernpunkt
der Kundenanforderungen herauskristallisiert. Warum?
In der modernen Wirtschaft bildet die Kommunikationstechnik, und im Speziellen die dahinterstehende IT mit Ihren angebotenen Services, das Rückgrat für Business und allgemeine Kommunikation. Die angebotenen Applikations-Services, deren Verfügbarkeit und Qualität bestimmen mehr
denn je Misserfolg oder Erfolg von geschäftlichen Tätigkeiten.
1
IT Infrastructure Library, http://de.wikipedia.org/wiki/IT_Infrastructure_Library.
2
Configuration Management Database (CMDB) bezeichnet einen Begriff aus der Informatik. Nach der IT Infrastructure
Library [ITIL] handelt es sich bei der CMDB um eine Datenbank, welche dem Zugriff und der Verwaltung von Configuration Items dient. Als Configuration Item (CI) werden dabei im IT-Management alle Betriebsmittel der IT bezeichnet.
http://de.wikipedia.org/wiki/CMDB.
3
Business Service Management (BSM) stellt die Verbindung zwischen dem Prozessmanagement (auch Geschäftsprozessmanagement, GPM) und dem IT-Service-Management (ITSM) dar. Es hat das Ziel eine bessere Abstimmung zwischen Business und IT zu erzielen. Dabei werden die Abhängigkeit des Business von der IT dargestellt, sowie die Auswirkungen von IT-Störungen auf das Business aufgezeigt.
http://de.wikipedia.org/wiki/Business_Service_Management.
4
Software as a Service ist ein Teilbereich des Cloud Computings. Das SaaS-Modell basiert auf dem Grundsatz, dass die
Software und die IT-Infrastruktur bei einem externen IT-Dienstleister betrieben und vom Kunden als Service genutzt
werden. http://de.wikipedia.org/wiki/Software_as_a_Service.
Prozessbasierte Root-Cause Analysis von ServiceTrace
Seite 3
WHITE PAPER
Kurz: Der Erfolg eines Unternehmens hängt ab von der Qualität der IT. Aufgrund dieser Erkenntnis
ist technisches Monitoring von Elementen und Netzwerken in den meisten Unternehmen mittlerweile etablierter Standard. Um Ausfälle und Datenverlust zu vermeiden, wird zudem viel Geld in
redundant ausgelegte Systeme investiert: Damit ist die Verfügbarkeit der Infrastruktur gesichert.
Abbildung 1: Der IT Operations und Service Management Markt
Die Verfügbarkeit der Infrastruktur ist aber nicht gleichzusetzen mit der Verfügbarkeit und Qualität
der Services bei den Anwendern. Aus dieser Erkenntnis und dem hohen Druck, der auf dem Business liegt, entstand in den letzten Jahren zunehmend die Forderung nach einer Überwachung der
Servicequalität aus Sicht der Endanwender.
Servicequalität nachweislich auf hohem Niveau zu liefern ist heute eine anspruchsvolle Herausforderung für alle Beteiligten. Das liegt an den zunehmend komplexen Servicearchitekturen, in denen
eine Vielzahl eingebundener Teillieferanten den Gesamtservice verantwortet.
Im Fall einer Störung muss schnell geklärt werden, welches Element der Servicekette den Fehler
verursacht, und welche Person auf welchen Weg welche Information erhalten muss, um den Fehler zeitnah zu finden und zu beheben.
Prozessbasierte Root-Cause Analysis von ServiceTrace
Seite 4
WHITE PAPER
Um Engpässe zu identifizieren und deren Behebung zu beschleunigen, gibt es Lösungen am Markt,
die entsprechende technische Daten sammeln. Im Ergebnis liegt eine leider oft unüberschaubare
Datenmenge vor, die nicht mehr zu bewältigen und für eine gezielte Analyse untauglich ist.
Eine zielorientierte, problemfokussierte Datenerhebung ist hier der Königsweg: Laufen die Services
reibungslos, ist keine Fehleranalyse nötig. Tritt eine Störung auf, müssen Daten im zeitlichen und
architektonischen Zusammenhang mit dem Fehler erhoben werden.
Drei Schritte bilden die Grundlage und Voraussetzung für diesen Ansatz:
1)
Frühzeitiges Erkennen von Fehlern, die eine größere Auswirkung auf das Business haben
2)
Gezieltes Sammeln der benötigten Daten für die Fehleranalyse
3)
Schnelles Bereitstellen der gesammelten Daten an die richtigen Ansprechpartner.
Die Firma ServiceTrace bietet hier eine pragmatische, aber trotzdem schlüssige Lösung an, die am
Markt in dieser Form einmalig ist.
VERWENDETES VERFAHREN UND TECHNIK
Das verwendete Verfahren orientiert sich an der typischen Architektur eines Services. Jedes ITServiceangebot setzt sich aus diversen Einzelmodulen und Komponenten zusammen, die voneinander abhängen und deren Zusammenspiel die Servicequalität maßgeblich beeinflusst.
Grundvoraussetzung für eine Überwachung der Servicequalität ist eine standardisierte und immer
gleich wiederkehrende Servicebenutzung (-abnahme). Im Fehlerfall findet automatisiert eine Analyse der Abhängigkeiten und der beteiligten Elemente statt, die Daten sinnvoll aufbereitet und an
die Verantwortlichen des betroffenen Servicebereichs weitergibt.
Die verwendete Technik zur Analyse von Servicequalitäten beruht auf einer Simulation der Service-Nutzung durch einen Endanwender. Diese Simulation muss kontinuierlich erfolgen und sowohl authentisch als auch reproduzierbar sein.
Eine gute Basis für eine solche anwendernahe Analyse von Servicequalitäten ist ein Softwareroboter, der Applikationen bzw. IT-Services auf der Oberfläche von Anwendergeräten genauso bedient,
wie es ein echter Nutzer machen würde. Dabei folgt die Bedienung eines IT-Services einer immer
Prozessbasierte Root-Cause Analysis von ServiceTrace
Seite 5
WHITE PAPER
wiederkehrenden logischen Abfolge separater Teilschritte bzw. Transaktionen (Start der Applikation, Einloggen, Bestellung ausführen….).
Zu den Schritten werden im Fehlerfall die jeweiligen Abhängigkeiten in einer parallel zu der Ausführung des Schrittes laufenden Überwachung (Service-Abfrage) auf Funktion und Qualität geprüft.
Businessabläufe bzw. Geschäftsprozesse integrieren häufig mehrere Plattformen und Applikationen bzw. IT-Services. Es ist daher wichtig, verschiedene Datenquellen für eine umfassende ServiceÜberwachung heranziehen und bündeln zu können, um zu erkennen, welche Businessabläufe
durch den Ausfall von Service-Komponenten betroffen sind.
UMSETZUNG DER ANFORDERUNG MIT SERVICETRACER
Basis einer effizienten Analyse im Ausnahmefall ist die intelligente Fehlererkennung der Servicequalität durch den beschriebenen Softwareroboter ServiceTracer-Client (STC).
Erkennt der STC nicht gewollte Zustände einer Applikation (z.B. Login nicht möglich), analysiert er
die für diesen Schritt benötigten Elemente (Netz, Webserver, SAP System, DB, DNS, ADP,…) und
übermittelt das Analysepaket an die verantwortlichen Experten.
Das Alerting informiert Serviceverantwortliche im Fehlerfall.
Neben der Problemindikation stehen zur Analyse folgende Daten zur Verfügung:
•
Zeitpunkt des Ausfalls
•
Ort des Ausfalls (geographisch und IP des Clients)
•
Prozessschritt, in dem der Ausfall entstanden ist
•
Zustände der für den Schritt notwendigen Elemente
•
Userdaten (zur Überwachung benutztes Profil)
•
Link, um bei der Messung zuzusehen
•
Ein User (STC), der immer wieder reproduzierbar dasselbe macht
•
Viele User (STC’s in anderen Messlokationen), die Benchmarkwerte liefern.
Tabelle 1: Informations-Inhalt eines Alarms
Prozessbasierte Root-Cause Analysis von ServiceTrace
Seite 6
WHITE PAPER
TOPOLOGIE-ÜBERSICHT
Abbildung 2 zeigt einen Überblick des Zusammenwirkens der Analysetechniken.
Block 1 zeigt die "Anwenderperspektive". Das ist die direkte Kommunikationsbeziehung, die der
Anwender wahrnimmt, nämlich die zwischen seiner Arbeitsstation und dem Server (1. Ebene).
Block 2 zeigt die indirekten Kommunikationsbeziehungen, die sich der Wahrnehmung des Anwenders entziehen, nämlich die zugrunde liegende Vielzahl von Servern und Netzkomponenten
(2. Ebene).
Abbildung 2: Zusammenwirken der Analysetechniken
Störungen im Service können von allen beteiligten Komponenten ausgelöst werden und für die
Anwendersicht relevant sein. Um diese messtechnisch zu ermitteln, muss die Monitoring-Lösung
die Anwendersicht und die Systemsicht durch einen geeigneten Messaufbau kombinieren.
Prozessbasierte Root-Cause Analysis von ServiceTrace
Seite 7
WHITE PAPER
VORGEHEN DER ANALYSE
Basis der Überwachung sind z.B. von Key-Usern erstellte Workflows, die Business-Prozesse wie ein
echter Anwender bedienen.
Der Gesamtablauf der Bedienung (Workflow) wird in logische Teilbereiche (Transaktionen) unterteilt.
Jeder Transaktion werden Servicechecks hinzugefügt, die die assoziierten, für die Transaktion
notwendigen Elemente / Prozesskomponenten in Ihrer Funktion überprüfen.
Transaktion
Starten des Explorers
Aufrufen einer Webseite
Aufrufen der Login-Seite des Zielportals
Anmelden im Portal über User und Passwort
…
Assoziierte Prozesskomponente
Client
Netzwerk, Web-Service allgemein
Netzwerk, Web-Service des Portals
Netzwerk, Datenbank-Verbindung zum Portal
…
Tabelle 2.: Beispiele für Abhängigkeiten während einer Servicenutzung
Wird während der Ausführung des Workflows eine Transaktion nicht erfolgreich ausgeführt, kann
durch die automatische Prüfung der Abhängigkeiten auf die ursächlich am Fehler beteiligte Prozesskomponente geschlossen werden.
Die problembezogene Datenerhebung und die Rekapitulierbarkeit des Fehlerbildes ist der eindeutige Vorteil dieses Verfahrens. Durch diese Analyse kann bereits über den Alarm im Ticket der richtige Experte benachrichtigt werden, der dann auch noch wichtige Informationen zur Problembehebung erhält (siehe Tabelle 1).
Weiterhin steht dem Experten der Testworkflow zur Überprüfung der Problembehebung ebenfalls
zur Verfügung. Auf diese Weise kann eine wichtige Lücke im Qualitätsprozess geschlossen werden;
Changes werden vor der Implementierung in ihrer Qualität geprüft.
Prozessbasierte Root-Cause Analysis von ServiceTrace
Seite 8
WHITE PAPER
ROOT-CAUSE ANALYSIS - KURZFRISTIGER UND NACHHALTIGER
NUTZEN
Kurzfristig dient das Verfahren der Root-Cause Analysis dem schnellen Aufspüren und Beheben
von Fehlern im Betrieb eines IT-Services bzw. einer Softwareanwendung, also dem reaktiven
"Fire Fighting".
Mit Blick auf den gesamten Service Lifecycle nach ITIL V3 ermöglicht das Verfahren von
ServiceTrace jedoch die wirklichen Ursachen (Cause) für im Servicebetrieb auftretende Fehler
schon in der Phase des Service Designs zu lokalisieren. Das heißt, dass diese Ursachen für Anwendungsfehler bei der nächsten Iteration bekannt sind und vermieden werden können, bevor der
Service in den Betrieb ausgerollt wird.
Firefighting während der Service Operations minimiert Fehlerkosten, indem Ausfälle möglichst
schnell behoben werden. Proaktive Fehlervermeidung vor der Inbetriebnahme eines IT-Services
reduziert Fehlerkosten gegen Null, weil Ausfälle gar nicht erst entstehen.
Prozessbasierte Root-Cause Analysis von ServiceTrace
Seite 9
WHITE PAPER
ZUSAMMENFASSUNG
Die prozessbasierte Root-Cause Analysis von ServiceTrace ist ein einfaches Verfahren, das im Fehlerfall genug Analysedaten sammelt, um dem zuständigen Serviceverantwortlichen das schnelle
Auffinden der Ursache zu ermöglichen.
Darüber hinaus kann der Serviceverantwortliche mit dem Mess-Workflow, ausgeführt vom synthetischen User (ServiceTracer-Client) den Fehler jederzeit reproduzieren. So kann synchron eine Tiefenanalyse (Debugging) des Zustands auf einem definierten, sich nicht verändernden Prüfablauf
durchgeführt werden. Deshalb werden objektiv vergleichbare Prüfergebnisse erzielt, die die Ursachenanalyse deutlich beschleunigen.
Viele Lösungen in diesem Markt sind sehr aufwendig zu implementieren und auch sehr kostspielig
im Unterhalt. Hier herrscht deutlicher Handlungsbedarf. Das Produkt der Firma ServiceTrace
zeichnet sich dadurch aus, dass pragmatische Datensammlung mit dem Verfahren der Root-Cause
Analysis kombiniert wird. Dies resultiert in deutlich geringeren Gesamtkosten des Systems bei hohem Kundennutzen. Dies ist zurzeit am Markt ein Alleinstellungsmerkmal der Firma ServiceTrace.
----------------------------------------------------------------------------------------------------------------------------------Autor: Dr. Thomas Mendel Ph.D., Geschäftsführer Research In Action GmbH, [email protected]
Über Research in Action:
Die Research In Action GmbH ist ein führendes unabhängiges Markforschungs- und Beratungsunternehmen im Bereich Informations- und Kommunikationstechnologie.
Das Unternehmen bietet sowohl zukunftsorientierte, als auch praxisnahe Beratung für Unternehmen und Lösungsanbieter an.
© 2015, Research In Action GmbH, Vervielfältigung ist untersagt.
Prozessbasierte Root-Cause Analysis von ServiceTrace
Seite 10