BLOG

Incident Metrics & KPIs - worauf es wirklich ankommt

Daniel Weiß
February 24, 2023
Table of Contents:

Im Zeitalter von Big Data und Analytik versuchen Unternehmen zunehmend, die Macht von Zahlen und Daten zu nutzen, um ihre Abläufe zu verbessern. In der Welt des Incident Managements bedeutet dies, dass man sich KPIs, Metriken und andere Methoden zur Überwachung von Vorfällen zuwendet, um Trends zu erkennen und korrigierende Maßnahmen zu ergreifen.

Um deinen Prozess im Vorfallsmanagement effektiv zu verwalten und zu verbessern, musst du wichtige Leistungsindikatoren (KPIs) und Metriken im Auge behalten. Ohne diese Daten befindest du dich im Blindflug und verpasst die Möglichkeit, die Effektivität deiner Prozesse zu verbessern.

Aber was sind die wichtigsten Kennzahlen, die du im Auge behalten solltest? Und wie kannst du sicherstellen, dass deine Prozesse im Incident Management effektiv Daten sammeln und analysieren? In diesem Artikel werfen wir einen Blick auf einige der wichtigsten Faktoren, die du berücksichtigen solltest. Zur Vereinfachung verwenden wir die englischen Begriffe des Incident Managements.

Incident Management – die Bedeutung von KPIs, Metriken und Monitoring

KPIs (Key Performance Indicators) sind entscheidend im Incident Management, denn sie ermöglichen es dir, den Fortschritt deiner Maßnahmen zu kontrollieren. Indem du diese Kennzahlen verfolgst, kannst du sicherstellen, dass dein Team seine Ziele erfüllt und effektiv auf Vorfälle reagiert. Schließlich geht es beim Incident Management darum, Vorfälle schnell zu erkennen und zu beheben, um eine Beeinträchtigung für Nutzer:innen zu verringern.

Außerdem können KPIs dir dabei helfen, Trends in der Vorfallsaktivität zu erkennen, die du zur Verbesserung deiner gesamten Reaktionsstrategie nutzen kannst. Neben der Verfolgung der KPIs ist es auch wichtig, sie regelmäßig zu überprüfen, um sicherzustellen, dass sie immer noch relevant und genau sind.

Welche Metriken gibt es?

Die Liste der möglichen KPIs im Incident Management ist lang. SLA (Service-Level Agreement), SLO (Service Level Objective), MTTA (Mean Time to Acknowledge), MTTR (Mean Time to Resolution), MTBF (Mean Time between Failures), MTTD (Mean Time to Detect), Incidents over time, Number of Incidents, Incident Cost, On-Call Time, Uptime, Timestamps … kennst du sie alle? Keine Sorge, musst du auch nicht. Aber es gibt ein paar wichtige Kennzahlen, die jedes Unternehmen verfolgen sollte. Denn sie sind wichtig, um zu verstehen, was in deinem System vor sich geht, wie viel es kostet und wo du dich verbessern kannst. 

Wenn du das weißt, fällt es dir leichter zu entscheiden, welche anderen KPIs für dein Unternehmen wichtig sind und auf die Liste gesetzt werden sollten. Denn jedes Unternehmen verfügt über individuelle Geschäftsziele die es verfolgt, für die individuelle Metriken in Frage kommen. Auch jedes Teams ist unterschiedlich, hat mit seinen spezifischen Herausforderungen zu kämpfen und muss auch in Abhängigkeit von den Unternehmensrichtlinien die Erwartungen der Kund:innen erfüllen.

Nichtsdestotrotz gibt es bestimmte Ziele, die jedes Unternehmen anstrebt. Und darauf zielen die folgenden “goldenen” KPIs ab – damit liegst du niemals falsch. Mehr noch: diese Kennzahlen legen dein Fundament im Incident Management.

Uptime

Die erste und offensichtlichste Kennzahl ist die Betriebszeit (Uptime) - oder genauer gesagt, die Ausfallzeit. Damit wird gemessen, wie oft deine Systeme aufgrund eines Vorfalls ausfallen oder nicht verfügbar sind. Natürlich willst du diese Zahl so niedrig wie möglich halten, und sie ist ein guter Indikator dafür, wie effektiv dein Störungsmanagement funktioniert.

Es gibt verschiedene Möglichkeiten, Ausfallzeiten zu messen, aber eine der gängigsten ist die mittlere Aufklärungszeit (MTTR, Mean Time to Resolution). Das ist die durchschnittliche Zeit, die benötigt wird, um eine Störung zu beheben, nachdem sie gemeldet worden ist. Eine hohe MTTR kann auf eine Reihe von Problemen hinweisen, von ineffizienten Arbeitsabläufen bis hin zu ineffektiver Fehlerbehebung.

MTTR (Mean Time to Resolution)

Diese Kennzahl misst, wie bereits erwähnt, die durchschnittliche Zeit, die für die Behebung eines Vorfalls benötigt wird. Sie eignet sich, um die Effizienz deines Incident Management-Prozesses zu messen und Bereiche zu identifizieren, in denen du Verbesserungen vornehmen kannst.

Eine der gängigsten Methoden zur Messung der MTTR ist der Prozentsatz der Vorfälle, die innerhalb des vereinbarten Zeitrahmens gelöst werden. Dieser Wert sollte möglichst nahe bei 100 % liegen – alles unter 95 % ist kritisch.

Dabei kann die MTTR durch verschiedene Faktoren beeinflusst werden, von der Komplexität des Vorfalls bis hin zu den Fähigkeiten und Kenntnissen des Supportteams. Aber was auch immer die Ursache ist, eine hohe MTTR ist etwas, das sofort angegangen werden sollte.

SLA (Service-Level Agreement)

Eine weitere wichtige Kennzahl ist die Einhaltung deines Service Level Agreements (SLA). Daran lässt sich ablesen, wie oft du die in deinem SLA festgelegten Ziele erfüllst, wodurch sich die Gesamtleistung deines Incident Management Prozesses gut beurteilen lässt.

Zur Berechnung der SLA-Erfüllung nimmst du den Prozentsatz der Vorfälle, die innerhalb des vereinbarten Zeitrahmens gelöst werden. Diese Zahl sollte möglichst nahe bei 100 % liegen, und alles unter 90 % ist ein Grund zur Sorge.

TIPP: Es lohnt sich auch, die Kundenzufriedenheit (CSAT) bei der Messung der SLA-Erfüllung zu berücksichtigen. Mit dieser Kennzahl wird gemessen, wie zufrieden die Kund:innen mit deinem Service sind. Ein hoher CSAT-Wert bedeutet, dass du die Kundenerwartungen erfolgreich erfüllst. Die gängigste Methode um Kundenzufriedenheit zu messen sind Umfragen. Diese können verschickt werden, nachdem ein Problem gelöst wurde und sollten Fragen zu Dingen wie der Geschwindigkeit der Lösung, der Qualität des Supports und der allgemeinen Erfahrung enthalten.

On-Call Time

Diese Kennzahl misst die Zeit, die dein Support-Team mit Bereitschaftsdiensten verbringt. Auch damit lässt sich die Effizienz deines Incident Management-Prozesses ermitteln und du kannst Bereiche identifizieren, in denen sich Kosten einsparen lassen.

Die Bereitschaftszeit ist der Prozentsatz der Vorfälle, die innerhalb des vereinbarten Zeitrahmens gelöst werden. Dieser Wert sollte so nah wie möglich an 100 % liegen, alles unter 95 % ist bedenklich.

CPT (Cost Per Ticket)

Diese Metrik misst die Kosten für die Behebung eines Problems – von Anfang bis Ende. Dabei werden Dinge wie die vom Supportteam aufgewendete Zeit, externe Kosten und Produktivitätsverluste berücksichtigt.

Dank der CPT kannst du Bereiche identifizieren, in denen du Einsparungen erzielen kannst durch Analyse der Methoden, die am meisten Zeit und Geld kosten. Ein hoher CPT-Wert deutet hier auf einen ineffizienten und teuren Prozess hin.

MTTA (Mean Time to Acknowledge)

Diese Kennziffer misst die durchschnittliche Zeit, die für die Bestätigung eines Vorfalls benötigt wird. Auch sie eignet sich optimal zur Verbesserung der Performance im Vorfallsmanagement.

Die MTTA wird gemessen durch den Prozentsatz der Vorfälle, die innerhalb des vereinbarten Zeitrahmens bestätigt werden. Dieser Wert sollte so nah wie möglich an 100% liegen, und auch hier sind Werte unter 95% ein klares Zeichen, diese Metrik zu verbessern.

Escalation Rate

Diese Kennzahl misst den Prozentsatz der Vorfälle, die an eine höherrangige Support-Ebene eskaliert werden müssen. Eine hohe Eskalationsrate kann auf eine Reihe von Problemen hinweisen, von unzureichenden Arbeitsabläufen bis hin zu ineffektiver Fehlerbehebung.

Die Eskalationsrate ist der Prozentsatz der Vorfälle, die innerhalb des vereinbarten Zeitrahmens eskaliert werden. Dieser Wert sollte so nahe wie möglich bei 0 % liegen, ein Wert von über 5 % ist bedenklich.

Average Incident Response Time

Diese Metrik beschreibt die durchschnittliche Zeit, die für die Behebung eines Vorfalls benötigt wird. Mit dieser Kennzahl kannst du feststellen, wie schnell dein Team in der Lage ist, einen Vorfall der richtigen Person zuzuweisen.

Es wird die durchschnittliche Reaktionszeit auf Vorfälle gemessen, die innerhalb des vereinbarten Zeitrahmens gelöst werden. Auch dieser Wert sollte so nahe wie möglich bei 100% liegen, alles unter 95% muss untersucht und behoben werden. Durch eine Verkürzung der Reaktionszeit kannst du die Lösung von Vorfällen drastisch verbessern.

First Touch Resolution Rate

Diese Kennzahl misst, wie oft ein Vorfall beim ersten Kontakt gelöst wird, d.h. ohne dass eine Eskalation an ein anderes Team oder eine andere Support-Ebene erforderlich ist. Eine hohe Erstlösungsrate ist ein Indikator für ein effektives und effizientes Störungsmanagement, denn sie bedeutet, dass die Störung schnell und effektiv bearbeitet wird.

Faktoren wie die Qualität der ersten Fehlerbehebung bis hin zu den Kenntnissen und Fähigkeiten des Supportteams wirken sich auf diese Kennzahl aus.

Incidents Over Time

Diese Kennzahl misst die Anzahl der Vorfälle, die im Laufe der Zeit (täglich, wöchentlich, monatlich, vierteljährlich, jährlich) auftreten. Sie ist eine einfache Methode, um die Effektivität deines Incident Managements zu messen und um Trends und Muster zu erkennen.

Dazu misst du den Prozentsatz der Vorfälle, die innerhalb des vereinbarten Zeitrahmens gelöst werden. Liegt dieser Wert unter 95 %, solltest du dich mit dem Problem befassen.

Wie du den Überblick über deine KPIs behältst

Da wir in einer zunehmend digitalen Welt leben, ist eine zentrale Software dein Verbündeter im Incident Management. So wie das Gehirn beim Menschen, sorgt es für den Überblick über das gesamte System. Moderne Incident Software unterstützt diesen Ansatz. Bei iLert z. B. lassen sich mit dem Metrics Feature verschiedene Datenquellen zusammenführen und damit direkt auf die hauseigenen Statusseiten projizieren. So behältst sowohl du als auch dein Team zu jedem Zeitpunkt den Überblick.

Fazit

Zu wissen, welche KPIs für die Reaktion deines Unternehmens auf Vorfälle am wichtigsten sind, ist der erste Schritt, um sie effektiv zu verfolgen. Es gibt zwar viele verschiedene KPIs, die verwendet werden können, doch gibt es grundsätzlich einige kritische Kennziffern, die für jede für jede Organisation gleich wichtig sind. Die Überwachung der entscheidenden KPIs wird dir helfen, den Erfolg deiner Maßnahmen zur Reaktion auf Vorfälle besser zu messen. Eine zentrale Incident Software ermöglicht dabei eine nahtlose Übersicht und Kontrolle – denn Incident Management ist schon stressig genug. iLert hilft deinem Unternehmen und dir, diese Souveränität und Klarheit zu erlangen.

Blog-Beiträge, die dir gefallen könnten:

Meisterung der IT-Alerting: Ein kurzer Leitfaden für DevOps-Ingenieure

Artikel lesen ›

Was ist ein Incident Commander im ITSM?

Artikel lesen ›

Was sind IT-Vorfälle und IT Alerting?

Artikel lesen ›

Starten Sie jetzt mit ilert.

Und sie bieten Ihren Kunden ein nahtloses Ergebnis.

Kostenloser Starten
Unsere Cookie-Richtlinie
Wir verwenden Cookies, um Ihre Erfahrung zu verbessern, den Seitenverkehr zu verbessern und für Marketingzwecke. Erfahren Sie mehr in unserem Datenschutzrichtlinie.
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.