Was ist Incident Management?
Incident Management (dt. Vorfallmanagement) bezeichnet einen zentralen Bestandteil des IT-Service-Managements (ITSM), der darauf abzielt, Störungen und Unterbrechungen im Betriebsablauf schnell und effektiv zu identifizieren, zu dokumentieren und zu beheben.
Ziel dieses Prozesses ist es, negative Auswirkungen von unerwarteten Ereignissen auf den Servicebetrieb zu minimieren und die normale Funktionalität schnellstmöglich wiederherzustellen. Incidents können dabei vielfältige Störungen umfassen, von technischen Problemen bis hin zu sicherheitsrelevanten Vorfällen, die einen normalen Betrieb verhindern oder beeinträchtigen.
Das Incident Management zeichnet sich durch eine strukturierte Vorgehensweise aus, die eine klare Eskalationsstruktur, effektive Kommunikation und kontinuierliche Verbesserungsmaßnahmen einschließt. Durch die frühzeitige Erkennung und zügige Bearbeitung von Incidents trägt dieser Prozess dazu bei, den Betrieb des Unternehmens bei Störungen zu gewährleisten, die Servicequalität zu sichern und die Kundenzufriedenheit zu erhöhen.
Teilbereiche des Incident Managements
Incident Response Management
Das Ziel im Incident Response Management ist die schnelle Reaktion auf Incidents. Ein Incident Response Plan definiert alle notwendigen Aktionen und Verantwortlichkeiten. Das Incident Response Management beschreibt den operativen Bereich des Incident Managements.
Security Incident Management
Das Security Incident Management ist auf die schnelle Reaktion auf sicherheitsrelevante Vorfälle spezialisiert. Meist haben diese Vorfälle eine hohe Priorität – es gilt eine besondere Sorgfaltspflicht, Schäden von Kunden und dem eigenen Unternehmen abzuhalten.
Wird im Incident Management ein sicherheitsrelevanter Vorfall registriert, kommt das Security Incident Management zum Einsatz. Das Security Incident Response Team nutzt automatisierte Sicherheitsprozesse und spezialisierte Incident Response Tools, die eine schnelle und strukturierte Reaktion ermöglichen, um die Security Incidents schnellstmöglich zu beseitigen.
Unterscheidung zwischen Incident und Problem Management
Im IT-Service-Management bezeichnet ein Incident eine kurzfristige Störung oder einen unerwarteten Vorfall, der den normalen Betriebsablauf eines Unternehmens beeinträchtigt und rasch behoben werden soll. Ein Incident ist ein für sich stehendes und somit isoliertes Ereignis.
Ein Problem hingegen ist eine zugrundeliegende Ursache für eine Störung, die zu wiederkehrenden Incidents (dt. Vorfälle) führt. Das Problem-Management zielt darauf ab, diese Ursachen zu identifizieren, zu analysieren und langfristige Lösungen zu implementieren, um sich wiederholende Incidents zu verhindern.
Während das Incident Management auf die schnelle Wiederherstellung des normalen Betriebs nach einem Vorfall abzielt, fokussiert sich das Problem-Management auf nachhaltige Lösungen zur Vermeidung wiederkehrender Störungen im Unternehmen. Beide Prozesse werden bei Bedarf koordiniert, um eine umfassende Servicequalität zu gewährleisten.
Die Bedeutung im IT-Service-Management
Das IT Incident Management spielt eine zentrale Rolle im IT-Service-Management, indem es darauf abzielt, unerwartete Störungen im Betriebsablauf schnell und effizient zu identifizieren, zu dokumentieren und zu beheben.
Das Ziel des Prozesses liegt in der Minimierung von Auswirkungen eines Incidents auf den Servicebetrieb, der Sicherstellung eines reibungslosen Ablaufs und der Gewährleistung einer hohen Kundenzufriedenheit. IT-Teams sind mit einem strukturierten Incident Management in der Lage, eine zeitnahe und effiziente Reaktion auf Störungen zu gewährleisten. Das gewährleistet die Einhaltung der im Service Level Agreement (SLA) definierten Service Level.
ITIL® Incident Management
Im Rahmen des IT-Service-Managements orientiert sich das Incident Management oft an Best Practices, wie sie im IT Infrastructure Library (ITIL) Framework definiert sind. ITIL bietet Richtlinien und Empfehlungen für effektive Serviceprozesse, darunter auch das Incident Management. Durch die Implementierung von ITIL-Prinzipien kann eine IT-Organisation standardisierte und effiziente Herangehensweisen an das Incident Management entwickeln, was zu einer verbesserten Servicequalität und einem reibungslosen Betriebsablauf führt.
Ziele des Incident Managements
Das Incident Management im IT-Service-Management verfolgt mehrere entscheidende Ziele, um einen effizienten und störungsfreien Betriebsablauf sicherzustellen.
Schnelle Identifizierung und Behebung von Störungen
Durch eine effiziente Erfassung und schnelle Reaktion auf einen Vorfall begrenzt es die Störung im Betriebsablauf auf einen möglichst kleinen Rahmen und sorgt für eine zügige Wiederherstellung.
Minimierung von Auswirkungen auf den Betrieb
Durch eine klare Klassifizierung und Priorisierung von Incidents sowie gezielte Eskalationen wird sichergestellt, dass kritische Geschäftsprozesse trotz Störungen weitgehend unbeeinträchtigt bleiben.
Gewährleistung eines reibungslosen Servicebetriebs
Durch effektive Kommunikation, transparente Informationen für betroffene Benutzer und kontinuierliche Verbesserungsmaßnahmen sollen zukünftige Störungen verhindert und die Servicequalität kontinuierlich verbessert werden.
Der Incident-Management-Prozess
Der Incident-Management-Prozess spielt eine entscheidende Rolle bei der effizienten Störungsbewältigung. Das Ziel des Prozesses besteht darin, den Incident so schnell wie möglich zu beheben.
Abläufe, Rollen und Verantwortliche sorgen im Incident-Management-Prozess dafür, dass ein Vorfall strukturiert behandelt und dokumentiert wird. Der Prozess kann von Anwendern, Kunden oder dem Anbieter eröffnet werden, um einen Vorfall oder eine Störung zu melden.
Im IT-Service-Management wird der Prozess für das Incident-Management, neben weiteren Service-Prozessen, oft durch ein ITSM Tool zur Verfügung gestellt. Die Prozesse lassen sich dann individuell an die Bedürfnisse des Unternehmens anpassen.
Wichtige Phasen im Incident Management Prozess
Incident – Erfassung und Registrierung
Zunächst wird der Incident erfasst und dokumentiert. Ziel ist es, den Vorfall genau zu erfassen und zu überprüfen, ob es sich um einen neuen oder schon vorhandenen Incident handelt.
Kategorisierung und Priorisierung
Die Untersuchung und Diagnose eines Incidents ermöglicht eine Kategorisierung nach Schwere und betroffenem Service oder Produkt. Ziel ist eine schnelle Fehlerlösung. Incidents mit hoher Dringlichkeit werden über die Priorisierung bevorzugt und Incidents mit niedriger Priorisierung entsprechend weniger dringlich behandelt.
Der Major Incident
Der Major Incident hat eine besondere Bedeutung im Incident Management. Er hat definitionsgemäß eine gravierende Auswirkung auf den Geschäftsbetrieb und kann ein Unternehmen substanziell gefährden. Ein Major Incident muss folglich mit hoher Dringlichkeit behandelt werden. Hierfür wird oft ein Major Incident Response Team definiert, um eine schnellstmögliche Reaktion zu gewährleisten.
Falls tiefgreifendes und spezielles Fachwissen erforderlich ist, wird der 3rd Level Support oder auch eine entsprechende Fachabteilung zur Lösung einbezogen, ohne dabei die vorgeschalteten Support-Level zu durchlaufen.
Monitoring und Eskalationsmanagement
Durch das fortlaufende Monitoring wird sichergestellt, dass der Incident in den definierten Lösungszeiten gelöst werden kann. Bei Überschreitung der Lösungszeiten wird der Incident an den nächsten Support-Level übergeben bzw. die erforderlichen Maßnahmen zur Lösung eingeleitet.
Behebung durch den 1st, 2nd oder 3rd Level Support
Der Incident wird innerhalb der vereinbarten Lösungszeit beseitigt. Bei der Überschreitung der Lösungszeit oder falls erkannt wird, dass das Problem im 1st Level nicht gelöst werden kann, wird an den 2nd Level Support oder 3rd Level Support übergeben.
Kann eine Lösung nicht herbeigeführt werden, wird der Incident als Problem erfasst und zur Fehlerbehebung an das Problem-Management übergeben.
Abschluss und Bewertung des Incidents
Mit der erfolgreichen Lösung des Incidents wird die Post-Mortem-Analyse und Dokumentation der Lösungswege durchgeführt, um eine Wiederholung des Incidents zu verhindern oder bei wiederholtem Auftreten auf die gewonnenen Erkenntnisse (engl. lessons learned) zurückgreifen zu können.
Bereitstellung notwendiger Informationen an alle Stakeholder
Mit der Kenntnisnahme des Incidents sollen alle betroffenen Stakeholder über mögliche Beeinträchtigungen oder sicherheitsrelevante Aspekte informiert werden. Dies ermöglicht es ihnen, ihre Handlungen entsprechend der gegebenen Umstände anzupassen.
Incident Management Reporting
Das Reporting des Incident Managements ermöglicht eine Dokumentation aller KPIs und bildet so die Grundlage für die kontinuierliche Verbesserung des Service Managements, der damit verbundenen Prozesse und Service Levels.
Kommunikation im Incident Management
Eine strukturierte Kommunikation ist ein essenzieller Bestandteil eines erfolgreichen Incident Managements.
Informationen zur richtigen Zeit, im angemessenen Umfang und Detailtiefe an die verschiedenen Stakeholder zu liefern, führt zu einer schnelleren Lösung des Incidents und somit einem besseren Serviceerlebnis. Bei Major Incidents kann eine strukturierte und effiziente Kommunikation sogar eine Frage des Fortbestehens des Unternehmens sein.
Interne und externe Kommunikation bei Störungen
Im Incident Management unterscheidet man zwischen der internen und externen Kommunikation bei einem Vorfall:
- Die interne Kommunikation ist für die Lösung des Incidents und die Verbesserung des Incident Managements notwendig.
- Die externe Kommunikation ist für die Information der Kunden und anderer Stakeholder verantwortlich.
Sichtbarkeit und Transparenz sind wichtige und vertrauensbildende Eigenschaften des Incident Managements. Bei einem Vorfall sollte die Kommunikation mit der entsprechenden Sorgfalt und dem Bewusstsein der Informationspflicht gegenüber Kunden und Mitarbeitern erfolgen, damit Missverständnisse oder Gefahren – durch fehlerhafte oder gar ausbleibende Kommunikation – vermieden werden.
Verwendung von Incident-Tickets
Ticketsysteme haben im Incident Management erhebliche Vorteile. Sie ermöglichen nicht nur eine strukturierte Kommunikation und Revisionssicherheit, sondern können auch den Status der Bearbeitung definieren. Durch das Rollen- und Rechtemanagement lassen sich Zuständigkeiten definieren und der Schutz von Daten gewährleisten.
Wird ein Ticketsystem für die Bearbeitung des Incidents verwendet, werden in dem Ticket zumindest Priorität, Zuständigkeiten und die Art von Incident definiert. Kann der Incident nicht gelöst werden, wird ein Problem-Ticket eröffnet, das wiederum den Prozess für das Problem-Management auslöst.
Informationstransparenz für betroffene Benutzer
Ein transparenter Informationsfluss ist für eine effektive Behandlung des Incidents und der zugehörigen Kommunikation unerlässlich. Nur wer alle notwendigen Informationen zur Verfügung hat, kann angemessen auf einen Vorfall reagieren und zu dessen Lösung beitragen.
Eine transparente Kommunikation ist auch für ein vertrauensvolles Verhältnis zwischen Servicenehmer/ Kunden und dem Service-Erbringer notwendig und trägt dazu bei, Schäden zu verhindern, die durch mangelhaftes Informationsmanagement entstehen können.
Rollen im Incident Management
Seit ITIL® 4 wird das Incident Management im ITSM als eine flexibel an das Unternehmen und seine Bedürfnisse angepasste Praxis beschrieben.
Mehrere Rollen können in einem Incident Response Team von einem Mitarbeiter abgedeckt werden und nicht jede Rolle muss vertreten sein.
Service Desk
Der Service Desk ist für die Kommunikation zu den Servicenehmern verantwortlich. In diesem Fall nimmt er Meldungen zu einem Vorfall oder Störungen entgegen und leitet diese an das Incident Management weiter. Ist eine Störung auf Seiten des Service-Erbringers bekannt, informiert der Service Desk proaktiv die Servicenehmer.
Incident Manager
Der Incident Manager ist für den Prozessablauf und die Dokumentation des Incidents verantwortlich. Er koordiniert die Durchführung des Incident-Management-Prozesses und ist somit auch Prozess-Verantwortlicher. Kann der Incident nicht im 1st Level Support gelöst werden, eskaliert er den Incident in den nächsten Service Level und leitet alle weiteren Maßnahmen ein.
Im Falle eines Major Incidents hat der Incident Manager die Aufgabe, alle für die Behebung notwendigen Fachabteilungen und Experten in den Incident-Management-Prozess einzubeziehen und geschäftskritische Probleme mit höchster Priorität zu behandeln.
1st Level Support
Der 1st Level Support nimmt die Störungen entweder vom Service Desk oder direkt entgegen. Er registriert und dokumentiert den Incident und versucht schnellstmöglich eine Lösung zur Wiederherstellung des ordnungsgemäßen Betriebes zu erarbeiten. Ist er dazu nicht in der Lage, leitet er den Incident an den 2nd Level Support weiter.
2nd Level Support
Der 2nd Level Support übernimmt Störungsmeldungen vom 1st Level Support. Er arbeitet mit Entwicklern und Experten anderer Bereiche zusammen, um den Incident so schnell wie möglich zu lösen.
3rd Level Support
Der 3rd Level Support ist die finale Stufe der Eskalation im Incident. Oft sind hier auch externe Experten eingebunden, die über ein fundiertes Wissen zu Produkten oder speziellen technischen Problemen verfügen.
Kontinuierliche Verbesserung im Incident Management
Um aus den Erfahrungen eines Incident zu profitieren, sind die Aufarbeitung der getroffenen Maßnahmen, des Prozessablaufs und eine Dokumentation aller relevanten Informationen wichtig. Nur so sind fundierte Einblicke in die Servicequalität und entsprechende Verbesserungen möglich.
Analyse von Incident-Daten
Alle Daten zu dem Incident werden analysiert und entsprechend dokumentiert, um bei einer möglichen Wiederholung schneller und angemessen reagieren zu können.
Schulung und Sensibilisierung der Mitarbeiter für effektiveres Incident Management
Die fortlaufende Schulung der Mitarbeiter im Unternehmen sorgt dafür, dass Incidents sicher erkannt und effektiv behandelt werden. Das erworbene Wissen und die Erfahrungen aus dem Incident Management sollen die Mitarbeiter und insbesondere das Incident Response Team in die Lage versetzen, schneller zu reagieren.
Implementierung von Präventivmaßnahmen
Die gewonnenen Erfahrungen fließen in Maßnahmen ein, die eine Wiederholung des Incidents oder aufgetretene Probleme im Incident-Management-Prozess zukünftig verhindern sollen.
Erfahren Sie, wie OTRS Ihr Incident Management unterstützen kann. Wir bieten maßgeschneiderte Lösungen für ITSM und Security Incident Management.
Kategorien
- Allgemein (95)
- Automation (4)
- Corporate Security (26)
- Customer Service (31)
- Digitale Transformation (55)
- ISMS (1)
- ITSM (41)
- Leadership (22)
- Mit OTRS arbeiten (16)
- OTRS im Einsatz (8)
- Prozesse (7)
- Über die OTRS Group (22)
- Unternehmenskultur entwickeln (13)