"Von dieser Strategie profitieren alle"

Stephan Kasulke ist bei T-Systems weltweit für das Thema Qualität verantwortlich. Er holt Hersteller und mitbewerber an Bord einer Initiative, um die Stabilität von IT-Services über Unternehmensgrenzen hinweg zu verbessern.

Report: Herr Kasulke – Sie haben sich den Begriff Zero Outage auf die Fahnen geheftet. Worum geht es hier?

Stephan Kasulke: Einfach gesagt, versuchen wir für Unternehmenskunden maximale Stabilität und Zuverlässigkeit bei IT-Services herzustellen. Viele Kunden beschreiten heute einen Weg der Digitalisierung. Geschäftsmodelle sind ohne IT nicht mehr möglich. Deshalb wird das Thema der Ausfallssicherheit von Jahr zu Jahr wichtiger. Die Toleranz gegenüber Ausfällen der IKT-Infrastruktur nimmt extrem ab. Wir versuchen, mit unserem Zero-Outage-Programm alles dafür zu tun, Ausfälle zu vermeiden, aber auch richtig in Krisensituationen zu reagieren, wenn einmal etwas passiert.

Report: Sie bieten damit nicht nur IT-Lösungen, sondern propagieren auch eine Unternehmensstrategie – seit wann?

Kasulke: Wir haben diese Strategie, die sich an drei Ps orientiert – People, Processes and Platforms – zunächst 2011 im eigenen Haus eingeführt. T-Systems hatte damals selbst gravierende Probleme hinsichtlich der Ausfallssicherheit. Wir haben aber aus der Not eine Tugend gemacht. Seitdem gibt es Jahr für Jahr Verbesserungen für unsere Kunden zu verzeichnen, die wir anhand von Kennzahlen festmachen können. Niemand wird Ihnen garantieren, dass Ausfälle hunderprozentig vermieden werden können. Das schafft kein IT-Unternehmen, das gilt auch für das Riesenthema IT-Sicherheit. Was aber sehr wohl funktioniert, ist das Streben nach Perfektion im Betriebsalltag, um Risiken zu minimieren. Zero Outage wird nie Realität, aber man nähert sich an.

Report: Können Sie ein Beispiel geben, worauf es bei den angesprochenen Punkten ankommt?

Kasulke: Der Bereich People behandelt zunächst altmodisch anmutende Begriffe wie Disziplin, Ordnung und Sorgfalt – letztlich benötigt eine moderne IT-Infrastruktur aber genau diese Werte. Beim Faktor Mensch ist wichtig, anzuerkennen, dass Fehler nun einmal passieren können. Die Frage ist, wie in einem Unternehmen damit umgegangen wird. Ehrlichkeit ist hier das Zauberwort: Fehler müssen offen zugegeben werden können, damit man überhaupt daraus lernen kann. Das beginnt beim Management, geht durch alle Ebenen und betrifft Verhaltensregeln und auch Schulungen.

Dann der Bereich Prozesse: Bei jeder Veränderung in einem System – im Netzwerk, auf den Rechnern der Anwender, in einer Unternehmenssoftware – droht die Situation, dass hinterher gar nichts mehr funktioniert. Das gilt für den Arbeitsplatz zuhause ebenso wie für die IT eines Großunternehmens. Also muss definiert werden, wie Patches eingespielt werden, wie vorab Sicherungen vorgenommen werden. Das Einspielen von Sicherungen muss durchgespielt werden – es braucht also ausreichende Tests, bevor ein System wieder in den Live-Betrieb geht. Falls dann etwas nicht funktioniert, kann das Ganze wieder in seinen Originalzustand versetzt werden – das meine ich mit diszipliniertem Arbeiten. Das ist ganz etwas anderes, als zuerst einmal eine Systemänderung durchzuführen, um dann zu schauen, was sich da draußen überhaupt abspielt.

Manchmal sind die Dinge tatsächlich so banal. Etwas ausführlicher beschrieben, geht es weiters um Planung, Dokumentation und um ein Vier-Augen-Prinzip auch gemeinsam mit den Softwarepartnern – beispielsweise einer SAP oder IBM. Die Mischung aus definierten Prozessen und menschlichem Verhalten – es sind ja immer Menschen, welche diese Schritte setzen – ist elementar. Bei Plattformen geht es dann um eine technologische Komponente, in der etwa Systeme doppelt oder dreifach ausgelegt sind, um bei Störungen von Einzelteilen den laufenden Betrieb gesamt zu erhalten.

Report: Wenn wir von ausgiebigen Systemtests und redundanter IT-Infrastruktur sprechen – dieser Anspruch an Qualität ist letztlich eine Frage der Leistbarkeit.

Kasulke: Das stimmt schon, aber wenn man hinterher einen Kunden verliert, wird das noch viel teurer. Neben den Kosten ist übrigens oft auch Geschwindigkeit ein Argument, warum eine Qualitätsoffensive nicht sofort von allen geschätzt wird. Denn sie bedeutet ja mitunter wochenlange Tests und Vorbereitungen in Projekten. All jene, die schon einmal einen Ausfall eines geschäftskritischen Prozesses erlebt haben, warten aber gerne etwas länger, bevor jemand überhastet einen Hebel umlegt. Wenn bei einem Großkunden das Risiko stillstehender Fabriken droht, ist zum Beispiel ein Testzeitraum von drei Wochen kein Thema. Bei kleineren Kunden und auch unkritischen Systemen kann man dann aber auch einmal kleinere Zeiträume nehmen – das muss man einfach abwägen.

Report: Wie soll ein Qualitätsmanagement auf Plattform- und Produktebene funktionieren? Immerhin sind dort meist unterschiedliche Hersteller betroffen.

Kasulke: Hier kommt unsere im Vorjahr ins Leben gerufene Initiative ins Spiel. Wir hatten in den vergangenen Jahren gesehen, dass es viele Herausforderungen gibt, die im Einflussbereich unserer Lieferanten liegen. T-Systems verwendet ja Hardware, Software und Basisservices unterschiedlichster Hersteller. Wir haben in den letzten vier Jahren zusätzlich 26 Mio. Euro in die Servicequalität mit unseren Großlieferanten investiert – etwa um Störungen mit einem Incident-Management gemeinsam zu bearbeiten. Nachdem solche Maßnahmen aber eigentlich allen zugutekommen, haben wir uns dann im letzten Jahr zur Gründung einer Brancheninitiative entschlossen.

Der Verein »Zero Outage Industry Standard« sammelt jetzt Wissen aus unterschiedlichsten Bereichen und arbeitet an einen gemeinsamen Standard zu diesem Thema, der allen zugute kommen soll. Diese direkte Zusammenarbeit mit unseren Lieferanten ist wichtig, da wir ja auch nicht selbst in allen Bereich die nötigen Kompetenzen für geeignete Maßnahmen haben. Bei Personal und Prozesse mag das schon sein, bei Technologie wie etwa Storage ist dies schon nicht mehr so. Im Verein gibt es einige Arbeitsgruppen. So erarbeiten wir mit Dell EMC, Hitachi Data Systems und NetApp, wie IT-Speicherlösungen für einen Zero-Outage-Standard gebaut, implementiert und betrieben werden können.

Eine andere Gruppe behandelt das Thema Router: In Rechenzentren wurden bisher teurere, verlässlichere Geräte für den Netzwerkverkehr eingesetzt. Es braucht aber auch dort ein zwischen den Herstellern abgestimmtes Designprinzip, damit ein Router bei einem Ausfall eines anderen dessen Aufgaben nahtlos übernehmen kann. Außerdem sind werkseitig voreingestellte Standard-Passwörter immer noch eine große Sicherheitslücke. Ein Industriestandard könnte Router-Hersteller dazu verpflichten, verschiedenartige Initial-Passwörter zu vergeben.

Für IT-Dienstleister bedeutet dieses Engagement, in Zukunft noch bessere Verfügbarkeiten bieten zu können. Davon profitieren alle – auch Lieferanten und Kunden.

Hintergrund: Über Zero Outage

Mit »Zero Outage« hat der IKT-Dienstleister T-Systems im Jahr 2011 ein Programm zur Qualitätsverbesserung implementiert. Es sorgt dafür, dass der IT-Betrieb sicher und stabil bleibt, Risiken schwinden und die IT zum Katalysator effizienter Geschäftsprozesse wird. Basis hierfür sind unter anderem eine strukturierte Projektplanung, zertifizierte Mitarbeiter und eine ständige Überprüfung von Systemen und Leistungen. Das 3-P-Konzept (Personal – Prozesse –Plattformen) treibt Qualitätsmaßnahmen auf allen Unternehmensebenen und bindet Lieferanten ein.