Fünf Hürden bei der Datenintegration und bewährte Lösungen aus der Praxis - von Stefan Müller, Director Big Data Analytics bei it-novum.
Daten werden erst durch Datenintegration wertvoll. Der Weg dorthin ist jedoch steinig: Datensilos, lange Ladezeiten und geringe Datenqualität sind nur einige der Hürden, die genommen werden müssen. Hinzu kommen die gesetzgeberischen Vorgaben der DSGVO. Der Artikel beschreibt Lösungen für 5 typische Datenintegrationsprobleme.
1. Von Datensilos und ihrer Beseitigung
Die meisten Unternehmensinformationen liegen isoliert vor und sind schwer zugänglich. Werden Daten getrennt in einzelnen Anwendungen abgelegt, sind Datensilos die Folge. Fehlt der Bezug zur restlichen Organisation und den übrigen Datenquellen, kann es aber auch keinen Kontext geben, um wichtige Erkenntnisse daraus zu ziehen. Deswegen gehören diese Datensilos aufgelöst.
Dabei muss man die Unterschiedlichkeit von Daten beachten: von strukturiert, semi-strukturiert bis zu unstrukturiert hat jede Datenart ihre eigenen Schwierigkeiten, was die Verarbeitung und Integration betrifft. Während Informationen aus SAP-Systemen zum Beispiel zum Typ strukturierte Daten gehören, sind Daten aus Logs, Sensoren und Bewegtbild semi- bzw. unstrukturierte Daten.
Lösung: Data Pipelines in einer modernen Datenarchitektur
Bei der Extraktion, Aufbereitung und Analyse von strukturierten, semi-strukturierten und unstrukturierten Daten aus verschiedenen Systemen helfen Data Pipelines. Dabei müssen sie kontextualisiert werden.
Strukturierte Daten: Datenintegrations-(DI) Werkzeuge für die Entwicklung von Daten-Pipelines erlauben einen flexiblen Zugriff auf strukturierte Informationen, einerlei, ob es sich dabei um ein ERP-, CRM- oder ein anderes operatives System handelt. Die Daten werden für die nachgelagerten Business Intelligence-Applikationen optimiert und in einem Data Warehouse (DWH) abgelegt.
Unstrukturierte Daten: Schätzungen zufolge liegen weltweit rund 80 Prozent der Daten in unstrukturierter Form vor. Geht es um ihre Integration, sollte eine DI-Software große Datenmengen durch Parallelisierung verarbeiten können. Ein leistungsstarkes ETL-(Extract, Transform, Load)-Werkzeug ist beispielsweise Pentaho Data Integration (PDI). Damit lassen sich Daten aus allen Arten von Quellsystemen laden, von Logdaten über Fertigungssysteme bis hin zu SAP-Lösungen.
2. Von Ladezeiten und Ressourcenaufwand
Eine besondere Schwierigkeit ist das Laden von Daten während eines bestimmten Zeitraums. Um eine gute Performance garantieren zu können, müssen zunächst die Umgebungsvariablen identifiziert und dokumentiert werden. Geklärt werden muss daneben, ob die Schwierigkeiten tatsächlich Performance-Probleme sind. Messbare Parameter helfen dabei, den Ist-Zustand für jeden konkreten Fall zu beschreiben, um nachvollziehen zu können, ob der Prozess durch die Verbesserungen wirklich effizienter geworden ist. Wichtig sind Kennzahlen wie die Gesamt-Ladezeit, das Zeitfenster, der Zeitaufwand für jeden Task etc.
Danach sollte man sich Gedanken über das weitere Prozedere machen: Lassen sich Tasks überspringen? Kann man Abläufe effizienter machen, indem bestimmte Daten nur noch monatlich statt wöchentlich neu geladen werden? Hier müssen die Stakeholder im Unternehmen eingebunden werden, z.B. Application Manager, Softwareentwickler oder Hardware Provider. Sie unterstützen bei der Auflösung möglicher Engpässe. Das Ziel ist es, mit jeder Änderung den Prozess nochmals zu analysieren bezüglich seiner Effizienz.
Lösung: Partielles Laden mit dem Delta-Mechanismus
Warum bei einem Update immer den kompletten Datensatz laden, wenn die meisten Informationen unverändert geblieben sind? Es reicht aus, nur das zu überschreiben, was sich geändert hat. Was einfach klingt, ist jedoch nicht so simpel umzusetzen. Eine Lösung ist der Delta-Mechanismus, das partielle Laden von Daten. Dabei werden die Daten unverändert von ihrem Ursprungsort in das Data Warehouse geladen. Dort wird herausgefunden, wo die Änderungen zum letzten Datensatz sind (Delta-Bestimmung). Durch den parallelen Ablauf vieler Verarbeitungsschritte kann der Delta-Mechanismus auch sehr große Datenmengen, die täglich über 24 Stunden hinweg anfallen, über Nacht in nur drei bis vier Stunden verarbeiten.
3. Datenqualität: Von duplizierten, unvollständigen und inkonsistenten Daten
Mangelnde Datenqualität kostet Geld. Doppelte, unvollständige oder inkonsistente Daten sollten deshalb bereinigt werden. Wenn sich Informationen mehrfach im System befinden, ist meistens ein schlechter Integrationsprozess daran schuld. Doppelte Daten nehmen aber nicht nur wertvollen Speicherplatz ein, sondern können zu fehlerhaften Aussagen oder Handlungen führen. Ist die Datenintegration mangelhaft, besteht das Risiko, dass Datensätze unbrauchbar werden, weil Informationen gelöscht wurden oder verloren gegangen sind. Liegen nicht alle Daten in einem einheitlichen Format vor, spricht man von inkonsistenten Daten. Dies passiert z.B. durch schlecht verwaltete Konventionen für die Dateinamen oder durch die Vermischung verschiedener Datentypen, z.B. die Angabe des Preises und der Temperatur zusammen in einem Datensatz. Solche Daten sind nicht lesbar für das System und damit nicht vorhanden.
Lösung: Automatische Integration
Wenn schon die Ursprungsdaten fehlerhaft sind, zieht sich das durch den ganzen Datenprozess. Es ist deshalb wichtig, dass Unternehmen Daten sehr sorgfältig aufnehmen und die Qualität der Datenquellen genau kontrollieren. Falsche oder unvollständige Angaben kann man zwar nie vollständig ausschließen, eine Datenqualitätssoftware hilft aber Qualitätsmängel zu erkennen. Die Software erkennt Felder, die nicht richtig oder ungenau ausgefüllt sind und kann die fehlende Information aus anderen Datenquellen abrufen und ergänzen.
Die meisten Probleme sind lösbar, indem man die anfallenden Daten strukturiert ablegt und sie automatisiert integriert. Dafür muss festgelegt werden, wie die Informationen strukturiert werden sollen, welche Datenquellen vorliegen und wie der Prozess der Datenintegration abzulaufen hat. Wichtig ist, dass die neuen Daten standardisiert benannt werden und nur in den festgelegten Formaten vorliegen. Mit einer solchen strukturierten und verbindlichen Datenablage tut sich die IT bei späteren Erweiterungen oder Aktualisierungen wesentlich leichter.
4. Streaming-Daten: Von den Grenzen konventioneller ETL-Tools
Um Informationen aus verschiedenen Quellen (CRM, ERP, Fertigung etc.) zu extrahieren und in das Data Warehouse zu laden, setzen viele Organisationen ETL-Anwendungen ein. Normale ETL-Tools wie das Complex Event Processing eigenen sich aber nicht dafür, mehrere Systeme mit Echtzeit-Datenfeeds synchron zu halten. Data Warehouses eignen sich für historisch-deskriptive Analysen, nicht aber für die Verarbeitung von Streaming-Daten, die eine hohe Aktualisierungsgeschwindigkeit haben.
Lösung: Kombination aus Data Warehouse mit Streaming Engine
Eine starke Beschleunigung der Datenintegration mit Fast-Echtzeit-Verarbeitung lässt sich durch das Vorschalten einer Streaming Engine vor die ETL-Anwendung erreichen. Damit können auch Maschinendaten verarbeitet werden. Sollen die Daten auf einem Live-Dashboard angezeigt werden, muss eine Datenintegrationssoftware eingesetzt werden. Damit landen die Daten direkt aus dem ETL-Tool im Dashboard, ohne den Umweg über das Data Warehouse zu nehmen.
Sollen die Streaming-Daten auch im Data Warehouse liegen, ist es sinnvoll, sie aus der Streaming Engine zusätzlich in das Data Warehouse zu übertragen. Abhängig vom Datenaufkommen sollte das mehrfach täglich oder stündlich passieren.
5. Gesetzliche Regelwerke beachten
Viele Unternehmen müssen regulatorische Vorgaben einhalten und Meldepflichten erfüllen. Auch hierfür ist die Integration und Verarbeitung von Daten essentiell. Die hier eingesetzten Systeme liegen nicht nur in den Unternehmen selbst, sondern auch bei externen Partnern, Agenturen oder Behörden.
Ein Beispiel: Vom Nachweis von Eigenmitteln über die Meldung von Großkrediten bis zur Vorlage korrekter Produktbewertungen müssen Banken eine Reihe von Meldepflichten erfüllen. Hinter einer Meldung liegen Prozesse, die Informationen aus verschiedenen Systemen integrieren, die meisten davon extern: Zentralbanken, Ratingagenturen, Schufa oder Marktdatenprovider wie Reuters oder Bloomberg.
Diese Datenintegrations- und -verarbeitungsprozesse sind sehr komplex. Da die Regelwerke und ihre Komplexität weiter zunehmen, ist es längst unmöglich geworden, diese Prozesse manuell durchzuführen.
Lösung: Digitalisierung von Geschäftsprozessen
Zur Automatisierung können in IT-Abläufen Business-Prozesse, die große Mengen von Daten verarbeiten, abgebildet werden. Das senkt nicht nur das Fehlerpotenzial, sondern lässt die Verarbeitung großer Datenmengen in kurzer Zeit sowie die Erfüllung gesetzlicher Dokumentationspflichten zu.
Datenintegrationssoftware bildet einzelne Prozessschritte ab und integriert die involvierten Daten. Somit wird die Zeit für die Aufbereitung und Analyse der Daten stark verringert. Beispielsweise müssen dadurch Compliance-Verantwortliche nicht jedes Mal Informationen neu verknüpfen, wenn sie einen Bericht erstellen, weil die Abläufe bereits eingerichtet sind. Es werden also nicht nur Ressourcen gespart, sondern die Prozesse gewährleisten auch, dass regulatorische Vorgaben eingehalten werden können.
Ein weiterführendes Whitepaper zum Thema „Die 5 besten Lösungen für Datenintegration“ mit einer ausführlichen Beschreibung der Probleme und ihrer Lösungen kann hier kostenlos herunterladen werden (Link).