DWH-Automatisierung – der „Heilige Gral“?

Der „Heilige Gral“ der DWH-Entwicklung

Die Automatisierung von DWH-Entwicklungsprozessen ist bereits seit vielen Jahrzehnten Thema in verschiedenen BI Competence Centern der Welt. Die Möglichkeit, ein ganzes Data Warehouse quasi mit einem einzigen Knopfdruck umsetzen zu können, birgt so viel Potenzial, dass man nicht umsonst vom „Heiligen Gral“ der DWH-Entwicklung spricht. 

Ideen verschiedenster Softwareanbieter haben das Thema in den letzten Jahren wieder befeuert. Mit der Entwicklung von neuen Modellierungsansätzen (wie DataVault) und Systemen (wie dem RED der Firma WhereScape) ist die Branche dem Ziel mit großen Schritten näher gekommen.

Aber einige Fragen stehen dem Umstieg auf die neue Methode noch im Weg…

  • Wiegt der Nutzen den Aufwand der Umstellung auf?
  • Die Prozesse sind doch alle eingespielt – warum sollte man da etwas ändern?
  • Können auch komplexe Anforderungen abgedeckt werden?
  • Erhalte ich dabei auch das durch die Data Lineage bestehende Vertrauen in die Daten?
  • Unterstützt mich mein/e BeraterIn auch bei der Umsetzung, obwohl wir weniger EntwicklerInnen benötigen?

Whitepaper solvistas PAP

Sämtliche Vorbereitungen für Data Warehouse Automation schon getroffen? Dieses Dokument sagt Ihnen ob noch etwas zu tun ist ... 

Jetzt herunterladen

Zentraler Baustein – Data Lineage

Um auch große DWH-Landschaften in den Genuss einer automatischen Generierung von ETL-Prozessen zu bringen, ist es nötig, das etablierte System zu nutzen und entsprechend anzupassen. Die Software-Unterstützung bei der Entwicklung muss dabei von der Modellierung bis hin zur Reporterstellung reichen. In allen Schritten des Entwicklungsprozesses sind entsprechende Metadaten zu generieren und zentral abzuspeichern.

IBM löst diese Aufgabe mit der Infosphere Software Suite und erfüllt damit eine der zentralsten Anforderungen der FachanwenderInnen – die Anzeige einer Data Lineage in Echtzeit. Damit ist es möglich, die Datenherkunft vom Report bis zurück zur Datenquelle anzeigen zu lassen und das bis zu den Details auf Attribut- und Transformationslevel. Diese Umstände sind nicht nur perfekte Voraussetzung für FachanwenderInnen, sondern auch für die automatische Generierung der ETL-Prozesse, da die benötigten Metadaten damit in ausreichender Quantität und Qualität vorhanden sind.

Woher kommen die Metadaten?

Es ist möglich, den Metadaten-Speicher der IBM Infosphere Suite direkt auszulesen, wodurch Schnittstellen und Systembrüche vermieden werden können. Zudem hat dies den Vorteil, dass die Metadaten immer aktuell und vollständig zur Verfügung stehen. Die Befüllung dieses Repository erfolgt nach dem Vorgehensmodell der IBM direkt durch die Softwarekomponenten des Information Servers. Für die EndanwenderInnen ist somit garantiert, dass sie keinerlei überflüssigen Mehraufwand im Vergleich zur bisherigen Nutzung der einzelnen Komponenten haben. Die erfassten und gespeicherten Metadaten werden anschließend verwendet, um verschiedenste ETL-Templates zu befüllen und anzupassen. Dies erfolgt durch den von solvistas entwickelten DWH-Generator. Dieser ist in Java umgesetzt, wodurch es möglich ist, eine komplexere (fachliche) Logik in die ETL-Prozesse einfließen zu lassen. Dadurch kann garantiert werden, dass auch für zukünftige Infosphere Versionen eine zuverlässige und optimale Umsetzung der ETL-Prozesse erfolgen kann. Nach der Generierung werden die Prozesse in die ETL-Entwicklungskomponenten von IBM – DataStage – eingespielt und können dort als Jobbausteine angezeigt und weiterverwendet werden.

Im Gegensatz zu anderen DWH-Generatoren werden bereits bestehende und etablierte Systemstrukturen verwendet und optimal genutzt. Dies hat zur Folge, dass beispielsweise die Data Lineage erhalten bleibt und dadurch bereits vorhandene Mehrwerte Bestand haben. Zudem ermöglicht die Erstellung von DataStage-Komponenten, dass zukünftige Änderungen der Jobs möglich sind und somit fachlich komplexe Lösungen erstellt werden können. So kommen zum einen die FachanwenderInnen in den Genuss einer schnellen Umsetzung ihrer Anforderungen bei gleichzeitiger Erhaltung der bekannten System- und Funktionslandschaft. Zum anderen wird die Arbeit der EntwicklerInnen erleichtert, da der Generator die wiederkehrenden Tätigkeiten übernimmt und somit Zeit für unternehmenskritische Entwicklung frei wird.

Fazit: Das Generieren von ETL-Prozessen ist heute nicht mehr nur bei neuen oder kleinen DWHs sinnvoll, es können mit der IBM Infosphere Suite und dem DWH-Generator von solvistas sogar problemlos beliebig große Systeme erstellt werden. Auch komplexe Lösungen sind machbar und bestehende Mehrwerte wie die Data Lineage bleiben erhalten.

Autor: Karsten Bergelt