Data Vault 2.0 - ein neues Konzept sorgt für Aufsehen

“A System of Business Intelligence containing the necessary components needed to accomplish enterprise vision in Data Warehousing and Information Delivery.” – Dan Linstedt

Vielleicht haben Sie schon davon gehört, vielleicht auch nicht. Aber immer wieder wird die Frage gestellt „Was ist Data Vault und warum sollten wir es einsetzen?“.

Lassen Sie uns kurz einen Blick in die Geschichte von Data Vault werfen. In den 1990er Jahren begann Dan Linstedt Data Vault 1.0 (DV 1.0) zu entwickeln und veröffentlichte im Jahr 2000 seine Erkenntnisse. Wie jedes gute System wurde auch dieses beständig weiterentwickelt und wird aktuell als Data Vault 2.0 propagiert. Wurde bei DV 1.0 der Fokus auf das Datenmodell an sich gelegt, werden bei DV 2.0 der gesamte Entwicklungsprozess sowie die Architektur mit betrachtet. Es setzt sich aus den folgenden Komponenten zusammen: Methode (Implementierung), Architektur und Modell. Dieser ganzheitliche Ansatz bietet den Vorteil, dass alle Aspekte und Risiken bei der Entwicklung eines BI-Systems mit zugrunde liegendem Data Warehouse betrachtet werden.

Als Entwicklungsmethode wird ein agiles Vorgehen angewandt, um möglichst schnell Ergebnisse zu liefern und auf Veränderungen der Anforderungen zu reagieren. Dabei werden die Konzepte SEI/CMMI Level 5, PMP, Six Sigma, TQM und agile Elemente angewandt. Durch Einsatz einer agilen Entwicklungsmethode wird ein wiederholbares, konsistentes und standardisiertes Vorgehen angestrebt.

Die Architektur verbessert die Entkopplung, gewährleistet geringe Auswirkungen bei Änderungen, bietet Managed Self-Service-BI und ermöglicht die Einbindung von NoSQL-Plattformen. Das Staging der Daten aus den Quellsystemen kann sowohl in einem relationalen Datenbanksystem erfolgen, als auch in einem NoSQL-System. Das Data Warehouse selbst wird als Raw Data Vault modelliert und legt die Daten wiederum in einer Kombination aus RDBMS und NoSQL ab. Die Information Marts stellen die Information in weiterer Folge virtualisiert dem/der EndanwenderIn zur Verfügung.

Mit Hilfe der DV-Modellierung wird eine hohe Parallelisierung bei der Beladung angestrebt, welche durch weitere Modelleigenheiten wie PIT (Point in Time) und Bridge Tabellen bei der Auswertung der Daten unterstützt wird. Durch Hashkeys können sowohl die Hubs, Links und Satelliten parallel beladen, als auch die Verbindung zwischen RDBMS und NoSQL hergestellt werden.

Fazit

Dieser ganzheitliche Ansatz zum Entwickeln eines BI-Systems bietet - gestützt auf seinen drei Säulen - die Vorteile der Skalierbarkeit, Flexibilität, Konsistenz, Wiederholbarkeit, Agilität, Anpassbarkeit und Prüfbarkeit.

Autorin: Katharina Helm