Datenqualitätsmanagement (DQM) dient der Maximierung von Datenqualität. Dazu muss das Unternehmen vorhande „Daten-Metriken“ integrieren und auswerten. Um dies umzusetzen, muss das Unternehmen sowohl technische als auch fachliche Komponenten definieren.
Dieser Beitrag beschreibt die technischen Komponenten.
Technischer Aufbau eines Datenqualitätsmanagements
Für die technische Umsetzung müssen zumindest diese Komponenten definiert werden:
- Datenquelle: Woher stammen die Metriken, die gemessen werden sollen und welche sind es?
- System für Datenhaltung: Wie werden die Metriken persistiert?
- DQ-Controlling-Tool: Mit welchem Tool steuert das Unternehmen das DQM?
- DQ-Regeln: Wie werden die Metriken behandelt (z. B. was sind Extremwerte, auf die reagiert werden muss)?
- Reporting: Wie wertet das Unternehmen die Metrik aus?
Datenquelle
Als mögliche Datenquelle dienen alle im Unternehmen eingesetzten Tools und Systeme, die Metriken liefern.
Mögliche Datenqualitäts-Metriken
Nachfolgend sind beispielhafte Datenqualitäts-Metriken aufgelistet
- Performance-Metriken: z. B. Laufdauer von ETL-Jobs
- Auslastungs-Metriken: z. B. Festplattenverbrauch oder CPU-Auslastung
- Mengen-Metriken: z. B. Beladungsmenge (d. h. Anzahl ein- und ausgespielter Daten), Anzahl der ETL-Durchläufe
- Fehler-Metriken: z. B.: Anzahl der Fehler im ETL-Job
- Status-Metriken: z. B. Abbildung aktueller System-Stati (running, pending, dead, alive etc.)
Diese Metriken müssen im Unternehmen langfristig gespeichert werden. Das geschieht im Metric DataVault.
System für Datenhaltung – Metric Data Vault
Das Metric Data Vault persistiert die DQ-Metriken der verschiedenen Systeme. Der Aufbau entspricht – mit kleineren Ausnahmen – einem Raw Vault nach Data Vault 2.0-Standard.
Der Data Vault-Standard eignet sich sehr gut geeignet, weil die Entwickler ihn leicht erweitern können. So können sie das Metric DataVault ähnlich wie das restliche Data Vault iterativ entwickeln. D. h. das Unternehmen kann mit den essentiellsten Bereichen starten und sukzessive neue DQ-Regeln (siehe unten) oder Metriken integrieren.
Controlling-Tool für Datenqualitätsmanagement
Mit dem DQ-Controlling-Tool steuert das Unternehm das Datenqualitätsmanagement technisch und fachlich. Eine wichtige Aufgabe des Tools ist es, technische und fachliche DQ-Regeln festzulegen. Zu diesen Regeln gehören u. a. Schwellenwerte (d. h. Normalwerte und Extremwerte für Metriken) oder Berechtigungen.