Worldwide Data Vault Consortium/Conference 2021

Muss ich jetzt meine Data Lakes einstampfen?

Aus dem diesjährigen Worldwide Data Vault Consortium, der weltweit größten Konferenz für Data Vault, haben unsere Entwickler die wichtigsten zukunftsträchtigen Informationen aus den verschiedensten Vorträgen zusammengetragen bzw. identifiziert.

Ein gehyptes Thema der diesjährigen Konferenz war das aktuelle Buzzword „Data Hubs“. Diese Data Hubs sollen die Lösung darstellen, nachdem das Konzept der „Data Lakes“ als gescheitert postuliert wurde. Doch ist es das tatsächlich?

Es gab sehr interessante Beispiele aus der Praxis:

  • Gesundheit: Krebsforschung (bei Fox Chase),
  • Online-Business: "Recommender Systems" für Online-Shops/-Portale (Amazon, Netflix & Co),
  • Industrie: selbstfahrende Autos und IT-Security: (Anti-Visus, Abwehr von Cybercrime, ...)

Diese Beispiele zeigen die Diversität der Beiträge aus unterschiedlichen Bereichen und Branchen, die sich um die Themen wie Data Vault 2.0 und Machine Learning drehten.

Die oben angeführten Use-Cases zeigen, dass es auf die Herangehensweise bei konkreten Fragestellungen ankommt, ob Data Lakes oder doch Data Hubs die optimale Lösung sind.

Eines ist aber klar: Data Lakes sind Data Hubs überlegen, vor allem wenn die Daten in unstrukturierter Form vorliegen.

Was als Data Hub propagiert wurde, sind im Endeffekt Datenbank-Technologien. Das bedeutet, dass man dort auch in Datenbanken denken muss und die Datenaufbereitung konservativ in einer relationalen Welt stattfinden muss. Data Lakes kamen gleichzeitig mit der Flut an unstrukturierten Daten auf. Das Dilemma war, dass viele versuchten, Data Lakes für Daten zu bauen, die vorher bereits strukturiert in einer Datenbank lagen. Dadurch ging die Struktur verloren, die für Abfragen nötig ist.

TIPP: Wenn also Daten bereits strukturiert vorliegen, dann sollten diese in einer strukturierten Denkwelt belassen werden. Und wenn nicht? Zur Lösung dieser Frage ist abzuwägen: wo die jeweiligen Konsumenten sind (national/international) und wo sich die jeweiligen Quellen (dezentral/zentral) - die Information betreffend - befinden.

Für technikinteressierte Menschen hier noch tiefergehende Informationen:

Aber was steckt dahinter?

Softwareanbieter wie z.B. Zetaris und Snowflake drängen auf den Markt mit ihren Clouddatenbanklösungen. Diese sollen die Lücke zwischen den NoSQL Lösungen in der Cloud und den relationalen Datenbanken in den internen Firmennetzwerken schließen. Vor allem versprechen sie, die gemeinsame Nutzung von strukturierten Daten über die Grenzen der lokalen Netze hinweg. Dabei werden auch die Vorteile der Skalierung on Demand von Rechenleistung sowie der Wegfall der Aufwände für die Administration der Datenbanksysteme ins Treffen geführt.

Darüber hinaus sind die technischen Details der Umsetzungen und Konzepte durchaus ziemlich unterschiedlich.

Ganz oberflächlich betrachtet, stellt Snowflake eine Lösung dar, die eher einer in die Cloud transferierten konservativen integrierten Datenplattform entspricht. Dabei liegen die Vorteile vor allem in der Skalierbarkeit und der leichten Publikation der Informationen. Durchaus kontrovers ist der Ansatz von Zetaris zu sehen: Hier können die Daten unterschiedlicher Datenbanken, die durchaus auch geografisch verteilt sein können, zum Zeitpunkt der Abfrage miteinander verknüpft werden, ohne dass der/die Endbenutzer*in etwas davon merkt. Vergleichbar ist das ungefähr mit einer Google-Abfrage. Auch da weiß der/die Benutzer*in nicht, wo die Informationen liegen, die er/sie als Ergebnis dargestellt bekommt.

Umso wichtiger ist es, dass wir unsere Kunden mit entsprechendem Expertenwissen bei der Auswahl der richtigen Plattform unterstützen können.

Autor: Christian Chylik