Data Warehouse Automation Tools

Open Source vs. lizenzpflichtige Produkte

Oftmals wird in Entwicklungsprozessen viel Zeit für “Copy-Paste”-Tasks aufgewendet. Um diese Zeit einzusparen und somit effizienter zu arbeiten, sind Automatisierungs-Tools nützlich. Das sind Softwareprodukte, die manuelle, sich wiederholende Tätigkeiten automatisiert abarbeiten. Möchte man ein derartiges Tool einsetzen, muss man sich zwischen Open Source und Lizenzsoftware entscheiden. Wir möchten hier Unterscheidungsmerkmale sowie unsere Erfahrungen und Empfehlungen teilen.

Unter Open Source Tools versteht man Tools, deren Erwerb kostenlos möglich ist und bei welchen der Quellcode der Software verändert werden kann. EntwicklerInnen können also zusätzliche Funktionalitäten erstellen und auch auf Erweiterungen aus der Community zurückgreifen. Dies birgt aber auch Risiken, da Zeit und Know-how benötigt werden und eine fehlerfreie Software nicht garantiert ist.

Im Gegensatz dazu bieten lizenzpflichtige Produkte eine wesentlich höhere Sicherheit sowie einen schnellen Support-Service. Nachteil dieser Produkte sind die Kosten und die dadurch entstehende Abhängigkeit, da die Software nicht durch den Käufer erweiterbar ist.

Die Entscheidung zwischen Open Source und lizenzpflichtigen Automatisierungs-Tools für einen bestimmten Anwendungszweck sollte unter Abwägung folgender Faktoren erfolgen:

  • Funktionalität (Sicherheit, Flexibilität, Performance, Test Management usw.)
  • Support (Vorhandensein von Experten, On-Time-Support, Dokumentation)
  • Kosten (Projektbudget, Dauer und Anzahl der Verwendung, Plattform, Schulungen)

Ein empfehlenswertes Open Source Produkt zur Datenverarbeitung ist Pentaho Data Integration. Mit diesem Tool kann der Datenfluss von unterschiedlichen Quellen zu verschiedensten Applikationen (parametrisiert) gesteuert und die Daten aufbereitet werden. Dadurch kann es zur Datenintegration, zur Datenbereinigung und auch für Data Mining genutzt werden.
Ein Beispiel für ein lizenzpflichtiges Produkt, mit dem solvistas sehr gute Erfahrungen gemacht hat, ist WhereScape. Dabei handelt es sich um ein Tool zur Data-Warehouse- Automatisierung. Das bedeutet, dass Schritte, welche beim Aufbau eines DWHs (Data Warehouses) wiederholt ausgeführt werden müssen, großteils vom Tool übernommen werden. Darunter fallen sowohl Teile der Datenmodellierung als auch die Erstellung der Beladungsprozesse.
Weitere vielversprechende Beispiele sind:

Open Source ToolsLizenzpflichtige Tools

- Pentaho Data Integration
- Talend Open Studio for Data Integration
- Apache Nifi

- Wherescape
- Microsoft – SQL Server Integrated Services (SSIS)
- Oracle Data Integrator
- SAS – Data Integration Studio
- SAP – BusinessObjects Data Integrator

Zusammenfassend gilt, dass Automatisierungstools Entwicklungsprozesse erleichtern und beschleunigen, weswegen ihr Einsatz Vorteile bringen kann. Die Entscheidung für ein bestimmtes Tool sollte immer von der jeweiligen Aufgabe und den verfügbaren - personellen und finanziellen - Ressourcen abhängig gemacht werden.

Autor: Team Data Science Linz