Forschungsprojekt: SAS Visual Analytics mit Hadoop

Ein Traumpaar für Big Data Analytics?

Hochgelobt als eine perfekt arrangierte Hochzeit, gilt diese Verbindung als eine preiswerte Datenspeicherungs- und -verarbeitungsplattform, gekoppelt mit Analytics zur Ergebnisoptimierung. Wir gingen dem Traumpaar auf die Spur.  Mit Beginn der Sommerferien setzte sich das solvistas Analytics Team das Ziel, die Praxistauglichkeit von Hadoop zu testen. Als Auswertungswerkzeug sollte SAS Visual Analytics dienen.

Durch das Java Know-How unserer MitarbeiterInnen war es einfach, die Hadoop Umgebung auf Basis der Plattform Hortonworks erfolgreich in die solvistas Systeme zu integrieren. Unterstützt von PraktikantInnen der FH Hagenberg wurden mehrere alte Notebooks zu einem großen verteilten Hadoop Server zusammengeschlossen.

Testdaten im Ausmaß von etwa 0,5 TB wurden aus einem Demo-Mandanten der sol-9 Suite mit Pentaho Data Integration auf den Hadoop Server übertragen.

Nach einer Laufzeit von zwei Monaten war man um eine Hadoop Umgebung und jede Menge Erfahrung reicher. Neben dem Aufbau der Infrastrukturkomponenten (SAS Umgebung, Hadoop Umgebung, etc.) wurden auch zwei Use Cases definiert und umgesetzt. Ein Beispiel für die Anwendung von „Unstructured Data“ wurde bewusst weggelassen, da man sich in einem separaten Projekt dieses Themas annehmen wird.

Folgende Use Cases wurden implementiert:

  • Ein Vergleich von Ist- und Plan-Daten inklusve Drill Hierarchien
  • Absatzprognosen je unterschiedlicher Kundenhierarchie 

Fazit:

Der Einsatz von Hadoop Technologien ermöglicht den kostengünstigen Aufbau eines Systems mit geballter Big Data Performance. Die Verteilung von Daten auf Hadoop und der In-Memory Ansatz von SAS ergeben eine bemerkenswerte Geschwindigkeit. Diese kann durch das Erweitern von preiswerter Hardware jederzeit weiter erhöht werden.

Funktionseinschränkungen: Alle Funktionen von SAS VA können uneingeschränkt verwendet werden.

Das Paradies für Analysten: Alle Daten des Systems stehen für Ad Hoc- und Live-Analysen zur Verfügung.

Keine Kompatibilitätsprobleme: Beide Systeme sind perfekt abgestimmt.

Unsere PraktikantInnen waren eine tolle Ergänzung für unser Forschungsteam und konnten sich dabei wertvolles Wissen und praktische Erfahrung aneignen. Wir freuen uns auf die Fortsetzung!

Autoren: Andreas Weissenböck, Konrad Linner