Data Mining und Big Data vs. Statistik und Predictive Analytics

Die Challenge den Durchblick zu bewahren Begriffe wie Big Data, Predictive Analytics und Statistik sind in aller Munde. Oft gibt es jedoch nur unklare Vorstellungen davon, was unter diesen Begriffen zu verstehen ist. 

  

Dieser Artikel gibt dem/der LeserIn ein grundlegendes Verständnis über die Definition dieser Begriffe und ihrer gegenseitigen Abgrenzung. Als erste Orientierung dient die folgende Grafik:

Der historisch älteste Begriff ist Statistik. Statistiker gibt es schon seit Hunderten von Jahren - ein Beispiel für einen berühmten Statistiker ist Thomas Bayes, der um 1700 lebte. Die Statistik beschäftigt sich mit Verteilungen und Hypothesentests sowie Modellen und Modellbildung. Lesen Sie dazu auch unseren Newsbeitrag zum Thema LEGO-AnalyticsNatürlich wird die Statistik auch heute noch ständig weiterentwickelt. Neuere Errungenschaften sind z.B. Simulationen, die erst mit hoher Rechenpower möglich wurden.

Machine Learning beschäftigt sich mit dem Lernen aus vergangenen Daten. Die Voraussetzung für das Lernen ist ein historischer Datensatz, in dem der Outcome schon vorhanden ist. Man kann z.B. auf Basis historischer Kündigungsdaten ein Modell erzeugen, das zukünftige Kündiger vorhersagt. Natürlich funktioniert das nur, wenn die ehemalige Kunden auch als solche im Datensatz markiert wurden.

Data Mining wurde erst mit dem Beginn der PC-Ära wirklich interessant. Hier geht es vor allem darum, Daten zu durchsuchen, interessante Muster oder Zusammenhänge – im Fachjargon Korrelationen – zu erkennen. Aus den Erkenntnissen lassen sich dann Hypothesen ableiten und testen. Für Data Mining hat sich ein Standardprozess etabliert, der das Vorgehen strukturiert. Dieser Prozess wird als CRISP-DM bezeichnet und wird auch von solvistas verwendet.

Früher waren die Datenmengen geringer, trotzdem wurde der Begriff „Big Data“ schon um 1800 gebildet. Leider ist der Begriff bis heute nicht einheitlich definiert. State-of-the-Art Ansätze sprechen von den 4Vs:

  • Variety
  • Velocity
  • Volume
  • Value

Genauere Angaben bzw. Grenzwerte zu den 4Vs, also ab wann ein Volume die Grenze für Big Data erreicht, existieren nicht. Big Data entsteht durch das Wachsen an bis zu 4 Fronten gleichzeitig.

Aus statistischer Sicht ist Big Data ein Konzept wie Data Mining, allerdings mit wesentlich mehr Daten. So werden aus technischer Sicht Neuerungen wie die In-Memory-Technologie verwendet um die Performance zu gewährleisten. Wie auch bei Data Mining geht es um das Auffinden von Zusammenhängen oder Mustern in den Daten. Je nach Literatur werden bei Big Data auch fachfremde Muster verwendet, ein Kausalzusammenhang muss nicht zwingend dahinterstehen (dazu gibt es in Fachkreisen unterschiedliche Sichtweisen).

Für detailliertes Forecasting steht heutzutage der Begriff „Predictive Analytics“, der seinen Durchbruch dem Wahlkampf von Barack Obama im Jahr 2012 zu verdanken hat. Mittels Microtargeting wurden erstmals bis auf den einzelnen Wähler genau Forecasts generiert. Im Hintergrund werden Statistik- oder Machine Learning Algorithmen verwendet, denen eine extrem umfangreiche Datenbasis zur Verfügung steht.

Zusammengefasst kann man sagen, dass Big Data und Predictive Analytics Trendwörter sind, die auf bewährte Methoden in Kombination mit umfangreichen und teils unstrukturierten Daten setzen. Durch die immer günstiger werdende Hardware hebt die In-Memory-Technologie die Performance auf einen neuen Level.

Autor: Thomas Otzasek, Business Analyst