MyBigData – wie wird das Wetter in meinem Sommerurlaub?

The new normal oder gibt es doch noch Zufälle?

Wie planen ein Data Warehouse Experte und eine Statistikerin ihren Sommerurlaub?  Eigentlich so wie alle – sie suchen sich ihren Wunschferienort und hoffen, dass das Wetter schön wird. Im Winter 2013 haben wir uns die Berge als Erholungsort ausgesucht. Aber Berge haben eine schlechte Eigenschaft: wenn das Wetter schlecht ist und dies auch noch längere Zeit, kann der Wunschurlaub sehr einseitig werden. Für meine Motivationssprüche in Richtung meiner Partnerin, sie möge doch Kraft ihrer Ausbildung das Wetter vorausberechnen, erntete ich nur eine spöttische Antwort: ich möge ihr doch die Daten besorgen. Was eigentlich spöttisch gemeint war, war schlussendlich der Beginn unseres Selbstversuches – My BigData – der „Beginn einer Vorausschau für einen schönen Urlaub“ oder „Lasst den Zufall nicht euren Urlaub gestalten“. 

Also begaben wir uns auf die Suche nach Daten. Vorerst schien es „logisch“, Daten zu ermittelten, die wir für die Wetterprognose als relevant ansahen. Wetterdaten gibt es an vielen Orten im Internet wie zum Beispiel auf öffentlichen Seiten von Land OÖ oder Statistik Austria. Ebenso können solche Daten gekauft werden, wie von https://shop.meteogroup.com/measurement. Bald hatten wir Wetterdaten inklusive historische Werte bis teilweise 100 Jahre in die Vergangenheit zurück. Diese Werte bestanden aus Luftdruck, Lufttemperatur, Luftfeuchtigkeit, Niederschlagsmengen, Windgeschwindigkeit, Windrichtung, Windspitze, relative Feuchte, Taupunkt, Sonnenscheindauer, Globalstrahlung, Pegelstände der Flüsse. Bei der Statistik Austria luden wir viele demografische Informationen herunter wie Bevölkerungs-, Bildungs-, Beschäftigungs- und Arbeitsmarktdaten, Daten zu Wirtschaft, Tourismus, Umwelt, Energie, Lebensqualität und Lebensstandard, Verkehr & Mobilitäts-Entwicklung.

Eine erste Prognose ergab, dass in der letzten Juli- und ersten Augustwoche die höchste Wahrscheinlichkeit für schönes Wetter sei. Das Ergebnis war so nicht schwer zu ermitteln und auch nicht überraschend. Jede Langzeit-Wetterprognose zeigt dieses Ergebnis. Wir hatten ein Ergebnis, waren aber nicht zufrieden damit. War das nun eine Big Data Data Analyse? Wo liegt nun der Unterschied zu „normalen“ statistischen Methoden?

In der Diskussion riefen wir uns nochmals die Grundregeln für Big Data in Erinnerung. Dabei kam die Regel in den Mittelpunkt unseres Interesses. Big Data Analysen benötigen keine Kausalitäten!!!! Aber unsere Prognose war kausal: Wir gingen davon aus, dass das Wetter von Temperatur, Luftdruck und anderen Einflussfaktoren bestimmt wird. Aber gibt es auch Werte, die das Wetter nicht beeinflussen und dennoch für unsere Analyse relevant sind? Es war nun klar, was wir probieren mussten.

In Phase 2 durchsuchten wir ALLE Daten, die wir bekommen konnten, auch jene die scheinbar völlig sinnlos für die Prognose waren. Dann verglichen wir die Muster und Assoziationen dieser Daten, die den Wetterwerten gleich waren (Entwicklung der Wetterwerte vor dem 03/2013). Wir fragten nach Seetemperaturen, den Gletscherwerten, den Auslastungswerten der Hotels, den Käseproduktionswerten, den Milchproduktionswerten und den Braumengen der Brauereien im Urlaubsgebiet. Wir bekamen Forstwerte, Produktionswerte sowie Umsatzwerte von hilfswilligen Unternehmen. Wir untersuchten Geburtenstatistiken, Heumengen, Milchleistungen und viele weitere, für die Prognose scheinbar unsinnige Daten. Allmählich wurden unsere Datenmengen immer größer. Also setzte ich ein Hadoop System auf, wodurch die Analyse und Suche nach Daten effizienter und schneller wurde. Und so begannen wir zu analysieren. Wir entwickelten einen solchen Datenhunger, dass wir bald jede Art der Kausalität vergaßen.

Und schließlich hatten wir die Erkenntnis gefunden: es war die Produktion eines speziellen Graukäses im Zillertal! Dieser Käse wurde grundsätzlich in kleinen Mengen und nur dann produziert, wenn es die Produktion der Hauptkäsesorten (Tilsiter, Graukäse Normal, Bergkäse) zuließ. Wenn dieser Käse im April in größeren Einheiten produziert wurde, dann folgte eine Schönwetterperiode im Juli und August. Sofort fragten wir nach den geplanten Produktionsmengen im April nach. Die Produktionsmengen dieses Graukäses waren im April 2013 besonders hoch. Perfektes Bergwetter war damit gesichert.

Und es wurde auch ein wunderschöner Urlaub mit tollem Wetter. Fast schon zu heiß zum Wandern, denn die Berge glühten. Man hatte einfach zu viel Graukäse produziert.

Unsere Prognose sagte noch etwas Bemerkenswertes aus: es sollte vor der Schönwetterperiode eine Hochwasserperiode und nach der Schönwetterperiode wieder Hochwasser folgen. Wir erinnern uns, 2013 gab es in Österreich ein schlimmes Hochwasser. Aber das zweite Hochwasser kam nicht. Also existiert der Zufall noch immer?

Autor: Konrad Linner, Geschäftsführung