Data Science im Informationszeitalter

Einsatzmöglichkeiten von R und Python

Mit dem Anstieg der Rechengeschwindigkeit und der weit verbreiteten Einführung von Big Data-Technologien ist Data Science von entscheidender Bedeutung für jedes Unternehmen, das im Informationszeitalter wettbewerbsfähig bleiben möchte. Obwohl für diesen Zweck proprietäre Software verfügbar ist, basieren die beiden am häufigsten verwendeten Programmiersprachen Python und R auf Open Source.

Datenanalyse und Machine Learning sind die Hauptbereiche von Data Science, in denen diese beiden Sprachen seit geraumer Zeit den Mittelpunkt der Innovationen bilden. Während R ursprünglich als Programmiersprache für statistische Inferenz und Python als universelle Programmiersprache entwickelt wurde, bieten die zahlreichen für beide verfügbaren Bibliotheken genügend Flexibilität, um diese Sprachen austauschbar zu verwenden.

Die für Python entwickelten Datenanalysepakete (Pandas, NumPy, statsmodel) ermöglichen eine Anpassung an die integrierten Analysefunktionen von R, und die Seaborn- und Bokeh-Packages entsprechen den für R verfügbaren ggplot2- und Lattice-Bibliotheken.

Im Bereich Machine Learning haben beide Sprachen eine umfangreiche Sammlung von Algorithmen implementiert, die Caret-Bibliothek für R und das Scikit-Lernpaket für Python. In Bezug auf Deep Learning hat Python jedoch mit Keras, TensorFlow und Theano einen klaren Vorteil gegenüber den Neuralnet- und Nnet-Bibliotheken von R. Trotzdem steht Keras in beiden Sprachen zur Verfügung, da es in den letzten Jahren über interfaces und ports verfügbar gemacht wurde, wie z. B. die Bibliotheken Tensorflow und Keras.

Bei der Entscheidung zwischen Python und R hängt die Auswahl zum größten Teil von der Art des Projekts ab. Im akademischen Umfeld, in welchem das Ziel darin besteht, eine Frage zu beantworten oder neue Informationen zu generieren, ist R aufgrund seiner Analysemöglichkeiten der klare Favorit. Auf der anderen Seite sollte Python die bevorzugte Wahl sein, wenn es in im beruflichen Umfeld darum geht, durch Zusammenarbeit ein integriertes, stabiles System aufzubauen.

Autoren: Veronica Carbelo, Denes Panta