In-Database Machine Learning ist die Möglichkeit, Datenbanken und Machine Learning auf effiziente Weise zu kombinieren.
Machine Learning hat in den letzten Jahren, aufgrund seiner vielseitigen Anwendungsmöglichkeiten immer mehr Aufmerksamkeit auf sich gelenkt. Viele Menschen beschäftigen sich mit diesem Thema und damit, wie man dessen Anwendung noch effizienter machen kann.
Als guten Einstieg können Sie in diesem Beitrag nachlesen, was Machine Learning genau ist: https://www.solvistas.com/de/news/machine-learning-alles-auf-einen-blick
Beim klassischen Machine Learning Prozess werden die Daten aus der Datenbank extrahiert, die Machine Learning-Modelle mit einem weiteren Tool wie z.B: Python generiert und die Ergebnisse wieder in der Datenbank abgelegt.
In-Database Machine Learning kombiniert Datenbank mit Machine Learning. Einerseits wird die Datenhaltung in der Datenbank umgesetzt, andererseits wird auch der gesamte Machine Learning Prozess unterstützt. So kann in der Datenbank von der Training- und Testdatensatzerstellung bis zur Modelltraining und Vorhersage alles direkt innerhalb der Datenbank durch SQL- Befehle durchgeführt werden.
Neben der Einfachheit der Modellerstellung in der Datenbank wird durch die die Verwendung von Datenbanken mit integrierten Machine Learning die Komplexität in der Toollandschaft reduziert, da ein zusätzliches Machine Learning Tool nicht mehr benötigt wird. Außerdem fällt im Vergleich zum klassischen Machine Learning Prozess der Export der Daten und der Import der Prognoseergebnisse in die Datenbank weg.
Folgende Datenbanken bieten diese Produkte bereits In-Database Machine Learning an: Amazon Redshift, BazingSQL, MS SQL Server, Oracle. Bei Datenbanken, bei denen Machine Learning noch nicht integriert wurde, können diese mit MindsDB verknüpft werden, um In-Database Machine Learning zu ermöglichen.
MindsDB ist eine opensource Anwendung, welche dem User Machine Learning Algorithmen unmittelbar in einer Datenbank bietet, ohne dass die Datenbank über Machine Learning Integration verfügt. Dabei wird MindsDB mit einer Datenbank verbunden und der Machine Learning Prozess wird dann in MindsDB durchgeführt. MindsDB speichert die generierten Machine Learning Modelle und die Vorhersagen dabei direkt in der Datenbank in Form eigener Tabellen. Um MindsDB nutzen zu können, sind keine Machine Learning Kenntnisse notwendig, da hierbei mit der Datenbanksprache SQL gearbeitet wird. Neben den bereits integrierten Modellen bietet MindsDB auch die Möglichkeit die Modelle mittels Python zu erweitern.
Zusammenfassend lässt sich sagen, dass durch den datenbanknahen Ansatz In-Database Machine Learning dem Unternehmen den Vorteil bietet, dass der Machine Learning Prozess einfach in bestehende Beladungsstrecken integriert wird. Liegen die Daten in Datenbanken ohne Machine Learning Integration, kann dies einfach durch den Einsatz von MindsDB nachgerüstet werden.
Authoren: Elias und Michaela