• Spark auf Hadoop ist hochskalierbar.
  • Cloud Computing ist hochskalierbar.
  • R, die erweiterbare Open Source Data Science Software, eher nicht.

Aber was passiert, wenn wir Spark auf Hadoop, Cloud Computing und den Microsoft R Server zu einer skalierbaren Data Science-Plattform zusammenfügen?

Stellen Sie sich vor wie es sein könnte, wenn Sie das Erkunden, Transformieren und Modellieren von Daten in jeder beliebigen Größe aus Ihrer Lieblings-R-Umgebung durchführen könnten. Stellen Sie sich nun vor, wie man anschließend die erzeugten Modelle – mit wenigen Klicks – als skalierbare, cloudbasierte Web-Services-API bereitstellt.

In dieser Session zeigt Sascha Dittmann, wie Sie Ihren R-Code, tausende von Open-Source-R-Pakete sowie die verteilten Implementierungen der beliebtesten Maschine-Learning-Algorithmen nutzen können, um genau dies umzusetzen. Dabei zeigt er, wie man ein HDInsight Spark-Cluster inkl. eines Microsoft R Server-Clusters erstellt und anschließend eine IoT-Lösung darauf zum Leben erweckt.