Erst durch qualitativ hochwertige Daten wird Big Data zum Erfolgsfaktor für Unternehmen. Um aus einem schier unendlichen Datenschatz wertvolle Business Insights zu gewinnen, ist eine technologische Unterstützung unabdingbar. Im Rahmen meines Vortrages zeige ich Herausforderungen auf, die mit der Sicherstellung und Optimierung der Qualität von Produktdaten einhergehen. Außerdem werden anhand von Map und Reduce verschiedene Lösungsansätze dargestellt.

3 Fragen an die Expertin

Im Programm der SMART DATA Developer Conference 2016 zeigt Dr. Hanna Köpcke Herausforderungen beim Matching von Big Data auf sowie Lösungsansätze anhand von Map/Reduce. Die Expertin verschafft im Kurzinterview einen ersten Überblick.

Frau Dr. Köpcke, warum ist die Sicherung der Datenqualität aus Ihrer Sicht so wichtig?

Die Sicherung einer hohen Datenqualität ist deshalb so wichtig, da falsche oder qualitativ minderwertige Daten zu falschen Schlussfolgerungen führen können. Das SISO-Prinzip (“Shit in – shit out”) ist hinreichend bekannt. Und es gilt auch – oder vielmehr gerade – bei Big Data. Unternehmensentscheidungen können nur aufgrund von validen Daten getroffen, daher sind qualitativ hochwertige Daten für valide Auswertungen und treffsichere Entscheidungen essentiell.

Ist für alle Unternehmen gleichermaßen Data Matching das Allheilmittel oder gibt es alternative Ansätze?

Natürlich gibt es viele weitere Verfahren zur Sicherung einer hohen Datenqualität, es muss also nicht unbedingt gematched werden. Weitere Ansätze sind neben dem Data Matching vor allem Verfahren zur Erkennung von fehlenden Daten sowie zur Ergänzung von fehlenden Werten oder Ausreißern.

Weshalb eignet sich Map/Reduce besonders, um die Datenqualität zu sichern?

Eins vorab: Map/ Reduce ist ein Verfahren zur Bewältigung von großen Datenmengen, d.h. allein mit Map/ Reduce ist eine Sicherung von hoch validen Daten nicht möglich.  Damit Unternehmen ihre Wettbewerbsfähigkeit auch zukünftig erfolgreich sichern, müssen diese mit wachsenden Datenmengen umgehen, um fundierte Entscheidungen zu treffen – und dafür eignet sich Map/Reduce besonders.

 

Lesen Sie mehr im Artikel “Learning-basiertes Object Matchin mit Map/Reduce“.