Digital Transformation Blog

Digital Transformation Blog

Opinions expressed on this blog reflect the writer’s views and not the position of the Capgemini Group

Hands On Data Science: Data Storytelling als Moderator zwischen Data Scientist und Fachbereichen

Kategorie: Analytics

Daten Visualisierung erfährt gerade einen neuen Hype: In Zeiten von Big Data Analytics erleben die Dashboards aus dem BI Reporting  eine Wiedergeburt, denn sie machen die Ergebnisse komplexer statistischer Modellierungen einfach zugänglich und auch den Geschäftsanwendern schmackhaft. Dabei ist Daten Visualisierung schon immer ein Teil von Data Science Projekten – in der explorativen Phase der Datensichtung helfen Diagramme, dem Data Scientist ein Verständnis der Daten und ihrer Ausprägungen zu gewinnen - neu ist die gewachsene Rolle und Notwendigkeit der Ergebnisdarstellung über den Data Scientist-Anwenderkreis hinaus. Das bedeutet: Die grafische Darstellung von Daten wird nicht nur als Mittel zum besseren Verständnis der Daten oder Datenqualitätssicherung, sondern auch zur Illustration der Ergebnisse in den Fachbereichen angewendet (Abb. 1).


Die heutigen Datenvisualisierungstools bieten viel mehr als nur die Standard-Diagramme und Grafiken wie Balken- Kreis oder Radardiagramme. Es ist möglich die Daten in verschiedener Weise etwa mit  Geo-Visualisierungen oder Heat Maps darzustellen. Oft und gerne werden auch interaktive Funktionalitäten benutzt, so dass der Benutzer die Daten selber manipulieren oder auswählen kann (z.B. durch das Einsetzen von Filtern). Die meisten Business-Intelligence-Software-Anbieter betten Datenvisualisierungstools in ihre Produkte ein. In vielen großen Unternehmen sind gängige Tools wie QlikView, Tableau oder Lumira im Einsatz.
 

 
Abb. 1 Schematischer Ablauf eines Data Science Projektes
 

Datenverständnis oder Ergebnisvisualisierung?

Die Anforderungen an eine Visualisierung sind unterschiedlich, je nach Zweck der Darstellung. Wenn der Data Scientist sich ein Verständnis für die Daten verschaffen will, die Daten Exploration, soll es vor allem schnell gehen. Es soll einfach sein, mehrere Datenquellen anzubinden, verknüpfen und sich schnell Ausreißer oder Mittelwerte anzuschauen. Da hier die Person, die die Visualisierung erstellt in der Regel auch der Benutzer ist, ist die Erklärung der Variablen oder der Daten zweitrangig.
 

Anders sieht es aus, wenn die Ergebnisse von analytischen Modellierungen wie Kundensegmentierungen, Demand-Analysen oder Micro-Targeting dargestellt werden sollen. Die Visualisierung soll die Insights für den Business Anwender „übersetzen“. Unsere Kunden sehen aus Business-, bzw. Fach-Seite oft nur die Business Anforderungen und die Ergebnisse der Black Box Data Science. Hier sind Visualisierungen, etwa mit Tableau, ein geeignetes Mittel um die Ergebnisse komplexer statistischer Analysen im Customer Value Analytics Bereich anschaulich zu beschreiben und verständlich zu machen. Visualisierungen von komplexen statistischen Analysen, insbesondere mit Geo-Daten, Reporting Dashboards usw. erlauben Geschäftsanwendern einen einfachen, visuellen Zugang zum gehobenen Data-Gold.  Visualisierung wird zum „Rosetta Stone“ der Data Science.
 

Was man beachten sollte

Was bei der Exploration oder Erklärung der Daten zu beachten ist, versucht auch Mike Barlow in seinem eBook „Data Visualisation – A New Language for Storytelling“ zusammenzufassen. Auf Basis der Meinungen vieler Experten werden, neben der Entscheidung ob es sich um Exploration oder Erklärung handelt, einige entscheidende Punkte angesprochen.
 
Barlow schlägt vor, dass zuerst klar gemacht werden sollte warum, was, wie und in welchem Format visualisiert werden soll. Interessant ist, dass nicht nur der gewählte Darstellungstyp, also das „wie“, entscheidet, aber auch das gewählte Format (das gesamte „Look and Feel“) der Visualisierung. Dabei sollte als goldene Regel gelten: weniger ist mehr. Komplexe und überfüllte Darstellungen können von der Aussage ablenken und sie schwer lesbar machen. Für regionale Unterschiede kann man Karten verwenden, aber auch hier soll man überlegen, ob die Darstellung einen Mehrwert liefert.
 

Es ist wunderschön, aber ist es sinnvoll?

Visualisierungen, besonders im Bereich Big Data, werden immer komplexer. Die wachsende Menge von unstrukturierten Daten bildet eine große Herausforderung für die Darstellung. Bei großen Datenmengen ist es leichter den Überblick über den Sinn der Visualisierung zu verlieren. Die Frage, die sich der Data Scientist stellen sollte ist nicht nur „was will ich sagen“, sondern „habe ich überhaupt irgendwas zu sagen“?
 

Mit großer Macht kommt große Verantwortung

Das vielseitige Angebot an Visualisierungstools und Darstellungsformen eröffnet dem Data Scientist sehr viele Möglichkeiten, verschiedene Aussagen aus einem Datensatz abzuleiten. Diese können allerdings sehr einfach aus dem Kontext entrissen werden und missverstanden werden, da Menschen den Bildern sehr schnell glauben – argumentiert Barlow weiter. Als Data Scientist soll man sich dieser Verantwortung bewusst sein und nicht missbrauchen. Als Anwender soll man immer nach Datenquelle, Aufbereitung und Zusammenhänge fragen.
 
Insgesamt bietet das Buch von Barlow eine gute, kurze Übersicht über die immer wichtigere Welt der Daten Visualisierung. Einige interessante Punkte werden angesprochen. Aufgrund der Kürze des Buches werden die Möglichkeiten und Herausforderungen nur angerissen.
Eins ist jedoch klar: Visualisierungen gewinnen immer mehr an Bedeutung im Alltag vieler Unternehmen. Für Unternehmensberatungen sind Visualisierungstools in Data Science Projekten das „neue Powerpoint“. Egal ob Data Scientist oder Anwender: Daten Visualisierung wird uns begleiten und es ist auf jeden Fall sinnvoll sich näher mit diesem spannendem Thema auseinanderzusetzen. 

Über den Autor

Natalia Szymanska
Natalia Szymanska
Natalia Szymanska ist Consultant bei Capgemini Consulting und arbeitet im Bereich Data Science & Analytics. Ihre Expertise liegt im Bereich Customer Value Analytics, wo sie Kunden hilft, aus deren Daten, in konkrete Maßnahmen umsetzbare Insights zu gewinnen. Zuletzt arbeitete sie vermehrt auf Projekten im Bereich Automobilindustrie.
Ich wurde an der Stelle die Trilogie von E. Tufte empfehlen; auch wenn nicht direkt Big Data verbunden sind die Grundlagen der Datenvisualisierung da klar aufgelegt. Und die Bücher selbst sind ein Art proof of concept.

Kommentar hinterlassen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind mit einem * gekennzeichnet.