Automatisierte Datenanalyse

Die vorliegenden Materialien wurden von Daniel Hoherz und André Tempel erstellt. Sollten andere Editoren die Materialien erstellt haben, werden diese explizit genannt.

Korrelation und Kausalität

Die Aufgaben 1 und 2 wurden nach einer Idee von A. Grillenberger erstellt.

Dem US-Einzelhandelsriesen Target gelang es durch die Analyse herauszufinden, welche Kundinnen schwanger sind. Duhigg schreibt, dies sei für das Unternehmen sehr wichtig gewesen, denn werdende Eltern seien so etwas wie der „Heilige Gral“ für Unternehmen wie Target. In einer Schwangerschaft änderten sich die Gewohnheiten, und wer vorher keine gute Kundin des Einzelhändlers gewesen sei, könne es danach werden – wenn man ihr zu richtigen Zeit die richtige Werbung zusendet.
Die Statistiker von Target, so berichtet es Duhigg, identifizierten etwa 25 Produkte, die darauf hinweisen, dass Kundinnen schwanger sind. Genauer gesagt, wenn sie sich im zweiten Trimester ihrer Schwangerschaft befinden. Denn zu diesem Zeitpunkt fingen sie an, sich neue Sachen zu kaufen, und Target schickte ihnen dann schon Werbung. Zu den identifizierten Produkten gehörten parfümfreie Körperlotion, große Mengen an Watte und Nahrungsergänzungsmittel wie Kalzium, Magnesium und Zink. Target habe in der Kundendatenbank gesucht und Zehntausende Frauen gefunden, die mit großer Wahrscheinlichkeit bald Mutter würden.
Der Autor Duhigg berichtet darüber, wie die Werbung für Schwangerschaftsprodukte den Vater einer Tochter in Rage versetzte. Er beschwerte sich in einem Target-Markt in der Nähe von Minneapolis darüber, dass seine Tochter – noch ein Teenager – Werbung für Babykleidung erhalten habe. Ob man sie dazu animieren wolle, schwanger zu werden, fragte er den Manager des Ladens. Dieser entschuldigte sich, doch als er später noch einmal sein Bedauern zum Ausdruck bringen wollte und den Vater anrief, stellte sich heraus, dass die Tochter wirklich schwanger war. Target hatte es nur vor dem Vater der jungen Frau gewusst.

Frankfurter Neue Presse, 13.09.2014

(PA) Stellen Sie Vermutungen an, wie der Supermarkt Target die entsprechenden Produkte erraten konnte und wie solchen Analysen im Allgemeinen funktionieren.

Im Unterricht haben Sie bereits einen Artikel darüber gesehen, wie Daten heute im Einzelhandel verwendet werden, um Kunden auf sie zugeschnittene Werbung präsentieren zu können. Onlineshops gehen heute jedoch schon weiter und versuchen, ihren Kunden viele Produkte möglichst schnell liefern zu können:
Noch bevor ein Kunde überhaupt den Button “Kaufen” anklickt, soll die für ihn passende Ware schon auf dem Weg in Richtung seiner Wohnung sein. Dem Versandhändler Amazon wurde ein Patent zugesprochen, das einen „vorausschauenden Versand“ („anticipatory shipping“) ermöglichen soll. Das heißt: Bestimmte Waren werden schon einmal an ein Versandzentrum geschickt, in dessen Nähe sich ein oder mehrere Kunden höchstwahrscheinlich für das Produkt interessieren. Wird es dann schließlich bestellt, ist es umso schneller beim Empfänger.

Spiegel Online, 18.01.2014

Um herauszufinden, was ein Kunde als nächstes bestellen könnte, müssen die Versandhändler umfangreiche Daten über ihre Kunden sammeln und analysieren.

Erstellen Sie aus Ihren Erfahrungen, welche Informationen Onlinehändler über ihre Kundinnen und Kunden haben und woher sie diese jeweiligen Informationen haben.

Wahrscheinlich sind nicht alle Informationen, die ein Onlinehändler über seine Kunden hat auch wichtig, wenn er herausfinden möchte, für welchen Artikel sich die Kundin oder der Kunde als nächstes interessieren könnte.
Notieren Sie sich, welche Informationen für diesen Zweck wichtig sind und begründen Sie, inwiefern Sie denken, dass das bei der Ermittlung der Kundenwünsche hilft.

In der unteren Abbildung siehst du den sehr reduzierten Ausschnitt einer Tabelle mit Daten von 15 Kundinnen und Kunden eines Onlinehändlers. Ein Tool zur automatisierten Datenanalyse hat aufgrund der gesammelten Daten in den ersten acht Spalten eine Vorhersage zum nächsten gekauften Artikel erstellt.

Analysieren Sie die Daten der ersten acht Spalten auf Gemeinsamkeiten in Bezug zur Vorhersage des nächsten Kaufs. Stellen Sie mit ihren Erkenntnissen Regeln der Form: WENN…, DANN ist der nächste Kauf…

Es lässt sich ein Zusammenhang zwischen Menschen im Alter zwischen 15 und 30 und einem erhöhten Risiko für Sonnenbrände am Körper feststellen.
Man könnte also sagen: Menschen im Alter von 15-30 haben häufiger Sonnenbrände als andere. Auch ist ein Zusammenhang zwischen der Intensität der Sonnenstrahlen und einer Zunahme des Risikos für Sonnenbrände festzustellen.
Man könnte also auch sagen: Steigt die Intensität der Sonnenstrahlen, steigt das Risiko für Sonnenbrände an ungeschützter Haut.
Der Unterschied in beiden Situationen ist, dass beim zweiten Zusammenhang die Sonnenstrahlen tatsächlich für das erhöhte Risiko verantwortlich sind.
Beim ersten Zusammenhang ist das Alter nur eine Art „Nebenerscheinung“ aber nicht der eigentliche Grund. Da junge Menschen häufiger als ältere mit ungeschützter Haut im Sommer draußen sind, lässt sich dieser Zusammenhang erklären. Wichtig ist aber, dass nicht zwingend aus der Tatsache, dass ein Mensch jung ist, nicht der eigentliche Grund für das erhöhte Risiko für Sonnenbrände ist.
Es gibt bei generell zwei Möglichkeiten, wie Vorhersagen getroffen werden können:
Kausaler Zusammenhang: Es gibt logische Zusammenhänge, sog. Kausalzusammenhänge, die wir zur Vorhersage nutzen können. Beispiel: Wenn die Sonnenintensität sehr hoch ist, ist das Risiko für Sonnenbrände hoch.
Korrelativer Zusammenhang: In anderen Bereichen erkennen wir keinerlei logische Zusammenhänge. Stattdessen können wir nach Mustern in den Daten suchen. Diese liefern uns auch Zusammenhänge, wir können sie uns aber oft nicht im Detail erklären bzw. die eigentliche Ursache ergründen. Solche Zusammenhänge bezeichnen wir als korrelative Zusammenhänge.
Beispiel: Wenn ein Mensch jung ist, hat er häufiger Sonnenbrände am Körper.
Kausalzusammenhänge helfen uns zwar dabei Dinge zu verstehen, sie sind aber für Datenanalysen oft relativ wenig interessant: Sie sind oft offensichtlich und bekannt, sodass sie nur wenig neue Informationen her – vorbringen. Wir können uns aber logisch erklären, dass sie richtig/wahr sind. Die korrelativen Zusammenhänge sind daher oft spannender, da sie neue Informationen eröffnen. Sie haben aber den Nachteil, dass sie nicht unbedingt logisch nachvollziehbar sind: Wie genau Wohnort und Alter das Kaufverhalten prägen, können wir uns meist nicht logisch erklären. Außerdem müssen wir sie erst finden, was relativ schwierig ist.
Begründen Sie, ob es sich bei den unter Aufgabenteil a) erstellten Regeln und auch bei dem Target- und Amazon-Beispiel um kausale oder korrelative Zusammenhänge handelt.

Übungen

Inhalt	So gut kann ich das:
Inhalt	++	+	〇	–	—
Ich kann den Unterschied zwischen kausalen und korrelativen Zusammenhängen erklären.
Ich kann ein Beispiel als kausalen oder korrelativen Zusammenhang einordnen.

Der Prozess der automatisierten Datenanalyse

Stellen Sie sich folgendes vor: In der Schule würden Sie je Fach nur zwei Arbeiten schreiben und daraus würde ermittelt werden, wie Sie in den zukünftigen Arbeiten abschneiden würden und diese Note würden dann genommen werden. Sie hätten den Vorteil, dass Sie nicht mehr so viele Arbeiten schreiben müssten und die Lehrkraft müsste nicht mehr so viel korrigieren.

Nehmen Sie spontan Stellung dazu, wie Sie dieses Vorgehen fänden.
Stellen Sie Vermutungen darüber auf, ob das geht und wie „gut“ das funktionieren würde.

Ablauf einer automatisierten Datenanalyse

Eine automatisierte Datenanalyse läuft in verschiedenen Schritten ab:

Als ersten Schritt der Datenanalyse, müssen die Daten erfasst/gewonnen und gespeichert werden. Achtung: Die Daten der vorherzusagenden Eigenschaft müssen bei den erfassten Daten bereits vorhanden sein.
Aus diesen Daten wählt man sich üblicherweise eine kleine Teilmenge aus, die Trainingsdaten, um aus dieser das Vorhersagemodell zu erstellen, d. h. um Regeln zu finden, die die Vorhersage der gesuchten Eigenschaften ermöglichen.
Dieses Vorhersagemodell wird dann auch den Rest der Datenmenge, die Testdaten, angewendet.
Als letzter Schritt jeder Datenanalyse sollte die Bewertung der Ergebnisse erfolgen, mit dem Ziel eine möglichst gute Qualität der Ergebnisse sicherzustellen. Man überprüft nun, wie gut das Vorhersagemodell, welches auf Basis eines kleinen Teils der Gesamtdaten funktioniert.
Ist man zufrieden, kann das Vorhersagemodell nun auf neue Daten anwenden, um tatsächliche Vorhersagen erstellen zu können.
Ist man nicht zufrieden, muss man an dem Modell „schrauben“.

Im Folgenden werden Sie den Prozess in Teilen durchführen. Die Daten sind bereits erfasst, also betrachten wir diese zunächst.

Aufgaben

Vergessen Sie nicht: Machen Sie sich Fotos von Ihren Ergebnissen und machen Sie sich dazu Notizen.

Wir halten uns nochmal kurz vor Augen, dass wir im Folgenden die Noten von SuS in einer dritten Arbeit vorhersagen wollen.

In der nachfolgenden Übersicht ist ein Teil der erhobenen Daten mit Beschreibung aufgelistet.

(PA) Suchen Sie sich eine zweite Partnergruppe und teilen Sie sich den linken oder den rechten Daten der Tabelle zu.
Diskutieren Sie zunächst in einer Partnergruppe, welche in der Tabelle dargestellten Eigenschaften der Schülerinnen und Schüler vermutlich für das Vorhersagen der Note 3 wichtig sind.

Daten	Beschreibung
Schule	Kürzel der Schule: „Gym“ oder „OS“ für Gymnasium oder Oberschule
Geschlecht	„M“ oder „W“
Wohnumfeld	„urban“ oder „ländlich“
Familiengröße	„≤3“ oder „>3“
Bildung Mutter	Grundschule; Hauptschule; Realschule/Gymnasium; Universität; keine
Beruf Vater	s. oben
Fahrzeit	Tägliche Fahrzeit des Schülers zur Schule: „<15min“; „15-30min“; „30-60min“; „>60min“
Wiederholte Schuljahre	Anzahl der Schuljahre, die der Schüler wiederholt hat: 0; 1; 2 oder 3
Note 1	Die Note (1-6), welche der Schüler in der ersten Arbeit hatte
Note 2	Die Note (1-6), welche der Schüler in der zweiten Arbeit hatte

Daten	Beschreibung
Lernzeit	Zeit, die der Schüler außerhalb des Unterrichts pro Woche mit dem Lernen aufwendet: „<2h“; „2-5h“; „5-10h“; „>10h“
Unterstützung Familie	Ob der Schüler durch die Familie Unterstützung bei seinen schulischen Pflichten erhält: „Ja“ oder „Nein“
Nachhilfe	Ob der Schüler Nachhilfeunterricht nimmt: „Ja“ oder „Nein“
Außerunterrichtliche Schulaktivitäten	Nimmt der Schüler an Aktivitäten in der Schule außerhalb des Unterrichts teil: „Ja“ oder „Nein“
Internetzugang	Ob Zuhause ein Internetzugang für den Schüler nutzbar ist: „Ja“ oder „Nein“
Familiäre Beziehungen	Als wie gut schätzt der Schüler seine familiären Beziehungen ein: „sehr schlecht“; „schlecht“; „mittelmäßig“; „gut“; „sehr gut“
Freizeit	Menge an Freizeit: „sehr wenig“; „wenig“; „mittel“; „viel“; „sehr viel“
Weggehen	Wie wichtig ist es dem Schüler, mit Freunden wegzugehen: „sehr wichtig“; „wichtig“; „mittel“; „unwichtig“; „sehr unwichtig“
Gesundheit	Die Gesundheit des Schülers: „sehr schlecht“; „schlecht“; „mittelmäßig“; „gut“; „sehr gut“
Abwesenheiten	Wie oft war der Schüler im aktuellen Schuljahr abwesend vom Unterricht: Zahlenwert

(GA) Stellen Sie sich in der gesamten Gruppe gegenseitig ihre Ergebnisse vor.

Im Folgenden sollen die Daten nun wirklich automatisch analysiert werden. Dazu starten Sie bitte da Programm Orange und führen die unten dargestellte Schritt für Schritt Anleitung durch.

Schritt 1: Programm starten und einrichten

Datensatz öffnen: Laden Sie sich den Datensatz und das Orange Projekt schuerlnoten herunter und öffnen Sie diesen in Orange.
File überprüfen: Klicken Sie auf File und schauen Sie, ob der Datensatz richtig eingebunden wird (ggf. über das Ordnersymbol die .xlsx-datei auswählen) und ob das Attribut „Note 3“ als Target ausgewählt wurde.
Trainingsdaten auswählen: Klicken Sie dann auf „Data Sampler“ und überprüfen Sie, ob hier 30% der Daten als Traingsdaten genutzt werden. Stellen Sie dieses ein und klicken Sie auf „Sample Data“.
Daten überprüfen: Klicken Sie dann auf „Data Table“ und schauen Sie sich die Daten an, welche ausgewählt wurden. Hier ist wichtig, dass die erste Spalte „Note 3“ ist, also das Ziel unserer Vorhersage.

Schritt 2: Open Roberta Lab starten

Schritt 2: Entscheidungsbaum erstellen

Baum-Model erstellen: Aus der Stichprobe soll nun autoamtisch nach Regeln gesucht werden, die eine Vorhersage ermöglichen. Dazu wählen wir links unter „Model“ „Tree“ aus und ziehen es rechts in Feld und verbinden die rechte Seite des „Data Samplers“ mit der linken Seite des „Trees“.
Visualisierung des Baums: Wählen Sie nun links unter „Visualize“ den „Tree Viewer“ aus und ziehen Sie ihn rechts ins Feld. Verbinden Sie diesen mit dem „Tree“, sodass die Daten aus dem „Tree“ in den „Tree Viewer“ fließen.
Klassifikationsbaum betrachten: Machen Sie nun einen Doppelklick auf den „Tree Viewer“ und betrachten Sie den Klassifikationsbaum. Ganz oben wird nach dem ersten Kriterium sortiert. Dieser Knoten wird auch Wurzel genanntn. Links und rechts gehen davon die weiteren Knoten ab, wo ebenfalls nach bestimmten Kriterien sortiert wird. Die Kriterien stehen immer am Knoten. Die untersten Knoten nennt man Blätter.
Analyse der Knoten: Betrachten Sie nun einen Knoten (kein Blatt), indem Sie mit der Maus über diesen verharren. Dann öffnet sich ein Fenster.
Interpetieren Sie die Information in diesem Fenster.

Schritt 3: Analyse der Vorhersage

Blätter analysieren: In Ihrem Baum werden Sie sicherlich zwei Blätter haben, die direkt nebeneinander sind. Hier können Sie auch mit der Maus drüber verharren und erhalten weitere Informationen.
Interpretation: Intepratieren Sie die Bedeutung der Prozentwerte der Blätter sowie die Informationen aus dem Fenster, welches sich öffnet, wenn Sie mit der Maus über dme Blatt verharren.
Vergleich: Vergleichen Sie Ihren Klassifikationsbaum mit dem eines anderen Lernenden.
Begründen Sie mithilfe eines Vergleichs des „Data Tables“, weshalb Ihre Klassifikationsbäume unterschiedlich sind.

Schritt 4: Beurteilung der Vorhersage

Qualität der Daten ermitteln: Links unter „Evaluate“ finden Sie „Predictions“. Ziehen Sie dieses rechts hinein und verbindne Sie „Predictions“ mit „Tree“ und „File“.
Ziehen Sie sich nun noch links die „Confusion Matrix“ heraus und verbinden Sie diese mit „Predictions“.
Qualität beurteilen: Öffnen Sie durch einen Doppelklick die „Confusion Matrix“.
Analysieren Sie mit Hilfe der Matrix, wie geeignet das erstellte Vorhersagemodell für einzelne Noten und auch insgesamt ist.
Die zu beachtenden Aspekte sind:
- Bei wie vielen Schülerinnen und Schülern war die Analyse korrekt?
- Bei wie vielen Schülerinnen und Schülern war die Vorhersage nur wenig falsch, d. h. bei wie vielen hat sie sich maximal um eine Note verschätzt?
- Bei wie vielen Schülerinnen und Schülern war die Vorhersage falsch, d. h. bei wie vielen hat sie sich um zwei oder mehr Noten verschätzt?
Qualität beeinflussen: Untersuchen Sie, wie sich die Matrix verändert, wenn Sie die Menge der Trainingsdaten langsam erhöhen.
Begründen Sie die Notwendigkeit, ein erstelltes Vorhersagemodell auf neue Daten, die Testdaten, anzuwenden.

Schritt 5: Abschließendes Urteil

Begründen Sie, ob Sie es in Ordnung finde, wenn Ihre Lehrkraft diese Möglichkeit nutzt, um Ihre Klausuren zu bewerten.
Würden Sie diese Möglichkeit akzeptieren, wenn die Qualität der Analyse so sehr verbessert werden würde, dass nur noch wenige Schülerinnen bzw. Schüler falsch (besser oder schlechter) bewerten würden?
In diesem Beispiel wurden rund 650 Datensätze verwendet, in der Klasse wären es nur knapp 30 Datensätze, spielt das für Ihre Entscheidung eine Rolle?

Übungen

Inhalt	So gut kann ich das:
Inhalt	++	+	〇	–	—
Ich kann Begriffe wie Testdaten und Trainingsdaten erklären und in Bezug zum Vorhersagemodell beurteilen.
Ich kann eine Vorhersage mittels Orange erstellen, auswerten und beurteilen.

Chancen und Risiken automatisierter Datenanalyse

Beschreiben Sie die beiden Überschriften und stellen Sie Vermutungen darüber an, weshalb das problematisch ist.

Aufgaben

Finden Sie sich in fünfer Gruppen zusammen. Diese Gruppe ist Ihre Stammgruppe.
(Stammgruppe) Im Folgenden werden fünf Beispiel aus dem Bereich der Datenanalyse dargestellt. Teilen Sie die fünf Beispiele auf, sodass sich jeder um einen Bereich kümmert. Bearbeiten Sie in Einzelarbeit jeweils Ihr Beispiel und beantworten Sie dabei folgende Fragen:
1. Beschreiben Sie die erhobenen Daten, auf welche Weise diese analysiert werden und mit welchem Ziel diese analysiert werden.
2. Erklären Sie, ob das Beispiel umsetzbar ist und inwiefern Fehler bei der Datenanalyse tolerierbar sind.
3. Beurteilen Sie, ob die Analyse solcher Daten nützlich oder gefährlich ist und ob es über – haupt zulässig sein sollte, diese Art der Analyse zu nutzen. Bedenken Sie dabei auch, wofür die Daten – wenn sie schon einmal erhoben wurden – noch genutzt werden könnten.
4. Begründen Sie, ob Sie Ihre Daten für diesen Zweck freiwillig hergeben würden.

Der Händler weiß Bescheid
Firmen sagen Ehescheidung voraus
Wie Big Data vor Kreditkartenbetrug schützt

Die GPS-Polizei
Wenn möglich, bitte senden

Versicherung belohnt sicheres Autofahren
Telematik-Tarife

Dystopia wird Wirklichkeit
Bundesländer und Datenanalyse
Deanonymisierung

Smart Meter verraten Fernsehprogramm Datenschutz Wie Amazon mit Alexa Kundendaten sammelt

(Expertengruppe) Finden Sie sich mit anderen zusammen, welche das gleiche Thema wie Sie bearbeitet haben.
1. Vergleichen Sie zunächst Ihre Ergebnisse und ergänzen Sie etwaige fehlende Aspekte.
2. Erstellen Sie gemeinsam eine kurze Darstellung (Präsentation, Schaubild, Plakat), wo Sie das Beispiel erklären und anschließend Ihre Ergebnisse zusammengefasst darstellen.
(Stammgruppe) Gehen Sie in Ihre Stammgruppe zurück.
1. Präsentieren Sie Ihre Ergebnisse aus Aufgabe 3 a und b.
2. Diskutieren Sie anschließend Gemeinsamkeiten und Unterschiede der Beispiele und halten Sie die Ergebnisse fest.
3. Beurteilten Sie in der Gruppe, ob es sich bei den Analysen um von Ihnen gewünschte und sinnvolle Arten der Datennutzung handelt. Wenn ja, welche Vorteile bringt diese mit sich? Wenn nein, gibt es Möglichkeiten dieser zu entfliehen oder zu verhindern, sodass Ihre Daten nicht genutzt werden können?