Jedem, der mit Google Analytics arbeitet, ist es sicherlich schon einmal passiert, dass er bei Auswertungen in die Sampling-Falle getappt ist. Man ist auf die Daten im Bericht konzentriert und übersieht das kleine gelbe Sampling-Icon, welches oben links im Bericht erscheint und darauf hinweist, dass die Berechnungen nur auf einer Teilmenge der erhobenen Daten basieren.
Besonders ärgerlich ist es, wenn man dies nicht sofort bemerkt und sich erst bei einem späteren Vergleich unterschiedlicher Berichte wundert, dass die ausgeworfenen Daten nicht übereinstimmen. Wir zeigen euch, mit welchen Mitteln ihr Sampling-Probleme umgehen könnt.
Inhaltsverzeichnis
Was bedeutet Data Sampling überhaupt?
Das Sampling bei Google Analytics ist nichts anderes als eine auf Stichproben basierende Datenerhebung. In der Statistik sind solche Stichprobenerhebungen weit verbreitet, da die Analyse von Teilmengen wesentlich schneller durchgeführt werden kann als die Analyse der Gesamtmenge bei ähnlichen Ergebnissen. Die Ergebnisse der Teilmenge werden dann einfach auf die Gesamtmenge hochgerechnet. Ob die Ergebnisse zuverlässig sind, ist jedoch stark abhängig von der Auswahl der Beispiel-Daten.
Wann werden die Daten bei Google Analytics gesampelt?
Sobald die Auswertungsanforderungen in den Google Analytics Berichten zu komplex sind, werden die Daten gesampelt. Laut Google erfolgt die Stichprobenerhebung automatisch, sobald für einen Bericht mehr als 500.000 Sitzungen erfasst werden.
Wie erkenne ich, ob die Daten gesampelt werden?
In den Standardberichten werden immer ungefilterte Daten ausgespielt.
Bei Einsatz von
- benutzerdefinierten Berichten
- Filtern
- Segmenten
- Sekundäre Dimension
- Nutzer- oder Verhaltensfluss
- oder bei Betrachtung langer Zeiträume
werden die Berechnungen unter Umständen zu umfangreich und die Daten werden gesampelt.
Ob ein Bericht gesampelt wird, erkennt ihr oben links in der Ecke rechts neben dem Berichtsnamen. Dort erscheint ein kleines gelbes Icon, sobald gesamplete Daten verwendet werden. Beruht die Berechnung auf den vollständigen Daten, ist dieses Icon grün. Wenn ihr mit der Maus über das Zeichen fahrt, öffnet sich ein kleines Fenster, in dem angegeben wird, auf viel Prozent der Gesamtsitzungen die Berechnung beruht.
Wann wird der Einsatz von Stichprobenerhebungen zum Problem?
Bei der Beobachtung von Trends reicht eine Stichprobenerhebung von 80 oder 90 % der Gesamtsitzungen schon vollkommen aus.
Je niedriger die Samplingquote, also je weniger Daten der Datenberechnung zugrunde liegen, desto größer werden natürlich die Ungenauigkeiten. Bei jeder neuen Datenabfrage erhaltet ihr neue Ergebnisse. Dies erschwert einen Vergleich von Daten aus verschiedenen Berichten.
Bei einem Vergleich von Gesamtzugriffen und SEO Zugriffen kann es zum Beispiel vorkommen, dass die SEO Zugriffe einer URL höher sind als die Gesamtzugriffe, da der Bericht für die Gesamtzugriffe ungesampelte Daten enthält und der SEO Bericht auf Stichprobenerhebung basiert. Das kann euch bei einem Content Audit und anderen Auswertungen zum Verhängnis werden. Und auch bei einem Vergleich von Monatsberichten und Jahresberichten kann dies der Fall sein.
Um akkurat mit den Zahlen zu arbeiten, speziell auch für Vergleiche, sind diese Daten also unbrauchbar.
Welche Möglichkeiten gibt es, das Sampling zu umgehen?
Glücklicher Weise gibt es verschiedene Möglichkeiten, das Sampling zu unterbinden.
1. Höhere Genauigkeit einstellen
Wenn die Samplingquote ziemlich hoch ist, kann es ausreichen, die Samplingquote zu erhöhen. Fahrt dazu mit der Maus über das gelbe Sampling-Icon. In dem Fenster, das sich dann öffnet, habt ihr die Möglichkeit, eine höhere Genauigkeit einzustellen.
Die höhere Genauigkeit geht zu lasten der Antwortzeit, die sich dann verlängert.
Bestenfalls wird damit schon das Sampling ausgeschaltet. Das erkennt ihr daran, dass das Icon grün wird.
2. Nutzt Standard-Berichte
Die Standardberichte nutzen immer die gesamte Datenmenge und sind nicht gesampelt.
Manchmal könnt ihr die gleichen Ergebnisse mit Standard-Berichten erzielen, um den Einsatz von Segmenten oder sekundären Dimensionen zu vermeiden.
Beispiel: Wenn ihr die Sitzungen für die Top Zielseiten über organische Suche zählen möchtet, könnt ihr den Bericht Verhalten – Websitecontent – Zielseiten auswählen und das Segment „organische Zugriffe“ darüberlegen. Schon wird gesampelt 🙁
Die gleichen Daten erhaltet ihr, wenn ihr in den Report Akquisition – Alle Zugriffe – Channels geht und die Organische Suche anklickt. Anschließend wählt ihr die Primäre Dimension Zielseite aus. Und es wird nicht gesampelt 🙂
3. Verkürzt den Betrachtungszeitraum
Eine weitere Möglichkeit besteht darin, den Betrachtungszeitraum zu verkürzen. Damit verringert ihr die Zahl der Visits. Wenn ihr z.B. eine Jahresauswertung erstellen möchtet und ihr erhaltet Daten auf Stichprobenbasis, dann solltet ihr versuchen, die Daten stattdessen quartalsweise oder monatlich zu ziehen. So erhaltet ihr eine kleinere Datenmenge zum Verarbeiten. Im Anschluss daran könnt ihr die Zahlen z.B. in Excel wieder zusammenfügen.
4. Nutzt mehrere gefilterte Datenansichten
Wenn ihr öfter einen bestimmten Bereich anschauen möchtet und schon alleine durch den Einsatz eines Segments in das Sampling rutscht, dann solltet ihr euch vielleicht eine eigene Datenansicht für diesen Segmentbereich erstellen. Die Standard-Berichte dieses Bereiches werden nicht gesampelt.
5. Unterteilt Daten in verschiedene Properties
Der automatische Einsatz von Stichprobenerhebungen wird auf Property-Ebene vorgenommen. Wenn ihr z.B. viele unterschiedliche Länder-Websites habt, könntet ihr für jede Länder-Website eine eigene Property erstellen.
6. Arbeitet mit Tools, welche die Google Analytics API nutzen
Mit Hilfe der API können die Berichtsanfragen gestückelt werden, so dass der Einsatz des Samplings ausgehebelt wird. Dabei wird die Datenmenge jeder einzelnen Anfrage klein gehalten und anschließend alle einzelnen Abfragedaten wieder zusammengesetzt. Wir haben bisher zum Beispiel gute Erfahrungen mit NextAnalytics gemacht, aber auch AnalyticsEdge ist empfehlenswert.
7. Google Analytics 360 Suite
Wenn ihr mit solch großen Datenmengen arbeitet, dass eure Berichte sehr schnell bzw. sehr oft gesampelt werden, dann solltet ihr euch überlegen, Google Analytics Premium bzw. die Google Analytics 360 Suite einzusetzen. Der Einsatz von GA Premium Version bringt viele Vorteile mit sich, inclusive der Möglichkeit, ungefilterte Berichte zu erstellen. Allerdings ist das Webanalyse Tool in dieser Version nicht kostenlos.
Fazit
Die Sampling Funktion in Google Analytics erstellt Berichte auf Grundlage von Teilmengen der erhobenen Daten und tritt in Kraft, sobald der Aufwand für die Berechnung der ausgewählten Gesamtdatenmenge zu aufwändig wird. Berichte, die mit gesampelten Daten erstellt werden, sind nur bedingt aussagekräftig und lassen sich nicht zum Vergleich mit anderen Berichten heranziehen. Es gibt allerdings verschiedene Möglichkeiten, die Sampling-Probleme zu umgehen und auch für große Datenmengen verlässliche Berichte zu erhalten.