Netzwerk
Netzwerk
Netzwerk
Netzwerk
Netzwerk

2019-01-03 8 Minuten

Analyse: Webseitentraffic kaufen.

Schönen Gruß an die nicht-menschlichen Besucher dieses Blogs.

Auf Twitter kommen inzwischen zwei Drittel aller Links von Bots. Auf der Fremdgeh-Plattform Ashley Madison waren 70.000 weibliche Bots unterwegs, um Aktivität vorzutäuschen.

2016 war 51% des Traffics im Internet nicht menschlich.

Ich für meinen Teil werde meine nicht-menschliche (ist das die politisch korrekte Bezeichnung?) Leserschaft nicht mehr ignorieren. Aber wer sind meine Roboter-Leser überhaupt?

Zeit für eine Zielgruppen-Analyse.

Ein Bot-Honeypot

Ich weiß nicht, ob es dir schon mal aufgefallen ist, aber in meinem Footer am Blog ist mit einem 1×1 transparenten Pixel eine Seite verlinkt, die nicht für Menschen gedacht ist.

Ich werde die Seite hier jetzt nicht verlinken, da ich diese Analyse vielleicht mal wiederholen werde, wenn sich etwas Interessantes ergibt. Wenn du sie trotzdem findest, kannst du dir mal solide auf die Schultern klopfen.

Warum eine eigene Seite für Bots?

Damit ich in meiner Zielgruppen-Analyse heute nicht den Traffic von tausenden (inzwischen wirklich 💪) menschlichen Usern ausfiltern muss.

Ein Honeypot ist eine Art “Falle” mit der Hacker, feindlich gesinnte Akteure oder Bots “gefangen” werden. In der menschlichen Version wird ein Agent von einer attraktiven Person verführt, die dann versucht, Geheimnisse zu erlangen.

Die technische Version ist nicht ganz so sexy: es wird ein leichtes Ziel (z.B. ein Rechner mit absichtlich offen gelassenen Sicherheitslücken) installiert, um so Hacker frühzeitig erkennen zu können. Die greifen nämlich zuerst nach den tiefhängenden Früchten.

Wie erkennt man einen Bot?

In diesem Fall sehe ich in der Logfile meines Webservers nach:

54.36.150.148 – – [20/Nov/2018:12:49:35 +0100] „GET /lel/ HTTP/1.1“ 200 5316 „-“ „Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/)“ „martinhaunschmid.com“

In der gibt es den sogenannten “User-Agent”. Das ist ein Text, der beschreibt, welches Programm / mit was du gerade auf meinem Blog surfst. Der kann zwar sehr leicht gefaked werden, erlaubt aber trotzdem Rückschlüsse.

Oben im Beispiel sehen wir den User-Agent, der den Text “AhrefsBot” enthält. Ahrefs ist das SEO-Tool meiner Wahl. Und von dem bin ich am 20. November besucht worden.

Wer sind meine robotischen Leser?

Hierzu muss ich zuerst einmal herausfinden, wer auf meinen Honeypot zugegriffen hat. Ich lade mir die Logfiles der letzten 14 Tage herunter, und fange an.

Und bin direkt mal enttäuscht.

Nur 25 Zugriffe von Bots? Das sind nur 0,9% meines gesamten Traffics in der Zeit.
Und wenn man sich ansieht, welche Bots hier herumlungern, findet man eigentlich eher bekannte Namen:

  • Ahrefs
  • Google
  • Bing
  • Duck Duck Go
  • Moz
  • Semrush
  • eine tschechische Suchmaschine

Ich habe hier also einen Honeypot erstellt, der nur offizielle, quasi die “guten”, Bots protokolliert. Die sind natürlich auch mehr als willkommen auf meiner Seite – für den Blogartikel hätte ich aber auf… spannendere Sachen gehofft.

Ist mein Zugang falsch? Weg vom Honeypot, der nur Nützlinge einfängt.

Python 🐍

Nein, nicht die Schlange. Die Programmiersprache.

Symbolbild: Python-Programmierer

 

Beim Hacken sind zwei Programmiersprachen besonders beliebt:

  • Python
  • Ruby

Beides sind Sprachen, die für jedes Script-Kiddie leicht zu lernen sind. Auch für den generellen Einstieg ins Programmieren sind die Sprachen super geeignet.

Auch sind diverse Hacking-Tools in Python und Ruby geschrieben. Und weil Hacker auch nur Menschen sind, greifen sie gerne auf diese Tools zurück, anstatt sich den Aufwand zu machen, irgendetwas händisch zu erledigen.

Ich habe es an anderer Stelle sicher schon einmal erwähnt, aber:

Jede Webseite ist laufend Scans von diesen Tools ausgesetzt.

Wenn ich also jetzt nach User-Agents suche, die von diesen Tools kommen (sofern der Böse den User-Agent nicht gefaked hat – aber den Aufwand macht sich doch niemand), sieht das Ganze so aus:

25 “guten” Zugriffen stehen zwar nur 6 Zugriffe von Hacking-Tools auf meinem Blog gegenüber. Dafür ist meine haunschmid.tech 86 Zugriffen ausgesetzt gewesen. Aber auch hier nichts wirklich Spannendes dabei.

Schön langsam habe ich ein Problem. Ich kann diesen Blogartikel nicht einfach ohne irgendeine Story beenden.

Ich lasse mich also von den Instagrammern und Werbeagenturen dieser Welt inspirieren und kaufe mir einfach meinen Traffic. Was nicht passt, wird passend gemacht.

Traffic kaufen

Ich habe es bereits an anderer Stelle erwähnt, dass ich bereits vor Längerem Traffic gekauft habe. 35 Dollar für 5000 Besucher. Versprochen wurde mir, dass diese Besucher menschlich sind.

I call bullshit. Aber schauen wir es uns an.

Also existiert hat der Traffic zumindest auf jeden Fall. Ab 12. Dezember geht es für die bestellten 10 Tage gut ab auf meinem Blog:

Wie in den FAQ des Anbieters beschrieben, ist das alles direkter Traffic – in Google Analytics also als “direct“ zu finden. So weit so gut. Sehen wir uns die Zahlen an:

Der Großteil ist eigentlich unauffällig. Wären hier 100% oder 0% Bounce-Rate, wäre das verdächtig.

In einem Standard-Agentur-Reporting würde das definitiv als echter Traffic durchgehen. Auch die Verweildauer von 44 Sekunden passt für mich – das ist schon mal weit mehr, als viele Unternehmenswebseiten überhaupt aufweisen können.

Nur wenn ich mir ansehe, wie viele Personen von diesen 3.400 (hab ich nicht eigentlich 5000 bestellt!?) überhaupt Aktivität aufweisen und eine Conversion bei mir auslösen (Ich tracke anonym mit, wie viele Personen bis zu 75% scrollen) sieht es schon anders aus.

1,27% der User haben das Ziel “Artikel gelesen” erreicht. Im Vergleich zu 38% beim organischen Traffic.

Jetzt kann man natürlich argumentieren, dass ich nur Traffic gekauft habe, und dass “Artikel wirklich lesen” wohl kaum zu verkaufen ist. Dennoch zeigt das eindrucksvoll, dass eine Analyse nicht bei den ersten Zahlen aufhören darf, die man vorgesetzt kriegt.

Aber so weit lässt sich alles noch als “menschlicher Traffic” verkaufen. Ich calle jedoch immer noch Bullshit. Zeit für die großen Geschütze.

The big guns

Wie oben bereits mit den guten Bots, sehe ich mir auch hier mal genauer die Logs meiner Webseite an. Insgesamt sind das 202.000 Datensätze für den entsprechenden Zeitraum.

Wenn ich die vermeintlichen Bot-Zugriffe filtere, komme ich auf insgesamt 8.400 Zugriffe von 4485 unterschiedlichen IP-Adressen und 1326 unterschiedlichen User-Agents.

Ich habe keinen Plan, ob die Zahlen realistisch sein können.

Deshalb suche ich die “echten” Besucher im Vergleichzeitraum heraus, und komme zu folgendem Ergebnis. Blau sind die unique (also einzigartigen) IPs und User-Agents, grün sind alle.

Was das jetzt bedeutet? Keine Ahnung ¯\_(ツ)_/¯

We need to go deeper.

Als ich mir dann die Zugriffe der einzelnen IP-Adressen genauer ansehen, finde ich endlich einen Hinweis 🕵️‍♂️

Die IP-Adresse 173.239.53.9 hat stolze 55 Zugriffe auf meiner Webseite. Mein Blog ist zwar gut, aber das ist zu viel.

Der Verdacht bestätigt sich sehr schnell: dieser User hat 55-Mal in meinem Hauptmenü herumgeklickt. Kein einziger Blogartikel wurde hier angefragt. Ein, so würde ich sagen, sehr untypisches Verhalten für einen “100% echten” Benutzer.

In Google Analytics kann ich das ebenfalls nachvollziehen.

Die Robo-Besucher gehen also auf die Zielseite, und suchen sich alle Links, die auf eben dieser zu finden sind. Diese Links werden dann ebenfalls besucht. So entsteht der Anschein, dass ein echter Benutzer auf der Seite herumklickt.

In meinem Fall findet der Roboter nur Links zu Kategorien oder Archiven auf der Seite – einem menschlichen Besucher wäre das entweder (a) komisch vorgekommen und wäre abgesprungen, oder aber (b) hätte nach dem ersten Klick auf eine Kategorie zumindest irgendwann auf einen Artikel geklickt.

Wie funktioniert gekaufter Webseiten-Traffic?

Als ich den Traffic gekauft habe, musste ich eine Webseite angeben, auf die die Besucher denn alle zugreifen sollen.

  • Die Webseiten, die besucht werden sollen, wird vom Anbieter in einen Pool gegeben
  • Ein (oder vermutlich mehrere) Programme ruft über den gebuchten Zeitraum die Webseite tausende Male auf
  • Es verwendet hierzu sogenannte Proxy-Server, damit jeder Zugriff über eine neue IP-Adresse läuft
  • Es faked den User-Agent, damit nicht eindeutig klar ist, dass es sich um Bots handelt
  • Damit die Zahlen in Google Analytics stimmen, müssen die Bot-Besucher aber auch ein wenig auf der Webseite herumklicken. Dazu suchen sie sich die Links auf der besuchten Seite, und statten diesen ebenfalls einen Besuch ab.

Wie kann man diesen Fake-Traffic erkennen?

Mit ein wenig Geschick und einem Google Analytics-Zugang (diesen immer von der Agentur freischalten lassen) sind die Red Flags leicht zu erkennen:

  • Die Bots können nur direct-Traffic erzeugen. Ist dieser unverhältnismäßig hoch, lohnt es sich nachzufragen. Wenn dann als Antwort des Dienstleisters kommt “wir haben das Tracking vergessen”, bitte noch genauer hinsehen. Natürlich passieren Fehler, aber die Ausrede ist sehr bequem.
  • Conversions ansehen. Bots scrollen in den wenigsten Fällen auf der Webseite. Auch Kaufabschlüsse bringen die zu 100% noch nicht hin. Daher unbedingt ansehen, ob sich die Conversionrate mit anderen Traffic-Arten vergleichen lässt.
  • Im Bericht “User-Flow” können verdächtige Verhaltensmuster erkannt werden
  • Nicht vom Durchschnitt ablenken lassen. Die 2 Seiten pro Session in meinem Fall klingen total plausibel. Sieht man sich einzelne User an merkt man schnell, dass kein Mensch 53 Seiten in einer Session ansieht.

Fazit

Hätte ich mir die Besucher für einen normalen Blogartikel gekauft, das Verhalten der Bots wäre wohl um einiges unauffälliger gewesen. Insgesamt muss ich sagen: die Bots verstecken sich nicht schlecht in der normalen Userschaft.

Natürlich, mit ein wenig Nachforschen kommt man dahinter. Nur: wie viele Marketing-Verantwortliche sehen genau hin?

Und vor Allem:

Wer Traffic kauft, hat kein Interesse, das nach außen zu kommunizieren. Außer Menschen wie ich eben. Für die Wissenschaft.

2 Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.