Cross Device Tracking

Cross Device Tracking

Cross Device Tracking

Cross Device Tracking bedeutet, den User einer Webseite auch dann wieder eindeutig zu erkennen, wenn diese über verschiedene Geräte (Devices) ankommt. Dieses Problem muss gelöst werden, wenn eine Webseite Werbe Budget im Online Marketing ausgibt und das Verfahren der „Customer Journey“ angewendet wird, um eine gerechte Budget Allokation herzustellen.

Wir unterscheiden beim „Cross Device Tracking“ zwischen zwei verschiedenen Verfahren:

a) Deterministische Verfahren

Hierbei wir ein „eingeloggter“ Besucher erkannt. Dazu muss dieser mit seinen mobilen Geräten und seinen nicht mobilen Geräten den Shop besuchen und sich zudem dort auch noch einloggen. Erst dann kennen wir die Person anhand des Logins und können den Kunden und dessen verschiedene Devices mit seiner User ID im Cookie tracken. Das ganze ist nicht sehr neu, siehe hier und es hat noch einen kleinen Haken: die Kunden welche sich mit allen Devices im Shop anmelden ist sehr gering. Somit können wir mit dieser Methode nur einen sehr kleinen Teil der Käufer wirklich „Cross Device“ tracken.

b) Probabilistische Verfahren

Bei diesem Verfahren wird anhand eines „Finger Print“ ein Kunde auch dann erkannt, wenn er sich noch gar nicht im Shop angemeldet hat.

Beispiel:

  • Ihre Geräte senden bei jedem Besuch einer Webseite Daten im Referrer mit, welche sehr eindeutig sind
  • Sie sind in einem Shop eingeloggt und bewegen sich immer wieder in den gleichen WLan´s. Diese Info verrät auch, welche Geräte noch zu Ihnen gehören, wenn diese im gleichen WLan eingeloggt sind

Das ganze ist dann mehr eine mathematische Wahrscheinlichkeit und birgt eine gewisse Unschärfe. Aber man hat eine wesentlich größere Abdeckung bei der Erkennung der Cross Device Kunden. Auch hier gibt es wieder einen kleinen Haken: das Thema Datenschutz macht dieses Verfahren in Deutschland sehr schwer und man sollte vor dem Einsatz mit einem Datenschutzbeauftragten genau beraten, was zu tun ist.


Technisches SEO Campixx 2015

SEO Campixx 2015 Vortrag: Technisches SEO

Ich hatte während der SEO Campixx 2015 die Ehre zusammen mit Matthias Plankl, einen Vortrag zu halten. In diesem Jahr haben wir uns mal wieder für ein Thema entschieden, welches mehr für die Beginner der SEO Szene gedacht war – die technische SEO Optimierung einer Webseite. Man kann dieses Thema scheinbar gar nicht oft genug wiederholen, denn in der Praxis vergeht so gut wie kein Tag, an welchen es keine technischen SEO Problemen gibt.


google-crawler

Technisches SEO: Optimierung für die Ideale robots.txt

Ein absolutes Basic bei der SEO Optimierung einer Webseite, stellt die Optimierung für die ideale robots.txt dar.

Was ist die robots.txt:

Die Robots Exclusion Protocol (REP) oder robots.txt ist eine Textdatei, um Suchmaschinen Roboter anzuweisen, wie diese crawlen (Webseite durchsuchen) und in der Suchmaschine indexieren (aufnehmen) dürfen.

Diese Textdatei muss immer „robots.txt“ heißen und muss immer im Hauptverzeichnis (Root) der Webseite liegen, siehe Beispiel: http://www.webfreundlich.de/robots.txt

Gründe für die Optimierung der idealen robots.txt:

  1. Google sucht als ersten bei dem Aufruf einer Webseite nach dieser Datei, was deren Bedeutung unterstreicht
  2. Manchmal wird eine Webseite für den Google Bot unbewusst ganz oder teilweise gesperrt
  3. Oft wird eine Webseite an Stellen gecrawlt, welche für den Google Bot Tabu sein sollten und somit wird wertvolles Crawling Budget verschwendet
  4. Auch falsche robots.txt Einträge werden oft gesehen, welche dann keine Wirkung haben, wie gewünscht

Übersicht der Befehle zur die Optimierung der robots.txt:

Blockieren aller Web-Crawler von allen Inhalten
User-agent: *

Disallow: /

Blockieren Sie eine bestimmte Web-Crawler aus einem bestimmten Ordner
User-agent: Googlebot

Disallow: /verzeichnis-xyz/

Blockieren Sie eine bestimmte Web-Crawler von einer bestimmten Web-Seite
User-agent: Googlebot

Disallow: /verzeichnis-xyz/blockierte-seite.html

Lassen Sie eine spezielle Web-Crawler, um eine bestimmte Webseite besuchen

User-agent: *

Disallow: /verzeichnis-xyz/blockierte-seite.html

User-agent: Googlebot

Allow: /verzeichnis-xyz/blockierte-seite.html

Sitemap Parameter 

Sitemap: http://www.webfreundlich.de/sitemap_index.xml

Prüfung der robots.txt auf Fehler

Nutzen Sie die Möglichkeit, Ihre Robots.txt auf Fehler zu prüfen. Hierzu stellt Google in den Google Webmaster Tools ein eigenes Tool zur Verfügung.

 

robots-txt-tester

Wichtige robots.txt Regeln

  • Immer daran denken: die robots.txt kann einer Suchmasche nur das Crawling untersagen, aber nicht die Indizierung!
  • Wenn ein Verzeichnis oder eine Datei bereits im Google Index zu finden sind, sollte zuerst das Meta Tag  Robots mit den Parametern „noindex, follow“ zur Steuerung Indexierung eingesetzt werden
  • Erst wenn ein Verzeichnis oder eine Datei nicht mehr im Google Index zu finden sind, sollte man diese mit der robots.txt auch für das Crawling sperren
  • Es ist wichtig zu beachten, dass bösartige Crawler wahrscheinlich die robots.txt völlig ignorieren
  • Nur ein „Disallow:“-Zeile wird für jede URL erlaubt
  • Jede Subdomain auf einem Root-Domain verwendet eine separate robots.txt-Dateie
  • Google und Bing übernehmen zwei Zeichen für spezifische Expressionsmuster Ausgrenzung (* und $) regelmäßig.
  • Der Dateiname der robots.txt-und Kleinschreibung. Verwenden Sie „robots.txt“, nicht „Robots.txt“.

Weitere Informationen zur robots.txt:

Die Robots Exclusion Protocol (REP) ist eine Gruppe von Web-Standards, Web-Roboter Verhalten und die Indizierung durch Suchmaschinen zu regulieren. Die REP besteht aus den folgenden:

  • Die ursprüngliche REP von 1994, erweitert 1997, die Definition Raupen Richtlinien für robots.txt. Einige Suchmaschinen-Unterstützung Erweiterungen wie URI-Muster (Wild Cards).
  • Seine Ausdehnung von 1996 definiert, Indexer-Richtlinien (REP-Tags) für den Einsatz in der Robots-Meta-Element, auch bekannt als „Robots-Meta-Tag.“ Inzwischen Suchmaschinen unterstützen zusätzliche REP-Tags mit einem X-Robots-Tag. Webmaster können REP-Tags im HTTP-Header von Nicht-HTML-Ressourcen, wie PDF-Dokumente oder Bilder anzuwenden.
  • Die Microformat rel-nofollow von 2005 definiert, wie Suchmaschinen sollten Links zu behandeln, wo die Ein Element der REL-Attribut enthält den Wert „nofollow“.

Robots Exclusion Protocol Schlagwörter

Zu einer URI, REP-Tags (noindex, nofollow, unavailable_after) steuern insbesondere Aufgaben der Indexer und in einigen Fällen (nosnippet, noarchive, noodp), auch für Abfragen zur Laufzeit einer Suchanfrage angewendet. Anders als bei Raupen Richtlinien, interpretiert jede Suchmaschine REP-Tags anders. Zum Beispiel, wischt sich sogar Google-URL nur Inserate und ODP Verweise auf ihren SERPs, wenn eine Ressource getaggt mit „noindex“, aber manchmal Bing Listen auf ihren SERPs derartige externe Verweise auf URLs verboten. Seit REP-Tags können in META-Elemente von X / HTML-Inhalte sowie in HTTP-Header von einem beliebigen Web-Objekt zugeführt werden, ist der Konsens, dass der Inhalt von X-Robots-Tags sollten widersprüchliche Richtlinien in META-Elemente gefunden stimmen.

Microformats

Indexer-Richtlinien setzen, wie Mikroformate werden Seiteneinstellungen für bestimmte HTML-Elemente überstimmen. Zum Beispiel, wenn eine Seite von X-Robots-Tag heißt es „folgen“ (es gibt keine „nofollow“-Wert), die rel-nofollow-Richtlinie eines bestimmten A-Element (Link), gewinnt.

Obwohl robots.txt fehlt Indexer-Richtlinien, ist es möglich, Indexer Richtlinien für Gruppen von URIs mit serverseitigen Skripts auf Site-Ebene, die X-Robots-Tags, die angeforderten Ressourcen gelten handeln gesetzt. Diese Methode erfordert Programmierkenntnisse und ein gutes Verständnis von Web-Server und das HTTP-Protokoll.

Pattern Matching

Google und Bing sowohl ehren zwei reguläre Ausdrücke, die verwendet werden können, um Seiten oder Unterordnern, die ein SEO will ausgeschlossen identifizieren. Diese beiden Zeichen sind die Stern (*) und das Dollarzeichen ($).

* – Das ist eine Wildcard, die jede Folge von Zeichen repräsentiert, ist
$ -, Die das Ende der URL entspricht
Presse und Information

Die robots.txt-Datei ist öffentlich-bewusst sein, dass eine robots.txt-Datei ist eine öffentlich zugängliche Datei. Jeder kann sehen, welche Abschnitte eines Servers der Webmaster die Motoren blockiert aus. Das bedeutet, wenn ein SEO hat private Anwender Informationen, die sie nicht wollen, dass öffentlich durchsuchbar, werden sie eine sichere Ansatz-wie verwenden sollte als Passwort-Schutz-Besucher aus der Anzeige keine vertraulichen Seiten, die sie nicht indiziert werden wollen zu halten.