Google-Leak 2024: Was steht in den enthüllten Algorithmus-Dokumenten?

Es ist die SEO-Bombe im Mai/Juni 2024: Der amerikanische SEO-Influencer Rand Fishkin berichtet auf seinem Blog von rund 2.600 enthüllten Google-Dokumenten, die ihm zugespielt wurden und die zirka 14.000 Rankingfaktoren nennen. Google hat das Leck bestätigt – warnt aber davor (Zitat) "ungenaue Annahmen über die Suche zu treffen, die auf kontextlosen, veralteten oder unvollständigen Informationen beruhen". Ich habe das Wichtigste für euch zusammengefasst.


Google-Leak 2024: Rankingfaktoren, Widersprüche, mutmaßliche Positivlisten bei sensiblen Such-Themen
Google-Leak 2024: Rankingfaktoren, Widersprüche, mutmaßliche Positivlisten

Wer berichtete zuerst über die enthüllten Google-Dokumente?

Rand Fishkin (*1979 in Seattle) ist ein amerikanischer Unternehmer und SEO-Influencer. Innerhalb der SEO-Szene gilt er als glaubwürdige Quelle mit einem hochwertigen Informanten-Netzwerk. Ein 2024er-Interview mit ihm findet ihr auf den Seiten des Marketing-Fachmagazins Akquisa.

Ende Mai veröffentlichte Fishkin auf dem Blog seiner Website sparktoro.com den Beitrag "An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them"

In der Einleitung schreibt er:

"On Sunday, May 5th, I received an email from a person claiming to have access to a massive leak of API documentation from inside Google's Search division." 

Zu Deutsch: "Am Sonntag, den 5. Mai, erhielt ich eine E-Mail von einer Person, die behauptete, Zugang zu einem massiven Leck in der API-Dokumentation innerhalb der Suchabteilung von Google zu haben."

Der Informant heißt Erfan Azimi und ist laut Fishkin ein SEO-Fachmann und Unternehmer.
 

Welche Google-Dokumente wurden in welchem Umfang enthüllt?

US-SEO-Fachportale berichten von 2.596 Modulen einer API-Dokumentation ("application programming interface", zu Deutsch "Programmier-Schnittstelle"), die 14.014 API-Attribute (im weitesten Sinne also Google-Rankingfaktoren) umfasst.

Diese Code-Informationen seien Ende März 2024 auf der Softwareentwicklungs-Plattform GitHub hochgeladen worden und dort bis Anfang Mai einsehbar gewesen.

Zu der Frage, wie es zu der Veröffentlichung auf GitHub kommen konnte, schreibt Fishkin:

"[...] the most credible explanation for its exposure matches what my [...] source told me on our call: these documents were inadvertently and briefly made public." 

Zu Deutsch: "[...] die glaubwürdigste Erklärung für die Aufdeckung entspricht dem, was mir meine [...] Quelle bei unserem Telefonat sagte: Diese Dokumente wurden versehentlich und kurzzeitig veröffentlicht." 

Google-Leak 2024: Handelt es sich um aktive Rankingfaktoren?

Fishkin betont: Die Dokumente sagen nichts darüber aus, ob die genannten Elemente tatsächlich im Suchalgorithmus genutzt werden – und falls ja, mit welcher Gewichtung.

Es ist also möglich, dass Google manche davon nicht (mehr) nutzt bzw. nie nutzte – oder nur zu Testzwecken erschuf.

Brisant: Einige der in den Dokumenten genannten Rankingfaktoren widersprechen bisherigen offiziellen Google-Aussagen. Schauen wir uns das im Detail an:

"NavBoost" und weitere Widersprüche zu offiziellen Rankingfaktor-Aussagen

Sind Nutzersignale doch ein Rankingfaktor in der unbezahlten Google-Suche? "NavBoost" ist ein Google-Rankingsignal, dessen Name immer wieder in den geleakten Dokumenten auftaucht. Demnach nutzt der Suchmaschinenriese sehr wohl Nutzersignale (user signals) als Rankingfaktor, obwohl er dies bislang stets verneinte.

Nutzersignale (user signals) sind Metriken, die messen, wie User*innen mit einer Webseite interagieren. Google könnte so erheben, wie zufrieden oder unzufrieden Nutzer*innen mit der User-Experience (UX, Nutzererlebnis) einer Seite sind, auf die sie über einen geklickten Suchtreffer kamen. Die Leitfrage lautet: Wurde die Suchabsicht (search intent) des Users gut oder schlecht durch die Webseite bedient?

Technisch könnte Google dies über die sogenannte "Return-to-SERP-Rate" messen (SERP steht für "Search Engine Result Page", zu Deutsch "Suchergebnisseite"): 

  • Je mehr User*innen einen Suchtreffer in der unbezahlten Google-Suche klicken ...
  • ... und anschließend auf der angeklickten Webseite bleiben, ... 
  • ... desto höher scheint die Qualität der Seite zu sein ...
  • ... und desto besser wird diese Seite in der unbezahlten Google-Suche künftig ranken. 
Google geht dann davon aus, dass die Webseite die Suchabsicht des Users optimal erfüllt hat. Man spricht von einem "long click".

Dem gegenüber steht ein "short click": Klickt der User auf der Ziel-Seite des Suchtreffers den Zurück-Button seines Browsers, um zur Google-Suchtrefferseite zurückzukehren, könnte der Algorithmus schlussfolgern: Die angeklickte Webseite hat die Suchabsicht des Users nicht optimal erfüllt, der User prüft andere Suchtreffer.

Google hat bislang offiziell stets verneint, solche Nutzersignale (user signals) auszuwerten. Solche "contradictions" (Widersprüche) zu offiziellen Google-Aussagen tauchen vermehrt in den geleakten Dokumenten auf – schauen wir uns ein paar an:

Nutzt Google doch Chrome-Daten als Rankingfaktor? Mit über 50 Prozent Marktanteil (Quelle: Statista) ist Google Chrome der weltweit meistgenutzte Browser. Technisch wäre es ein Leichtes für den Suchmaschinenriesen, mittels Chrome-Daten Nutzersignale auszuwerten, um Webseiten qualitativ einzuschätzen. Dies hat das Unternehmen jedoch stets dementiert.

In den enthüllten Dokumenten taucht jedoch ein Modul auf, das "ChromeInTotal" heißt – und in den Augen von Expert*innen darauf hinweist, dass Google die Chrome-Daten sehr wohl als Rankingsignal auswertet.

Gibt es doch eine Sandbox für neue Websites? Viele Suchmaschinen-Optimierer*innen beobachten, dass neue Online-Auftritte in den ersten Wochen nach ihrem Start zunächst gut in der unbezahlten Google-Suche ranken, um dann Rankings zu verlieren. Vermutung: Neue Websites müssen sich erst beweisen, bevor sie sich im Google-Ranking etablieren können. Die Existenz eines solchen "Sandkastens" (Sandbox) hat Google immer dementiert – die enthüllten Dokumente lassen jedoch Gegenteiliges vermuten.  

Spielt das Alter einer Domain doch eine Ranking-Rolle? Die enthüllten Dokumente legen es nahe – obwohl Google bislang immer sagte, dass die Domain-Historie (≠ Alter) ein Rankingfaktor sei, nicht jedoch ihr Alter.

Ist "site authority" doch ein Rankingfaktor? Die Dokumente legen nahe, dass die Vertrauenswürdigkeit und Relevanz des kompletten Online-Auftritts (= site authority) für das Ranking in der unbezahlten Google-Suche eine Rolle spielen – gleichwohl Google dies offiziell bislang verneinte.

Soweit einige Informationen der geleakten Google-Dokumente, die bisherigen Aussagen des Suchmaschinenriesen widersprechen. Darüber hinaus scheint Google bei manchen Themen auch mit einer Vorauswahl von Suchtreffern zu arbeiten – das schauen wir uns jetzt an:

Google-Leak 2024: Gibt es "Whitelists" für sensible Themen?

Die enthüllten Dokumente lassen vermuten, dass Google während der Covid-19-Pandemie mit "Whitelists" arbeitete: Diese Positivlisten enthielten Websites, die bezogen auf Covid-Informationen als vertrauenswürdig eingestuft wurden – und deshalb entsprechend hoch in der unbezahlten Google-Suche ranken durften.

Ein ähnliches Prinzip soll zu Zeiten politischer Wahlen eingesetzt worden sein, um zu vermeiden, dass Fake-News-Seiten hoch in der unbezahlten Google-Suche ranken. 

Die Namen der entsprechenden Module in der geleakten API-Dokumentation lauten "isElectionAuthority" und "isCovidLocalAuthority".

Nutzt Google die Arbeit seiner menschlichen Quality Rater auch algorithmisch?

Es ist seit langem bekannt, dass Google mehrere tausend menschliche Tester*innen beschäftigt, um die Qualität von Webseiten einzuschätzen. Entsprechende Dokumente veröffentlicht der Suchmaschinen-Betreiber als regelmäßiges Update im Web unter dem Titel Search Quality Rater Guidelines: An Overview.

Bislang verneinte Google stets die Frage, ob die Ergebnisse dieser menschlichen Tester*innen in den Such-Algorithmus einfließen. Die nun geleakten Dokumente weisen aber darauf hin, dass dies doch der Fall ist.

Was sagt Google zu dem Algorithmus-Leak?

Google hat den Leak bestätigt – warnt aber vor falschen Schlüssen. Das offizielle Statement gegenüber dem US-SEO-Fachportal seroundtable.com (und anderen Medien) lautet:

"We would caution against making inaccurate assumptions about Search based on out-of-context, outdated, or incomplete information. We've shared extensive information about how Search works and the types of factors that our systems weigh, while also working to protect the integrity of our results from manipulation."

Zu Deutsch: "Wir möchten davor warnen, ungenaue Annahmen über die Suche zu treffen, die auf nicht kontextbezogenen, veralteten oder unvollständigen Informationen beruhen. Wir haben ausführliche Informationen darüber geteilt, wie die Suche funktioniert und welche Faktoren unsere Systeme berücksichtigen, während wir gleichzeitig daran arbeiten, die Integrität unserer Ergebnisse vor Manipulationen zu schützen."

Google-Leak 2024: Es bleibt spannend

Soweit meine Zusammenfassung der Ereignisse Ende Mai 2024. Die kommenden Tage, Wochen und Monaten werden weitere spannende Informationen rund um die enthüllten Dokumente mit sich bringen.

Wie wird Google kommunikativ damit umgehen? Auch hier lohnt es sich, genau hinzuschauen und zu analysieren.

Wer jetzt erbost aufschreit "Google lügt und betrügt – ich habe es immer gewusst!", dem/der möchte ich sagen: Ich kann anhand der bislang geleakten Informationen kein Google'sches Fehlverhalten erkennen.

➤ Was wäre verwerflich daran, Nutzersignale (anonym) auszuwerten, um die Qualität von Webseiten einschätzen zu können?

➤ Was wäre verwerflich daran, sich in Sachen algorithmische Details bedeckt zu halten, um Manipulationsversuchen seitens Website-Betreiber*innen keinen Vorschub zu leisten?

➤ Was wäre verwerflich daran, bei sensiblen Themen wie Gesundheit (Covid-Pandemie) und Demokratie (Wahlen) per Positivlisten sicherzustellen, dass keine Fake-News ganz oben im Ranking erscheinen? 

Lasst mich gerne in den Kommentaren wissen, wie ihr den Google-Leak 2024 einschätzt. Ich bleibe derweil für euch am Ball.

Quellen:  

Kommentare

Hier bloggt Mathias Sauermann:

NEWSLETTER:

Erhalte die besten Beiträge meines Blogs >gratis und freibleibend!

Vernetze dich mit mir auf LinkedIn.

Weitere spannende Beiträge dieses Blogs findest du in den Rubriken:
Online-Marketing-Tipps
Digitalisierung

Meinung!
Onliner-Allerlei


Titelbild: Digital Art unter CC0 1.0