Website fehlerfrei gecrawlt, aber nicht von Google indexiert – Warum?

SEO Suchmaschinen Optimierung seo-758264
f03991b58c0e43309c67772ccdb32a55

Warum wird meine Website nicht indexiert?

Die Google Search Console crawlte fehlerfrei alle Webseiten anhand meiner XML-Sitemap, doch indexiert wurden nur eine einzige Webseite. 48 Webseiten wurden absichtlich nicht indexiert.

firefox 2022 07 03 15 52 07

Aber was heißt „absichtlich nicht indexiert“? Die nicht indexierten Seiten wurde weder durch die robot.txt für Spider gesperrt, noch enthalten sie Double Content. Letzteres würde Google mir außerdem mitteilen. Ich bin Sprachlos. Warum wird eine Seite indexiert und 48 Seiten tauchen nicht im Google_Index der Suchmaschine auf? Was unterscheidet die eine indexierte URL von den anderen, nicht indexierten, Webseiten? Ist eine langsame Website-Geschwindigkeit schuld?

Zumindest bin ich froh, dass kein Fehler vorliegt und meine Domain abgestraft wurde. Doch die von Google angebotenen weiterführenden Hilfe-Links sind mal wieder ein Schuss ins Blaue, weder zielführend noch hilfreich.

„Diese Seite ist nicht im Index, aber nicht aufgrund eines Fehlers.“

Im Bereich „Abdeckung“ erhalte ich eine Übersicht darüber, wie viele Webseiten ausgeschlossen sind und was die Gründe für den Ausschluss aus dem Google-Index sein könnte.

firefox 2022 07 03 17 22 19

Bei den „Details“ finde ich eine interessante Auflistung möglicher Fehler:

  • Gefunden – aber nicht indexiert: 47
  • Seite mit Weiterleitung: 2
  • Duplikat – eingereichte URL nicht als kanonisch festgelegt: 1
  • Durch „noindex“ ausgeschlossen:1
  • Nicht gefunden (Error 404): 1
  • Duplikat – Google hat andere Seite als kanonische Seite bestimmt: 0
  • Gecrawlt – aber nicht indexiert: 0

GEFUNDEN wurden 47 Urls, die aber NICHT GECRAWLT wurden.

Wenn ich im Bericht aus eine verlinkte URL gehe, die nicht im Index ist, und die URL prüfen lasse, erhalte ich verschiedene Informationen zu der ausgeschlossenen Webseite.

firefox 2022 07 03 15 59 34

Zumindest ist es ein Hinweis darauf, dass diese Website auf keiner Sperrliste stehe oder die Seiten Fehler enthalten. Sie wurde einfach nicht gecrawlt.

Was bedeutet Status „Ausgeschlossen“ von der Indexierung?

Google gibt erst einmal Entwarnung und macht leichte Hoffnung.

Diese Seiten werden normalerweise nicht indexiert und das scheint uns angemessen. Bei diesen Seiten handelt es sich entweder um Duplikate indexierter Seiten oder ihre Indexierung wurde durch einen Vorgang auf Ihrer Website blockiert oder sie wurden aus einem anderen Grund nicht indexiert, der kein Fehler zu sein scheint.

Quelle: Google

Etwas haben die betroffenen Seiten also an sich, von dem Google glaubt, der Webmaster sei mit dem Ausschluss aus dem Google-Index der Suchmaschine zufrieden oder einverstanden.

Google nennt eine Reihe von Ausschlusskriterien für die Aufnahme einer Webseite in den Index der Google Suchmaschine.

Gefunden – zurzeit nicht indexiert

Die Seite wurde zwar von Google gefunden, aber noch nicht gecrawlt. Wenn diese Begründung für einen Index-Ausschluss genannt wird, hat Google erfolglos versucht, die URL zu crawlen. In vielen Fällen ist die Webseite einfach überlastet, der Server, Hoster oder die WordPress Installation zu langsam.

Es wird angedeutet, dass möglicherweise die Website Ladezeit zu hoch ist. Das wäre ein erster Hinweis und Ansatzpunkt für ein besseres SEO.

Durch „noindex“-Tag ausgeschlossen

Google ist beim Versuch, die Seite zu indizieren, auf eine „noindex“-Anweisung gestoßen, sodass die Seite nicht indiziert werden kann.

Durch Tool zum Entfernen von Seiten blockiert

Diese Seite ist derzeit aufgrund eines Antrags auf Entfernung einer URL blockiert. Die Anfrage wurde vom Webmaster in der Google Search Console eingereicht. Dieser Antrag kann jederzeit wieder entfernt und die betreffenden Webseiten können gecrawlt werden.

Durch robots.txt-Datei blockiert

Diese Webseite wird durch eine robots.txt-Datei für den Googlebot blockiert.

Wegen nicht autorisierter Anforderung (401) blockiert

Die Seite wurde durch die Autorisierungsanfrage des Googlebot blockiert (Fehler 401). Wenn Sie möchten, dass der Googlebot diese Seite crawlt, entfernen Sie bitte das erforderliche Login oder erlauben Sie dem Googlebot, auf Ihre Seite zuzugreifen.

Gecrawlt – zurzeit nicht indexiert

Diese Seite wurde von Google gecrawlt, aber nicht indexiert. Sie kann möglicherweise jedoch in Zukunft indiziert werden.

Alternative Seite mit richtigem kanonischem Tag

Diese Seite ist eine Kopie dessen, was Google als kanonisch betrachtet. Die Seite verlinkt korrekt auf die kanonische Seite. Du musst nichts weiter tun.

Duplikat – vom Nutzer nicht als kanonisch festgelegt

Es gibt ein Duplikat dieser Seite, aber sie wurde bisher von Dir nicht als kanonisch markiert.

Duplikat – Google hat eine andere Seite als der Nutzer als kanonische Seite bestimmt

Die URL wurde für mehrere Seiten als kanonische Seite markiert. Allerdings ist nach Einschätzung von Google eine andere Seite dafür besser geeignet.

Nicht gefunden (404)

Beim Abrufen der Webseite wird ein 404-Fehler (Webseite nicht gefunden) zurückgegeben. Dein Server meldet eine nicht existierende Website unter der angeforderten URL.

Seite mit Weiterleitung

Bei der URL handelt es sich um eine Weiterleitung, weshalb sie aus diesem Grund nicht dem Index hinzugefügt wurde.

Duplikat – eingereichte URL nicht als kanonisch festgelegt

Die URL ist eine von mehreren duplizierten URLs, für die nicht ausdrücklich eine kanonische Seite angegeben wurde.

Mach deine Website schneller!

Webseite beschleunigen mit Cache Plugin „WP Rocket“

Unter „Gefunden und nicht indexiert“ wird als Grund für den Ausschluss aus der Indexierung ein langsamer Server/ Hoster angeführt. In der Tat ist es möglich, dass mein billiges Strato-Paket so langsam ist, dass der Googlebot glaubt, da kommt nichts mehr vom Server und deshalb den Crawling-Versuch aufgibt, in die Warteschlange abschiebt.

Deswegen installierte ich ein Caching-Plugin, WP Rocket. Die Seiten werden jetzt nach weniger als 2 Sekunden ausgeliefert, von einer Überlastung meines Servers kann keine Rede mehr sein. Andere Domains/Websites von mir sind langsamer, erreichen aber eine gute Abdeckung. Und trotzdem schließt Google betreffende Websites weiterhin von der Indexierung aus.

Ein Content Delivery Network (CDN) nutzen

Ein CDN macht (im Grunde) dasselbe wie das Cache-Plugin „WP Rocket“, ist aber noch einmal etwas schneller als die Plugin-Lösung bei WordPress. Selbst wenn das WordPress-Plugin die dynamische Website in eine statische HTML Website wandelt und aus dem Cache ausliefert, kann immer noch dein langsamer Hoster der verlangsamende Faktor sein. Die Server eines Content Delivery Network sind auf Hochleistung getrimmt.

Ein CDN bringt bei lokalen Besuchern aus Deinem Umfeld (Land) nicht viel. Ein CDN ist angelegt, um ausländische Besucher schneller mit Deinem Content (z.B. aus Deutschland) zu beliefern, ohne Datenpakete durch unzählige Knoten jagen zu müssen. Doch weil diese Server schneller sind als Dein preiswerter Shared-Hoster, wäre schon das ein Vorteil für Dich, Google und Deine Besucher.

In den nächsten Tagen werde ich ein CDN mit der besagten, langsamen, Domain füllen und von den Erfolgen berichten.