Google schmeißt meine Seite immer wieder aus dem Index, aber warum?

habichtfreak

Captain
Registriert
Aug. 2006
Beiträge
3.554
Hallo,

ich habe seit ca. Ende Januar eine Top-Level Domain für meine nicht-kommerzielle Webseite (akkutests.de). Die Seite gibt es schon etwas länger, war aber nur über eine recht sperrige URL zu meinem Webspace erreichbar. Jetzt wo es eine TLD hat, würde es mich natürlich freuen wenn man die Tests auch über Suchmaschinen findet (vorher war mir das egal). Also habe ich Ende Januar die Property in der Google Search Console eingerichtet:

1740818371233.png


Anfangs wurden auch mehrere Seiten indexiert, aber kurz darauf wieder entfernt. An dieser Stelle sollte ich vielleicht dazu sagen, ich schreibe die komplette Webseite in Notepad++ selbst ohne irgendwelche Hilfsmittel.

Da ich (offensichtlich) kein Webdesigner bin, habe ich mich jetzt einem Monat damit beschäftigt warum Google die Seiten immer wieder aus dem Index entfernt. Ich hatte zB keine sitemap.xml. Also habe ich diese erstellt, die kann google auch lesen und es scheint damit keine Probleme zu geben.

Dann hatte ich auch keine metadaten ob die seiten indexiert werden sollen oder nicht und auch keine <link rel="canonical" href="....." Einträge sowie keine robots.txt. Das habe ich nachgeholt, und scheint auch funktioniert zu haben, denn einige Seiten soll google gar nicht indexieren was auch erkannt wurde (der große knick in der grauen kurve nach unten war genau dieser Zeitpunkt).

Weil die Seiten aber noch immer nicht im Index aufgenommen wurden, habe ich mich damit weiter beschäftigt was ich tun kann. Keywords und Beschreibung in den Metadaten sollen helfen fand ich als Tipp. Keywords habe ich hinzugefügt, Beschreibungen nicht immer. Geholfen hat auch das nicht. Google indexiert nur zwei Seiten (index.html und akkus15.html).

ich habe daraufhin in der Google Search Console das indexieren neu initialisiert, was etwa 10 Tage dauerte. Anschließend bekam ich eine Mail, dass es Probleme gibt und das ganze fehlgeschlagen ist. Ich habe mich also wieder eingeloggt um zu schauen was das Problem ist:

1740819550830.png


Seite mit Weiterleitung: Erklärt sich recht einfach, Google hat erkannt das akkutest.de und akkutests.de/index.html identisch sind
Duplikat: sind 4 PDF Dateien die Google bereits in Netz gefunden hat und die aus diesen Grund als Duplikate einstuft (das ist ok, die soll er auch nicht indexieren)
Gecrawlt - zurzeit nicht indexiert: hier sind all die Unterseiten die er nicht indexieren will, aber warum Google sich weigert, verstehe ich nicht. Schaue ich dort hinein wird auch keine Begründung angezeigt, nur welche Seiten es betrifft:

1740819837951.png

Unter Details werde ich auch nicht schlauer:

1740819939009.png

OK, eine html ist fehlgeschlagen, die anderen sind "ausstehend". Ausstehend würde ich so interpretieren, dass die bald indexiert werden. Die Erklärung hinter dem (?) sagt aber, dass es ist eine Probleminstanz gibt und solange die vorhanden ist, werden die Seiten nicht dem Index hinzugefügt. Nur was diese "Probleminstanz" ist, wird nicht angezeigt/erklärt. Aber vielleicht hat ja jemand von euch einen Tipp für mich.

Ich habe aus Interesse mal bei anderen Suchmaschinen geschaut, ob die meine Seiten indexiert haben (zugegebenermaßen habe ich keine dieser Suche bisher je selbst verwendet)

bing: 21 Treffer (die eine die Google als fehlgeschlagen anzeigt, ist bei bing indexiert)
Yahoo: 21 Treffer (die eine die Google als fehlgeschlagen anzeigt, ist bei yahoo indexiert)
duckduckgo: 18 Treffer
ecosia: ein Treffer (die Startseite)

Anscheinend habe ich nicht alles falsch gemacht, denn manche Suchmaschinen können die Seiten indexieren (auch ohne mein zutun). Mir ist natürlich auch klar, Google ist die größte Suchmaschine. Nur was muss ich tun, damit sie meine Seiten indexieren? Das manuelle Anstoßen habe ich bereits mehrfach versucht, ohne Erfolg.

Gruß habichtfreak
 
Erst mal solltest du die Seite mit einem Zertifikat absichern, weil google mag keine http Seiten. LetsEncrypt würde sich da anbieten.

edit:
google möchte https Seiten crawlen, die aber nicht vorhanden sind. es sind nur http Seiten vorhanden.
 
  • Gefällt mir
Reaktionen: DevD2016, TomH22 und threadi
habichtfreak schrieb:
habe seit ca. Ende Januar eine Top-Level Domain für meine nicht-kommerzielle Webseite
Hast du nicht. ;) Top-Level Domain wäre z.B. .de

habichtfreak schrieb:
Ich hatte zB keine sitemap.xml. Also habe ich diese erstellt
habichtfreak schrieb:
sowie keine robots.txt. Das habe ich nachgeholt
Beides ist nicht unter akkutests.de zu finden. Google mag auch keine unverschlüsselte HTTP Verbindungen.

Fehler lag bei mir, habe statt akkutests.de akkutest.de aufgerufen.
 
Zuletzt bearbeitet:
Bei mir sehe ich sowohl ein SSL-Zertifikat, als auch eine robots.txt. Hast Du wohl bereits optimiert?

Was mir direkt auf der Startseite auffällt:
  • Der HTML-Code ist nicht valide. Da gibt es irgendwelche Elemente die nicht richtig geschlossen sind.
  • Deine Seite ist nicht Mobilfähig / responsive. Das musst Du unbedingt ändern, da das ebenso wie das SSL-Zertifikat ein Faktor für die Indizierung ist. Die Responsivität kannst du mit einigem passenden CSS erreichen.
  • Die Überschrift h1 auf der Startseite lautet nur "Home". Damit verschenkst Du Potential. Verwende für Überschriften immer Keywords unter denen die jeweilige Seite gefunden werden soll.
 
  • Gefällt mir
Reaktionen: DevD2016, PeterSchmidt_80, Drahminedum und 3 andere
Das aktuelle Zertifikat existiert seit 24.01.:
1740822619130.png



Daran liegt es nicht, allerdings können natürlich auf der Seite noch absolute Links sein, die http enthalten. Das unbedingt mal überprüfen.
 
Helge01 schrieb:
Beides ist nicht unter akkutests.de zu finden. Google mag auch keine unverschlüsselte HTTP Verbindungen.
Dir fehlt ein "s" in der Adresse, du schaust auf der falschen Seite. OP schreibt seine Domain ist akkutests.de. Deine Adresszeile sagt du bist auf akkutest.de
 
NameHere schrieb:
Erst mal solltest du die Seite mit einem Zertifikat absichern, weil google mag keine http Seiten. LetsEncrypt würde sich da anbieten.

edit:
google möchte https Seiten crawlen, die aber nicht vorhanden sind. es sind nur http Seiten vorhanden.
verwundert mich etwas, über http ist die seite eigentlich nicht mehr erreichbar, es ist eine Weiterleitung zu https eingerichtet. Ein Zertifikat ist ebenfalls vorhanden:

1740822488451.png
1740822518731.png

Auch die robots.txt ist vorhanden:
1740822622211.png
 
Mobilfähigkeit: Das stimmt, das hat die Seite nicht. Aufgrund des Inhalts halte ich die Seite für Mobilgeräte auch nicht für geeignet.
threadi schrieb:
Die Überschrift h1 auf der Startseite lautet nur "Home". Damit verschenkst Du Potential. Verwende für Überschriften immer Keywords unter denen die jeweilige Seite gefunden werden soll.
damit hast du sicherlich recht, aber die index.html ist ja indexiert. Daran etwas zu ändern, hilft mir vermutlich nicht bei den Seiten die im Index fehlen. Und ja, ich verwende H1 gelegentlich auch mehrfach. Mag google auch nicht, aber auch die Seite auf der ich das gemacht habe, ist indexiert (merkwürdigerweise)
threadi schrieb:
Der HTML-Code ist nicht valide. Da gibt es irgendwelche Elemente die nicht richtig geschlossen sind.
Danke für den Hinweis, schaue ich mir an
 
habichtfreak schrieb:
Mobilfähigkeit: Das stimmt, das hat die Seite nicht. Aufgrund des Inhalts halte ich die Seite für Mobilgeräte auch nicht für geeignet.
Warum genau ist der Inhalt dafür nicht geeignet? Wegen der Grafiken?
 
@habichtfreak

Also für mein iPad wäre sie schon geeignet, wenn sie etwas besseren HTML Code hätte, der sich an die Breite im Hochformat anpassen würde:

1740824414912.png
 
Zuletzt bearbeitet: (Bild ersetzt)
@habichtfreak Hat das noindex Tag einen Grund? Das wertet Google aus und scheint sich auch daran zu halten. :D
Code:
<meta name="robots" content="noindex">

Das würde auch erklären warum die anderen Suchmaschinen funktionieren, die werten nur die robots.txt aus und nicht das noindex Tag.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: .one, NameHere und TomH22
Alle Seiten die ich gerne indexiert hätte, die Google aber nicht indexieren will, enthalten
Code:
<meta name="robots" content="index,follow">


Seiten die nicht indexiert werden sollen, haben:
Code:
<meta name="robots" content="noindex">
Ergänzung ()

TomH22 schrieb:
Also für mein iPad wäre sie schon geeignet, wenn sie etwas besseren HTML Code hätte, der sich an die Breite im Hochformat anpassen würde:
Da gebe ich dir recht, irgendwie finde ich den Fehler nicht. Ich dachte
Code:
<meta name="viewport" content="width=device-width, initial-scale=1" />
würde da Abhilfe schaffen, aber leider wirkt es nicht
 
Alle Seiten die ich gerne indexiert hätte, die Google aber nicht indexieren will, enthalten
<meta name="robots" content="index,follow">
Zuvor war aber auch deine Startseite mit noindex betroffen, das hast du jetzt geändert.

Denke aber daran das vermutlich nur Google das noindex Tag auswertet und alle anderen Suchmaschinen nur die robots.txt.
 
Zuletzt bearbeitet:
Helge01 schrieb:
Zuvor war aber auch deine Startseite betroffen, das hast du jetzt geändert.
nein habe ich nicht. ich habe weder gerade, noch heute, noch gestern etwas geändert. Der Zeitstempel der index.html und aller anderen html Seiten die online sind ist mehrere Tage alt

1740832035015.png
 
Hi, etwas OT:
Grundlegend würde ich dir empfehlen das kostenlose vscode als Werkzeug zu verwenden. Mit Nodepad++ würde ich durchdrehen.
 
Mac_Leod schrieb:
Grundlegend würde ich dir empfehlen das kostenlose vscode als Werkzeug zu verwenden. Mit Nodepad++ würde ich durchdrehen.
bei größeren Webseite würde man sicherlich nicht mehr Notepad++ verwenden, aber ich komme damit gut zurecht. vllt liegt es auch daran, dass ich html vor 25 Jahren in der Schule gelernt habe als man Selfhtml noch als Offline Variante auswendig gelernt hat und den Windows Editor genutzt hat um html Seiten zu erstellen

Ich fasse mal zusammen:
  • die Webseite ist akkutests.de und nicht akkutest.de
  • sie hat seit Januar ein gültiges Zertifikat und ist nur über https erreichbar
  • sämtliche Links (egal ob intern oder extern sind ebenfalls https)
  • robots.txt und sitemap.xml sind vorhanden
  • Die Einträge "<meta name="robots" content="index,follow"> (für die Seiten die indexiert werden können) und <meta name="robots" content="noindex"> (für die Seiten die nicht indexiert werden sollen) habe ich vor dem 2.2.2025 bei allen html Dateien ergänzt // den erneuten Start der Indexierung bei Google habe ich 10 Tage später am 12.02.2025 gestartet
  • Auf Mobilgeräten (bzw. Geräten dessen Browser die Seite mit weniger als 1500px rendern) kommt es derzeit zu dem Problem, dass man nach links und rechts scrollen muss
    • ich denke ich habe jetzt eine Lösung gefunden, zumindest ist die Darstellung wenn ich sie in den Entwicklertools von Chrome für mobile Geräte anschaue ok (das Update ist noch nicht eingespielt)
  • warum ich die Seite nicht für kleine Bildschirme optimiere: Weil die Tabellen und Grafiken die eigentlich interessanten Daten sind. Die kann man auf einem kleinen Bildschirm nicht erkennen
    • da mir aber durchaus klar ist, dass nicht wenige Menschen mobile Geräte zum surfen nutzen (auch wenn ich überhaupt nicht dazugehöre) habe ich mir eben mal mein Handy geschnappt (2400x1080px) und computerbase aufgerufen:
      • große Tabellen sprengen auch hier die Seitenbreite, man muss dann auch wieder nach links und rechts scrollen
      • Grafiken sind nahezu nicht zu erkennen weil sie so klein sind
    • was ich damit sagen will: computerbase ist für kleine Auflösungen optimiert, aber es gibt einfach Dinge, die passen nicht zusammen, weil sie nicht sinnvoll nutzbar sind
  • alle html seiten haben einen Fehler, statt </head> habe ich <head> geschrieben --> werde ich korrigieren, danke für den Hinweis
  • eingebundene Bilder haben kein alt="hier wäre ein Bild aber aus ... Gründen ... siehst du nur diesen Text"
    • soweit ich weiß stammt das Attribut aus einer Zeit als das WWW noch über 56k Modems lief und Bilder teilweise nicht geladen wurden
    • spielt mMn schon lange keine Rolle mehr, da das Internet ein klein wenig schneller geworden ist
    • ich denke nicht dass das die Indexierung verhindert, da die Seiten die im Index sind, dieses "Problem" auch haben, ich werde es testweise aber mal bei einigen Seiten ergänzen und schauen ob es was ändert

Falls noch jemand einen Tipp hat ...
 
Zurück
Oben