Frage zur robots.txt

LeanderAT

Lt. Junior Grade
Registriert
Apr. 2015
Beiträge
500
Eine Frage zur robots.txt. Ich möchte nur, dass die Startseite, also index.php in Suchmaschinen aufscheint, aber nicht die anderen Dateien im selben Verzeichnis. Ebensowenig möchte ich die Unterverzeichnisse, z.B. impressium, dir1 und dir2 aufscheinen lassen.

Wie mache ich das?

User-agent: *
Allow: index.php
Disallow: /impressum
Disallow: /dir 1
Disallow: /dir 2

Frage 1: Wie bekomme die anderen Dateien im selben Verzeichnis wie die index.php ausgeschlossen?

Frage 2: In einem Verzeichnis befinden sich die Dateien einer zweiten Website. Wenn ich mit disallow das Verzeichnis ausschließe, wird aber ALLES dort ausgeschlossen inkl. index.php? Ich möchte aber in diesem Verzeichnis ebenso alles ausgeschlossen haben, nur eben nicht die index.php.

Wie mache ich das bitte?
 
Hi...

Du nutzt jetzt die "Alles erlaubt, Ausnahmen verboten"-Methode - mach's anders herum: verbiete alles und erlaube Ausnahmen (Startseite und Verzeichnisse) -> steht auch beschrieben in der G*-Anleitung.​
 
  • Gefällt mir
Reaktionen: conglom-o
steff0rn schrieb:
Für das Impressum solltest Du auch gleichzeitig noch das noindex-Tag benutzen.
Warum sollte er das machen?
 
User007 schrieb:
Warum sollte er das machen?
Weil die Seite sonst im Index bleibt.
Hier steht z.B. gut beschrieben wie man es richtig macht.

Ich nutze die robots.txt nur noch für den Link zur sitemap, sonst ist sie leer. Jede Seite wird über den noindex/index Tag geregelt. Bad Bots nutzen die robots.txt doch nur dazu um alle dort ausgeschlossenen Seiten gezielt zu scannen. Damit wissen sie gleich worauf sie zugreifen müssen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: steff0rn und guzzisti
@LeanderAT Nachdem du nichts zum Use Case sagst mal noch der allgemeine Hinweis:
robots.txt ist ein gut gemeinter Hinweis für "freundliche" Crawler, es gibt keinerlei Kontrolle darüber was tatsächlich gecrawled wird.

Je nachdem warum du gewisse Verzeichnisse ausschließen möchtest ist eine robots.txt nicht ausreichend.
 
  • Gefällt mir
Reaktionen: steff0rn
Helge01 schrieb:
Weil die Seite sonst im Index bleibt.
Und was ist daran schlimm die Impressum-Seite im Index zu belassen?
Es ging ja bei meiner Frage nicht um die Methodik.
Helge01 schrieb:
Bad Bots nutzen die robots.txt doch nur dazu um alle dort ausgeschlossenen Seiten gezielt zu scannen.
Wsh. auch dazu mein Hinweis das grundsätzlich nach der "Alles ausschließen, Ausnahmen erlauben"-Methode zu managen eher zielgerichtet wäre, allerdings mag der Hinweis von @guzzisti gern beachtet werden, denn man sollte eh nicht darauf vertrauen, dass sich alle Crawler konform verhalten.​
 
User007 schrieb:
Und was ist daran schlimm die Impressum-Seite im Index zu belassen?
Kann man machen, ich möchte aber nicht das meine private Adresse/Telefonnummer/E-Mail Adresse über eine Suchmaschine zu finden ist.
 
LeanderAT schrieb:
Ich möchte nur, dass die Startseite, also index.php
Ist denn die URL tatsächlich mit "/index.php" am Ende? Das ist heute eher untypisch, da man meist Rewriting verwendet, und dann endet die URL einfach nur auf "/". Ergo müsste dann auch nur "/" in der robots.txt stehen.
 
helge01: Kann man machen, ich möchte aber nicht das meine private Adresse/Telefonnummer/E-Mail Adresse über eine Suchmaschine zu finden ist.

Daher fügt man das ganze auch als Bild ein. Dem Gesetz ist genüge getan, und dennoch kann das keiner einfach finden.
 
@Helge01:
Helge01 schrieb:
Kann man machen, ich möchte aber nicht das meine private Adresse/Telefonnummer/E-Mail Adresse über eine Suchmaschine zu finden ist.
Von Privat hat ja keiner was gesagt und wenn Du an Deiner Privatadresse gewerblich tätig bist, hat die Adresse eben keinen reinen Privatstatus mehr. 🤷‍♂️
Und ansonsten ist das ja auch i-wie ineffektiv, weil die Information doch eh entsprechend auf der Impressumseite veröffentlicht ist/sind.

- EDIT -​
@yxcvb:
yxcvb schrieb:
Daher fügt man das ganze auch als Bild ein.
Hat das noch Zweck?
Auch Bilder werden gecrawlt und KI-Algorithmen werten die Inhalte aus.
 
Zuletzt bearbeitet: (Beitrag ergänzt)
  • Gefällt mir
Reaktionen: guzzisti und Der Lord
yxcvb schrieb:
Daher fügt man das ganze auch als Bild ein.
Das kann man zusätzlich machen, ich benutze zum verschleiern lieber css. Man erscheint so nicht in der Bildersuche von Google. ;)
Ergänzung ()

User007 schrieb:
Von Privat hat ja keiner was gesagt und wenn Du an Deiner Privatadresse gewerblich tätig bist, hat die Adresse eben keinen reinen Privatstatus mehr.
Wenn man wie der TE nicht die Funktionsweise einer robots.txt kennt, dann wird man das nicht gewerblich tun. ;)
Auch wenn man eine Seite privat betreibt, ist man nicht immer von einer Impressumspflicht ausgenommen. Um vor Abmahnanwälten 100% sicher zu sein, empfiehlt sich immer ein Impressum.
 
Zuletzt bearbeitet:
Helge01 schrieb:
Auch wenn man eine Seite privat betreibt, ist man nicht immer von einer Impressumspflicht ausgenommen.
Eigentlich so gut wie nie... Zumindest ist das die einschlägige Rechtsauffassung.

Impressum als Bilddatei bzw. die Informationen als Bilddatei zur Verfügung zu stellen würde ich allerdings auch eher lassen. Das Impressum muss lesbar sein. Für jede Person. Auch für solche, die bspw. gar keine Bilder sehen können.
(Und den Inhalt als Alt-Text zu hinterlegen, kommt am Ende ja auch wieder auf das gleiche Ergebnis)
 
@Helge01:
Helge01 schrieb:
Auch wenn man eine Seite privat betreibt, ist man nicht immer von einer Impressumspflicht ausgenommen.
Sorry, aber das seh' ich doch anders, denn es ist schon deutlich definiert, was als Privat gilt, und was nicht -> siehe bspw. hier.
- EDIT -​
Helge01 schrieb:
Um vor Abmahnanwälten 100% sicher zu sein, empfiehlt sich immer ein Impressum.
Na ja, man muß heutzutage auch nicht immer vor "Abmahnanwälten" wie die Schlange vor dem Kaninchen zusammen schrecken - die liegen auch nicht immer richtig mit ihren Forderungen.
Da hat sich auch nur dieses lästige Geschäftsgebaren etablieren können, weil viele Abgemahnte entweder zu faul oder zu unbedarft waren.​
 
Zuletzt bearbeitet: (Beitrag ergänzt)
@User007 Wo steht es denn DEUTLICH definiert? Auch dort steht alles Wischi-Waschi. Und wenn du mit deutlich definiert das "Foto-Album für die Familie" oder "Den Blog als Tagebuch für Freunde und Familie" meinst. Mal ehrlich: Ersteres schütze ich dann durch ein Passwort. Da stellt sich die Frage wohl wirklich nicht. Letzteres eigentlich genauso... Ansonsten verschwimmt selbst hier schnell die Grenze.
Egal ob ich Werbung schalte oder nicht. Den auch für redaktionelle Inhalte gilt eine Pflicht für Anbieterkennzeichnung.
 
ich hab seit 1014 Jahren meine "privaten" Daten im Impressum und die Telnr auch verlinkt, damit man leichter anrufen kann. Aber meldet sich irgendwer(aufgrund dessen) zusätzlich? Nie!!!
 
Zuletzt bearbeitet:
@kachiri:
kachiri schrieb:
Wo steht es denn DEUTLICH definiert?
Die deutliche Definierung ist "gewerblicher Hintergrund" - das ist völlig ausreichend, um alles andere ausschließen zu können!​
kachiri schrieb:
Egal ob ich Werbung schalte oder nicht.
Leider nein.
kachiri schrieb:
Den auch für redaktionelle Inhalte gilt eine Pflicht für Anbieterkennzeichnung.
Ha, also übrigens keine Impressumsplicht. 😉
 
Das Problem hat man schon wenn man unbewusst Werbung für ein Produkt macht. Wenn ich z.B. auf meinem privaten Blog eine Kamera von einem Hersteller besonders lobend erwähne, kann das schon als Werbung ausgelegt werden. Es ist nicht zwingend erforderlich ob mit dieser Werbung Einnahmen erzielt werden.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: kachiri
Zurück
Oben