SEO-Tool Ahrefs kann meine Seiten nicht crawlen

dakro

Cadet 4th Year
Registriert
Jan. 2021
Beiträge
76
Liebes Forum,

ich hoffe ich bin mit dem Thema hier ansatzweise richtig und jemand hat eine Idee mir zu helfen. Ich nutze den Dienst von Ahrefs um meine Seiten zu crawlen und diverse SEO-Metriken auszulesen. Seit einigen Wochen funktioniert es aber nicht mehr wie es soll. Ich habe bei meinem Hosting nachgefragt, ob der Bot von Ahrefs irgendwie geblockt ist, aber das ist nicht der Fall. Es wurde mehrfach gecheckt.

Aber die Devs von Ahrefs sind sich ziemlich sicher, dass dies der Fall sein muss, denn von anderen IPs (Nicht-Bot-IPs) können Sie auf meine Seite zugreifen. Es ist also so, dass mir keiner weder mein Host noch Ahrefs weiterhelfen können. Wir haben da nun schon tagelang alles Mögliche versucht.

Jetzt meine Frage an euch. Hat jemand eine Idee an was es sonst noch liegen könnte? Ich nutze eine aktuelle Wordpress Installation und habe aktuell keinerlei Security-Plugins aktiv. Ich hatte mal Wordfence aktiv und meine Vermutung ist, dass es damit vielleicht zu tun haben könnte. Vielleicht hat Wordfence oder ich aus Versehen irgendwelche IPs blockiert und nun hängt es irgendwo und blockiert. Ich habe lt. diversen Anleitungen alles von Wordfence deinstalliert, aber es hat nichts geholfen. Hat jemand eine Idee? Kennt sich damit jemand aus? Hier mal die Rückmeldung von Ahrefs und deren Ergebnisse nach einem Crawling Versuch. Es scheitert wohl immer an timed out.

Danke für eure Tipps!

----

Feedback von Ahrefs:

Our devs guess that your hosting provider is blocking our IPs. It’s not about security plugins, but rather low-level network config. For the reference they’ve tried both sites from ip 54.36.148.75 with this result:

$ curl -v -i -H "User-Agent: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; AhrefsSiteAudit/6.1; +http://ahrefs.com/robot/)" -H "Accept-Encoding: deflate, gzip, br" 'https://kross.immo/' * Trying 109.237.140.51:443... * TCP_NODELAY set * connect to 109.237.140.51 port 443 failed: Connection timed out * Failed to connect to kross.immo port 443: Connection timed out * Closing connection 0 curl: (7) Failed to connect to kross.immo port 443: Connection timed out $ curl -v -i -H "User-Agent: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; AhrefsSiteAudit/6.1; +http://ahrefs.com/robot/)" -H "Accept-Encoding: deflate, gzip, br" 'https://immobilienberatung-freiburg.de/' * Trying 109.237.140.51:443... * TCP_NODELAY set * connect to 109.237.140.51 port 443 failed: Connection timed out * Failed to connect to immobilienberatung-freiburg.de port 443: Connection timed out * Closing connection 0 curl: (7) Failed to connect to immobilienberatung-freiburg.de port 443: Connection timed out

However, both websites work properly when we check them from different IPs (not those from which our Bots crawl).
Let us know if this sheds light.
 
Bei Timeout kommt vom Server überhaupt keine Antwort.

Ist die DNS Auflösung ist korrekt ? (scheint ja shared hosting zu sein)

Gibt es irgendwelche Routing-Probleme ?
-> Ping von mehreren Servern aus an den Webserver senden
-> looking glass tools von verschiedenen Providern benutzen : prüfen ob andere Netze auf das Hosting zugreifen/ sich verbinden können (beispiel: hurricane electric : lg.he.net , herausfinden woher ahrefs crawlt / welcher AS das verwaltet und in welchem AS das Zielnetz d.h. das Hosting ist)
 
DNS komme ich beim selben ergebnis aus.
Da ist irgendwo auf dem weg ne route kaputt / fehlt oder eine firewall blockt

Bei mir tut das..


Code:
curl -v -i -H "User-Agent: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; AhrefsSiteAudit/6.1; +http://ahrefs.com/robot/)" -H "Accept-Encoding: deflate, gzip, br" 'https://immobilienberatung-freiburg.de/'
*   Trying 109.237.140.51...
* TCP_NODELAY set
* Connected to immobilienberatung-freiburg.de (109.237.140.51) port 443 (#0)
* ALPN, offering h2
* ALPN, offering http/1.1
* successfully set certificate verify locations:
*   CAfile: /etc/ssl/cert.pem
  CApath: none
* TLSv1.2 (OUT), TLS handshake, Client hello (1):
* TLSv1.2 (IN), TLS handshake, Server hello (2):
* TLSv1.2 (IN), TLS handshake, Certificate (11):
* TLSv1.2 (IN), TLS handshake, Server key exchange (12):
* TLSv1.2 (IN), TLS handshake, Server finished (14):
* TLSv1.2 (OUT), TLS handshake, Client key exchange (16):
* TLSv1.2 (OUT), TLS change cipher, Change cipher spec (1):
* TLSv1.2 (OUT), TLS handshake, Finished (20):
* TLSv1.2 (IN), TLS change cipher, Change cipher spec (1):
* TLSv1.2 (IN), TLS handshake, Finished (20):
* SSL connection using TLSv1.2 / ECDHE-RSA-AES256-GCM-SHA384
* ALPN, server did not agree to a protocol
* Server certificate:
*  subject: CN=immobilienberatung-freiburg.de
*  start date: Feb 15 06:02:09 2021 GMT
*  expire date: May 16 06:02:09 2021 GMT
*  subjectAltName: host "immobilienberatung-freiburg.de" matched cert's "immobilienberatung-freiburg.de"
*  issuer: C=US; O=Let's Encrypt; CN=R3
*  SSL certificate verify ok.
> GET / HTTP/1.1
> Host: immobilienberatung-freiburg.de
> Accept: */*
> User-Agent: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; AhrefsSiteAudit/6.1; +http://ahrefs.com/robot/)
> Accept-Encoding: deflate, gzip, br
>
< HTTP/1.1 200 OK
HTTP/1.1 200 OK
< Date: Thu, 22 Apr 2021 12:53:34 GMT
Date: Thu, 22 Apr 2021 12:53:34 GMT
< Server: Apache
Server: Apache
< Link: <https://immobilienberatung-freiburg.de/wp-json/>; rel="https://api.w.org/"
Link: <https://immobilienberatung-freiburg.de/wp-json/>; rel="https://api.w.org/"
< Accept-Ranges: none
Accept-Ranges: none
< Vary: Accept-Encoding
Vary: Accept-Encoding
< Content-Encoding: gzip
Content-Encoding: gzip
< Strict-Transport-Security: max-age=31556926
Strict-Transport-Security: max-age=31556926
< Content-Length: 7199
Content-Length: 7199
< Content-Type: text/html; charset=UTF-8
Content-Type: text/html; charset=UTF-8
Ergänzung ()

Frag mal bei ahrefs nach seit wann sie 54.36.0.0/15 haben. Soweit ich das sehen, gehöert das dem Pharmakonzern Merck. Aber so listen sind oft unvollständing / nicht gut up to date. So Adressbereiche und deren Untersegmente wechseln auch gern mal den Besitzer. kann gut sein, dass alfahosting den blockiert, weil da mal jemand schabernack mit getrieben hat.

Verbindungen aus den USA scheinen jedenfallsnicht grundsätzlich geblockt hzu werden. Von AWS US East 1 aus komme ich dran.
 
Zuletzt bearbeitet:
Hy danke euch Beiden!

Ich weiß jetzt, dass ich nichts weiß :-p
Für mich ist das alles viel zu tief. Ich bin froh, dass ich Wordpress halbwegs zum Laufen gebracht hab. Meine Frage zu euren Tipps. Kann ich das vom Wordpress Backend aus durch ein Plugin geschrottet haben?

In Frage kommen eigentlich nur Wordfence, Rank Math und Redirection.

Danke!
 
Zuletzt bearbeitet:
Nein. Er sagt ja selber, dass es von anderen hosts aus tut. Frag mal ob die im selben netz liegen. Entweder alfa oder die seo bude haben da eine firewall zu.
 
Gibt es eine robots.txt? Falls ja, dort mal reinschauen. Im Zweifel auch einfach mal löschen und probieren.
 
@madmax2010 also kann es nicht an meiner WP-Installation liegen, verstehe ich das richtig? Was meinst du mit im "selben Netz"? Beide sagen keiner hat irgendetwas geblocked oder eine Firewall an, was ich mir kaum vorstellen kann. Danke
Ergänzung ()

@Prophetic ja die gibt es. Ich habe da nachdem der Fehler auftrat auch versucht den Ahrefs bot zu erlauben, was aber auch nichts gebracht hat. Habe ich das halbwegs korrekt in die Datei reingeschrieben? Lt. Ahrefs liegt es wohl aber auch nicht daran, denn deren Bot kommt wohl gar nicht soweit. Keine Ahnung ... ist mir alles ein Rätsel. Danke!

User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://kross.immo/sitemap_index.xml User-agent: AhrefsSiteAudit Allow: / User-agent: AhrefsBot Allow: /
 
Ich hab mal bei bgp.he.net die IP Adresse von dir gecheckt - scheint von Alfahosting zu sein - und dann steht dort beim AS (Autonomous System) stehen die Provider mit denen sich zum Internet verbunden wird - unter denen steht dann zB Telia (wenn man sich "durchklickt").

Also Looking Glass von Telia aufgerufen - lg.twelve99.net
und von dort ein "trace" zu deinem Server (109.237.140.51) gemacht

Ergebnis: Packetdrop bei "Cloudpit.io"

Also theoretisch müsste sich dein Provider an den "Provider" Telia bzw den "eigenen" Provider melden und dann den Fehler fixen bzw. evtl. warten bis die Verbindung wieder funktioniert. (evtl. hat "Cloudpit" auch etwas falsch konfiguriert)

edit: Skizze d. Verbindung:
dein Server - Alfahosting - (Provider von Alfahosting) --- Telia ---- (Provider von Ahrefs) --- Ahrefs

Code:
Router: adm-b8 / Amsterdam (InterXion AMS5, Schiphol)
Command: traceroute ipv4 109.237.140.51 timeout 1 source Loopback0

Tracing the route to 109.237.140.51

1  adm-bb3-link.ip.twelve99.net (62.115.115.170) 14 msec  14 msec  14 msec
2  hbg-bb3-link.ip.twelve99.net (62.115.112.13) 14 msec
    hbg-bb3-link.ip.twelve99.net (213.155.136.161) 14 msec  14 msec
3  bei-b1-link.ip.twelve99.net (62.115.139.9) 14 msec  14 msec  14 msec
4  envia-ic348588-bei-b1.ip.twelve99-cust.net (62.115.180.137) 18 msec  19 msec  18 msec
5  be10-rb2-tau.envia-tel.net (77.235.191.165) 20 msec  20 msec  20 msec
6  rb2-tau.dr2.dcl.lej.de.net.cloudpit.io (80.243.51.206) 20 msec  19 msec
    rb2-tau.dr1.dcl.lej.de.net.cloudpit.io (77.235.170.2) 20 msec
7  BSR1.DCL.LEJ.DE.NET.CLOUDPIT.IO (194.145.226.18) 30 msec  31 msec  39 msec
 
  • Gefällt mir
Reaktionen: madmax2010
@madmax2010 danke. Also seit wann die welche IPs haben werden die mir nicht sagen. Beide also Alfahosting und Ahrefs meinen sie blocken so etwas grundsätzlich nicht. Alfahosting hat wohl mehrfach nachgesehen und meinte es sei nichts blockiert und auch nichts in irgendeinem Log eingetragen.

Ahrefs Lösungsansatz ist, dass man deren IP-Range auf eine Whitelist setzt und Alfahosting will das aus Sicherheitsgründen nicht machen.

Mir war als erstes wichtig von euch zu erfahren, ob ich das irgendwie hätte verpfuschen können, was ja anscheinend nicht der Fall ist. Nun bin ich am überlegen, ob ich zu einem anderen Host wechsle, der deren IPs akzeptiert oder ich von Ahrefs zu Semrush wechsle. Beide Varianten gefallen mir nicht, da ich mit Alfahosting und mit Ahrefs sehr zufrieden bin. Aber irgendeinen Tot muss ich wohl sterben, denn ich komme mit denen nicht weiter.

Danke und viele Grüße
 
@lokon ok vielen Dank. Ich werde das jetzt mal so an Alfahosting schicken und hoffen, dass es daran liegt :daumen:
 
hm.. ping von Telia geht aber

Telia macht evtl. eine UDP Traceroute - die scheint blockiert zu werden bei cloudpit im vgl. zu einer icmp traceroute
 
@lokon angenommen ich wechsle jetzt zu einem anderen Hoster wie z.B. webgo, wird Ahrefs dann funktionieren?
 
Danke @lokon

Außerhalb von schweden ist Telia vor allem carrier mit ausgesprochen bescheidener peering policy. Die sollen mal schauen ob sie da drum herum routen können.

Cloudpit scheint eine marke von Dogado zu sein. warum das nun da lang geht..?


@dakro vermutlich. Brauchst du was besonderes in Wordpress? ich kann dir nachher fix ne vm bei hetzner hoch kommen lassen
 
eigentlich ja - "Verbindungsprobleme" zwischen Provider gibt es immer mal wieder - wegen der viele "AS" ("verwaltungszonen") / Routern und der beteiligten Firmen und "Fehlern" bei der Konfiguration - "Webseite geht lokal" ist etwas anderes als "webseite geht überall"


zB sind die domains (server) auch nicht IPv6 kompatibel (ich seh keine IPv6 DNS Ergebnisse für die Domain)
damit könnte die Performance evtl. leiden
 
Leute Leute 🤣 bitte langsam ich bin doch erst Cadet und das nicht ohne Grund 😂aber schon mal tausend Dank für eure Hilfe!

@madmax2010 eine VM hochkommen lassen? Was meinst du damit genau? Ist das dann ein Hosting oder nur was zum Ausprobieren? AAAA records weshalb, wo und wann? Bzgl. Wordpress, nein ist vmtl. alles Standard. Bzgl. Hosting müsste es schnell sein, und vorallem Noob tauglich, ich kann/will keinen Server installieren oder so, das wäre das Wichtigste.

Danke!
Ergänzung ()

dakro schrieb:
@lokon ok vielen Dank. Ich werde das jetzt mal so an Alfahosting schicken und hoffen, dass es daran liegt :daumen:
das kam von Alfahosting zurück. Heißt das nun es funktioniert, aber klappt trotzdem nicht? 😕

....

solch ein Test sagt leider wenig aus, insbesondere, wenn der Test nicht von einem normalen Anschluss kommt, denn mitunter schließen wir IP-Adressen, aber eben jene von Ihnen genannte sind davon nicht betroffen.

Ein Traceroute ist für mich von 3 verschiedenen Netzwerken problemlos möglich.

Wie bereits mehrfach mitgeteilt haben wir Ihr Anliegen geprüft, aber können hier leider nichts ausmachen.

Im Übrigen, einen Traceroute können Sie auch eigenständig problemlos durchführen. Hierfür öffnen Sie die Windows-Kommandozeile (Windows-Taste + R und tragen hier "cmd" ein). In der Windowskommandozeile tragen Sie dann lediglich "tracert 109.237.140.51" ein.

Mit freundlichen Grüßen
 
Die verstehen das problem nicht..
dakro schrieb:
"tracert 109.237.140.51" ein.
das gilt für von deinem PC, nicht aus dem netz einer firma in den USA.

dakro schrieb:
AAAA records weshalb, wo und wann?.
A record = DNS eintrag für eine IPV4 adresse - AAAA = DNS Eintrag für eine IPV6 Adresse.


dakro schrieb:
VM hochkommen lassen? Was meinst du damit genau? Ist das dann ein Hosting oder nur was zum Ausprobieren?

Hosting, ja. Ich habe ein paar da ein paar Server für Kunden laufen. Kleinkram wie managed Wordpress hosting machen wir zwar eigentlich nicht, aberr es tut auch nicht weh, da für 1 Woche eine Wordpress instanz laufen zu lassen. Die brauchen ja nicht viel power
 
@madmax2010 für eine Woche meinst du, um zu testen, ob Ahrefs da crawlen kann? Wenn das geht, dann sehr gerne! 1-2 Tage und eine Standardinstallation würden reichen. Ich muss dann wohl einen DNS Eintrag anpassen, so wie ich das verstehe, damit meine Domain bzw. Wordpress bei euch erreichbar ist, oder?
 
@madmax2010 ich hab mir jetzt mal ein paar Hostinganbieter angeschaut und denke, dass Hetzer für mich als Noob nicht in Frage kommt. Die sind wohl eher was für Großkunden und nicht besonders servicefreundlich. Ich werde mir mal ein Paket von webgo holen und dann da mal Ahrefs testen. Danke jedenfalls für deine Hilfe!!!
 
Ev hat Wordfence deine htaccess Datei befüllt und die IP ist da drin geblockt oder eine Regex die zutrifft? Bem deaktivieren gibts meistens eine Option ob Einstellungen behalten werden sollen oder nicht. Da könnte daher was über geblieben sein.
 
Zurück
Oben