News Fehler behoben: Facebook, WhatsApp und Instagram sind wieder online

Linmoum · 5. Oktober 2021

Alpenbruder schrieb:
FB geht, aber nicht WA...

Hier geht noch immer gar nichts von allem. Kenne auch bisher keinen, bei dem irgendwas schon funktioniert. Sind immer noch alle bei Telegram.

Meriana · 5. Oktober 2021

mifritscher schrieb:
Vor allem: Bei so kritischen Vorgängen, wo man offensichtlich das komplette Unternehmen aus dem Netz schießen kann hat es einen Prozess zu geben, der u.A. sicherstellt, dass vor Aktivierung von neuen Konfigs Leute vor Ort sind, die das schnell wieder zurechtbiegen können, falls was schief geht. Und sich, wenn das wg. Architekturvollmurks denn nötig ist, sich Zugangsdaten etc. rausschreiben. Und ja, ggf. auch sicherstellen, entsprechendes Equipment zu haben, um auf die Router zu kommen (wenn nötig z.B. UART Adapter). Wenn man es ernst nimmt, auch schonmal einloggen, um sicherzugehen, dass die herauskopierten PWs/Certs/wasauchimmer auch wirklich funktionieren.

Das hängt doch davon ab, was du als kritischer beurteilst, dass die Personen im Rechenzentrum vor Ort, so weitgehende Rechte haben, oder dass ein Fehler passiert, der einen solchen Zugriff benötigt.

Gut möglich, dass bei Routine-Arbeiten jemand eine Config-Datei bekommt und ein 1x Passwort, um diese hoch zu laden. Aber mehr darf der man nicht. Wenn die 8-Augenkontrolle den Fehler nicht findet, dass ist halt pech.

Edit: Je nachdem wie komplex das zu konfigurieren ist und wie das Angebot am Arbeitsmarkt für entsprechende Spezialisten ist, findest du gar keinen, der regelmässig sich die Nacht in einem RZ um die Ohren schlagen will.

EmilEsel · 5. Oktober 2021

es gibt also immer noch dieses facebook

Trimipramin · 5. Oktober 2021

Endlich geht es wieder. Und ja, dass meinte ich ernsthaft so. Denn neben diesem ganzen )(/"§§) gibts da noch viele schöne Gruppen und wirklich tolle, emphatische Menschen. ..auch wenn man etwas suche muss dafür.

foo_1337 · 5. Oktober 2021

Erzherzog schrieb:
mach doch mal ein tracert, da kommen einige Server aus Kalifornien, das läuft sogar mehrfach hin und zurück. Die sammeln doch alle Daten, wusste nicht das du da so naiv bist ^^

Lol, natürlich liegen die Daten zentral in CA. Aber das was du anfragst und auch was du postest, bleibt zunächst in deiner Location. Hier mal 2 Pings aus FRA:


$ ping -c3 www.facebook.com
PING star-mini.c10r.facebook.com (157.240.20.35) 56(84) bytes of data.
64 bytes from edge-star-mini-shv-02-frt3.facebook.com (157.240.20.35): icmp_seq=1 ttl=252 time=1.23 ms
64 bytes from edge-star-mini-shv-02-frt3.facebook.com (157.240.20.35): icmp_seq=2 ttl=252 time=1.29 ms
64 bytes from edge-star-mini-shv-02-frt3.facebook.com (157.240.20.35): icmp_seq=3 ttl=252 time=1.40 ms

--- star-mini.c10r.facebook.com ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2003ms


$ ping -c3 graph.facebook.com
PING star.c10r.facebook.com (157.240.20.15) 56(84) bytes of data.
64 bytes from edge-star-shv-02-frt3.facebook.com (157.240.20.15): icmp_seq=1 ttl=57 time=1.18 ms
64 bytes from edge-star-shv-02-frt3.facebook.com (157.240.20.15): icmp_seq=2 ttl=57 time=1.43 ms
64 bytes from edge-star-shv-02-frt3.facebook.com (157.240.20.15): icmp_seq=3 ttl=57 time=1.33 ms

--- star.c10r.facebook.com ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2003ms
rtt min/avg/max/mdev = 1.183/1.317/1.431/0.102 ms

Ein traceroute dahin hat genau einen hop (den ersten Xe ich aus privacy Gründen raus)

[ICODE]$ traceroute www.facebook.com
traceroute to www.facebook.com (157.240.20.35), 30 hops max, 60 byte packets
 1  x.x.x.3 (x.x.x.3)  0.756 ms  0.615 ms  0.503 ms
 2  edge-star-mini-shv-02-frt3.facebook.com (157.240.20.35)  1.324 ms  1.386 ms  1.322 ms

Und damit du siehst, dass der content auch von da kommt:

$ time curl -Lv [URL]https://www.facebook.com[/URL] >/dev/null  2>&1

real    0m0.226s
user    0m0.030s
sys    0m0.029s

[/ICODE]
So schnell würde kein Node aus USA liefern.

Erzherzog schrieb:
Das ist aber nur ein Netzwerkknoten.

Nein, ist es nicht. Es sind vollwertige php Kisten, die alles ausliefern. Sonst wäre alles schnarchlahm bei 100-200ms RTT. Und eben diese "Knoten" waren ALLE, Weltweit, nciht mehr erreichbar.

Erzherzog schrieb:
Sag mir mal wie du Facebook aus Deutschland steuern willst, das ist eine US-Firma

Richtig, die Kollegen aus USA steuern ihr weltweites CDN. Eben wie Amazon, Google, MS und viele anderen auch.

Und ganz ehrlich: Steck dir dein "naiv" sonst wo hin. Naiv ist es zu glauben, dass man performante Webservices mit einer Latenz von >100ms betreiben könne.

Erzherzog · 5. Oktober 2021

Ich habe auch nicht behauptet das alle gehosteten Daten aus den USA kommen. Vereinfacht gesagt bringt es dir aber nichts irgendwo eine HDD mit Daten zu haben wenn du keine Befehle und Ziele mehr hast. Ein RZ ist eben nur ein RZ und die zentrale Steuerung sitzt in Kalifornien. Dazu kommt (und deswegen sagte ich dir mach ein tracert) das sehr wohl permanent Anfragen nach Kalifornien geschickt werden und du permanent mit mehreren Servern Kontakt hast. Das bestimmte Daten in Europa gehostet werden ist gar nicht der Punkt. Man merkt (leider) das du echt nicht mal verstanden hast was da heute passiert ist.

foo_1337 schrieb:
Und ganz ehrlich: Steck dir dein "naiv" sonst wo hin. Naiv ist es zu glauben, dass man performante Webservices mit einer Latenz von >100ms betreiben könne.

Ja komisch, nach deiner Logik müsste Facebook noch einwandfrei funktionieren - da alles lokal gehostet. Was lokal gehostet wird sind höchstens Daten und das wars. Du kannst nicht mal auf Facebook gehen ohne das permanent nach Kalifornien gesendet wird. Sorry, aber du hast keine Ahnung davon und vor allem nicht was da heute passiert ist. Kannst es ja sogar bei bild.de nachlesen. Die mussten in Kalifornien den Zugriff wiederherstellen.
Was du lokal hier gehostet bekommst mit welchen Zugriffszeiten spielt keine Rolle. Deine Nebelkerze hast du denke ich sogar mit Absicht gezündet. Schade.

mifritscher · 5. Oktober 2021

Wenn man unbedingt alles in einem AS haben will (früher war das zumindest verpönt, bei der Denic hat man meines Wissens z.B. versucht dass durch die Policy, dass die DNS-Server einer Domain in unterschiedlichen /24er Netzen stehen müssen, zumindest ein wenig zu vermeiden) muss man eben dafür sorgen, dass intern entsprechend Vorkehrungen getroffen werden. Und ja, man kann auch innerhalb einer AS (-Nummer) weitestgehend unabhängige Infrastrukturen hochziehen, man sollte dann nur schauen, dass Fehler in der einen nicht auf die anderen überspringen können. Was bei Facebook offensichtlich alles nicht der Fall war. Und ja, da muss man Facebook Ahnungslosigkeit, Schlamperei oder Dämlichkeit unterstellen. Und das Facebook im Falle von Instagramm es nicht geschafft hat, die IP temporär auf eine andere zu stellen, die einfach nur ne vernünftige Fehlerseite ausspuckt spricht auch Bände. Sowas kann man heutzutage notfalls via AWS, Cloudflare u.Ä. auch schnell hochziehen, v.a. wenn dafür vorher schon einen Disaster Recovery Plan hat.

Wie greifst du denn aufs OOB zu wenn der Fuckup komplett ist? Also ich via Telefon. Und da ist es dann halt extrem lahm.

Wenn da für eine Wiederherstellung so viele Daten ausgetauscht werden müssen, dass der Zugriff übers Modem zu langsam ist ist das Murks. Für sowas gibts entweder lokal in den Geräten ein Backup - oder eben auf einem Server im OOB Netz.

Und tut mir sorry, ich bin mit meinen derzeitigen Job im Netzwerkbereich ganz zufrieden ;-) Aber selbst im Freifunkbereich, was ein Hobby ist, bekommt man häufig ein ausreichendes OOB hin... Zumindest wenn die Alternative lautet, ansonsten im Falle eines Falles auf einen Mast auf einem Turm im Nirgendwo zu klettern ;-)

t3chn0 · 5. Oktober 2021

Hmm, also bei mir geht noch immer keiner der drei Dienste. Egal, ich geh pennen ^^.

mcbloch · 5. Oktober 2021

Also bei mir geht WhatsApp noch nicht wieder ( Hamburg )(O2)

foo_1337 · 5. Oktober 2021

mifritscher schrieb:
Wenn man unbedingt alles in einem AS haben will (früher war das zumindest verpönt, bei der Denic hat man meines Wissens z.B. versucht dass durch die Policy, dass die DNS-Server einer Domain in unterschiedlichen /24er Netzen stehen müssen, zumindest ein wenig zu vermeiden)

Jo, man hatte damals dann halt 2 /24 im selben AS. Es ist zunächst eher schwer als ISP 2 AS zu bekommen. Mittlerweile ist es wie du unten schon sagst easy, einfach nen zweiten DNS in irgendnem Fremd IP Netz eines Cloud Providers ohne eigene HW zu hosten. Was mich aber davon abhält: Latenz und die Synchronisation (AXFR ist jetzt nicht mehr so das mittel der Wahl) ist dann ggf auch anfällig und zieht potentielle Fehler mit sich.

mifritscher schrieb:
Sowas kann man heutzutage notfalls via AWS, Cloudflare u.Ä. auch schnell hochziehen, v.a. wenn dafür vorher schon einen Disaster Recovery Plan hat.

Ack. Hierfür hätte sogar ein S3 Bucket ausgereicht.

mifritscher schrieb:
Wenn da für eine Wiederherstellung so viele Daten ausgetauscht werden müssen, dass der Zugriff übers Modem zu langsam ist ist das Murks. Für sowas gibts entweder lokal in den Geräten ein Backup - oder eben auf einem Server im OOB Netz.

Ich bin mir halt nicht sicher, ob FB hier commodity Cisco, Juniper etc. einsetzt. Ich denke eher nicht und es wird irgendne x86 kiste mit quagga, openbgpd oder bird sein. Und dann wäre es eben mehr.

mifritscher schrieb:
Und tut mir sorry, ich bin mit meinen derzeitigen Job im Netzwerkbereich ganz zufrieden ;-) Aber selbst im Freifunkbereich, was ein Hobby ist, bekommt man häufig ein ausreichendes OOB hin...

Ok, schade

Naja, mein OOB funktioniert prinzipiell auch. Aber im K-Fall ist es dann halt meist doch was anderes als bei den BCP Plänen. Leider.

mifritscher · 5. Oktober 2021

Edit: Je nachdem wie komplex das zu konfigurieren ist und wie das Angebot am Arbeitsmarkt für entsprechende Spezialisten ist, findest du gar keinen, der regelmässig sich die Nacht in einem RZ um die Ohren schlagen will.

Wenn man in diesen RZs keine 24/7 Belegschaft hat, die auch gröbere Fehler selbstständig zügig fixen können (oder z.B. auf Angriffe reagieren) sollte man das RZ schlicht einstampfen, wenn man es überhaupt noch ein RZ nennen will. Oder vielleicht noch für Onlinespiele verwenden. Ernsthaft. Über sowas wird selbst in 0815 RZs schon seit min. einem Jahrzehnt nicht mehr diskutiert.

Und wenn man selbst mit nem 6 Augen Prinzip keinem Team hinreichend vertraut hat man ganz andere Probleme.

Edit: Außerdem war es hier ja anscheinend eine gewollte Konfigänderung an einem zentralen System. Da brauchts noch nichtmal ein 24/7 Spezialistensystem vor Ort, wenn man das richtig vorplant muss da im Notfall nur jemand auf die richtigen Knöpfe drücken. Wenn man dazu PWs benötigt gibt es da auch Mittel und Wege (einmal-PWs etc.)

foo_1337 · 5. Oktober 2021

Erzherzog schrieb:
Dazu kommt (und deswegen sagte ich dir mach ein tracert) das sehr wohl permanent Anfragen nach Kalifornien geschickt werden und du permanent mit mehreren Servern Kontakt hast.

Die werden über die lokalen Server durchgeproxied. In der Regel via Message Queue (z.B. RabbitMQ), Da muss nichts von meiner Kiste aus direkt nach Übersee.

Übrigens sah so ein(!) Rack 2012 in einer FB Colo aus: https://www.datacenterknowledge.com/archives/2012/10/25/facebook-adapts-open-compute-for-colo-space

Soviel zum Thema "ein Server" oder gar "eine hdd"

Erzherzog schrieb:
Ja komisch, nach deiner Logik müsste Facebook noch einwandfrei funktionieren - da alles lokal gehostet. Was lokal gehostet wird sind höchstens Daten und das wars. Du kannst nicht mal auf Facebook gehen ohne das permanent nach Kalifornien gesendet wird. Sorry, aber du hast keine Ahnung davon und vor allem nicht was da heute passiert ist.

Es tut mir leid, aber du hast NICHTS verstanden. Ich versuche es ein letztes mal:
Facebook ist in hunderten Colos weltweit verteilt. Mit Routern, Servern usw. Bei dem heutigen Ausfall hatte KEINER(!!!) dieser lokalen Router weltweit mehr konnektivität irgendwo hin, weil das komplette AS de-annouced wurde. DAS war das Problem.

Ergänzung (5. Oktober 2021)

mifritscher schrieb:
Wenn man in diesen RZs keine 24/7 Belegschaft hat, die auch gröbere Fehler selbstständig zügig fixen können (oder z.B. auf Angriffe reagieren) sollte man das RZ schlicht einstampfen, wenn man es überhaupt noch ein RZ nennen will.

Jo, aber eigentlich fahr ich dann doch lieber selbst in die Colo. Die Angstellten da sind leider meistens nur zum Knopfdrücken gut

Daher ist ja Redundanz und gutes OOB so wichtig, vor allem wenn die Colo hunderte KM entfernt ist

Ergänzung (5. Oktober 2021)

mifritscher schrieb:
Edit: Außerdem war es hier ja anscheinend eine gewollte Konfigänderung an einem zentralen System

Da wäre ich mir nicht sicher. Potentiell war es auch nur ein Cron, der immer zentral irgendwas abgleicht, der abgeraucht ist und dadurch ne inkomplette config geschrieben hat oder so. Ob man das so ohne Prüfsumme machen sollte, ist halt die nächste Frage

Erzherzog · 5. Oktober 2021

foo_1337 schrieb:
Die werden über die lokalen Server durchgeproxied. Da muss nichts von meiner Kiste aus direkt nach Übersee.

Du glaubst also von deinen Daten landet nix in Übersee? Hast mal die IPs der Hops gecheckt? Du hast allein bei google mindestens 3 RZ aus Kalifornien und du redest sowieso am Thema vorbei, denn entscheidend ist hier nicht mal wo was gehostet wird zu welcher Zeit, sondern die Verbindung und von wo das gesteuert wird und das ist Kalifornien. Ich weiß echt nicht was du daher mit deinen Reaktionszeiten willst wo welche Daten gehostet sind. Das ist in dem Fall irrelevant.

foo_1337 schrieb:
Es tut mir leid, aber du hast NICHTS verstanden. Ich versuche es ein letztes mal:
Facebook ist in hunderten Colos weltweit verteilt. Mit Routern, Servern usw. Bei dem heutigen Ausfall hatte KEINER(!!!) dieser lokalen Router weltweit mehr konnektivität irgendwo hin, weil das komplette AS de-annouced wurde. DAS war das Problem.

Was ausgefallen ist wurde hier schon mehrfach beschrieben, das widerlegt aber nicht deine falsche Darstellung. Du meinst das du nur nach Frankfurt Zugriff brauchst auf Facebook und alles ausgeliefert wird. Hier das Zitat:

foo_1337 schrieb:
Nein, ist es nicht. Es sind vollwertige php Kisten, die alles ausliefern. Sonst wäre alles schnarchlahm bei 100-200ms RTT. Und eben diese "Knoten" waren ALLE, Weltweit, nciht mehr erreichbar.

Ich kann mir schwer vorstellen das dir nicht klar ist was Sache ist, lenk doch nicht vom Thema ab wo was gehostet wird, wenn du selbst sogar gesagt hast was der Fehler ist. Ich sagte dir jetzt drei mal die haben in Kalifornien wieder Zugriff auf die Server gebraucht um das wiederherzustellen, das steht auch so im Netz. Du sprichst so als wüsstest du davon nichts und erzählst mir was von welche Verbindung du nach Frankfurt hast.

mifritscher · 5. Oktober 2021

Jo, aber eigentlich fahr ich dann doch lieber selbst in die Colo.

Gut, Colo ist noch bissle was anderes als ein eigenes RZ, wo man die komplette Kontrolle drüber hat - und dann auch meist groß genug ist die entsprechenden Ressourcen zu haben^^ Bei einer Colo wo man ein paar wenige 19 Zoll Racks gemietet hat hat man meist eher weniger eigene Leute in der Nähe im Standby. Wobei der RZ Betreiber dann zumindest das RZ-weite Netz im Griff haben sollte

foo_1337 · 5. Oktober 2021

@Erzherzog Es tut mir leid das zu sagen, aber du hast leider keine Ahnung, wovon du sprichst. FB hat in den Colos nicht einen Server und auch nicht 5. Es sind weit mehr. Und ja, die laufen erstmal Autark, solange die BGP Connectivity vorhanden ist. Wie gesagt, man verwendet Message Queues um das ganze asynchron abzuarbeiten und weltweit wieder zu verteilen. Natürlich auch nach CA.
Vielleicht solltest du mal von deiner Vorstellung "ein Server" oder "eine HDD" in den Colos abkommen. Hier siehst du, wie es in einem FB DC in Schweden aussieht:
https://www.datacenterknowledge.com/archives/2016/05/24/inside-facebook-data-center-sweden-video
Und hier mal ne "kleine" Map der verschiedenen FNA Colos:
https://anuragbhatia.com/2018/03/ne...ing-facebooks-fna-cdn-nodes-across-the-world/
Und ja, nciht jede Colo ist so groß wie das DC in Schweden. Es wird auch oft nur Asset Caching betrieben.
Und das war alles, ja, alles, nicht mehr errecihbar, weil virtuell überall der Stecker gezogen wurde.

Sorry, wenn ich dein Weltbild damit zerstört habe.

.allstar · 5. Oktober 2021

WhatsApp, Facebook und Instagram gehen bei mir wieder.

Erzherzog · 5. Oktober 2021

foo_1337 schrieb:
Sorry, wenn ich dein Weltbild damit zerstört habe.

Sag mal, du verarschst mich, oder?

foo_1337 schrieb:
Es tut mir leid das zu sagen, aber du hast leider keine Ahnung, wovon du sprichst. FB hat in den Colos nicht einen Server und auch nicht 5. Es sind weit mehr.

Ich habe nirgends gesagt wie viele Server da stehen. Das mit der HDD war nur ein Beispiel zur Datenhostung. Keine Ahnung was du so für Vorstellungen hast, aber wie RZ aussehen weiß ich selbst und ich kenne auch die von google z.B. ganz gut, habe dazu schon viel gesehen.

Ziemlich schwaches Posting ehrlich gesagt ^^

foo_1337 schrieb:
Vielleicht solltest du mal von deiner Vorstellung "ein Server" oder "eine HDD" in den Colos abkommen. Hier siehst du, wie es in einem FB DC in Schweden aussieht:

Ne weist, ich ging fest davon aus da steht genau eine HDD bei Facebook. Deswegen ging auch nix mehr.

foo_1337 schrieb:
Wie gesagt, man verwendet Message Queues um das ganze asynchron abzuarbeiten und weltweit wieder zu verteilen. Natürlich auch nach CA.

Wie gesagt, du widerlegst deine eigene Aussage. Ich sagte doch bereits, das wird aus Kalifornien gesteuert. Ohne das geht nix. Du kannst egal wo die Daten hosten, das ändert dann nix. Und klar wird das so raus gegeben. Das ist übrigens genau meine Erklärung, lol!

P.S.
Auch wenn ich nicht dran glaube, kann es sein das wir uns hier missverstehen. Das eigentliche Problem ist ja bekannt, es geht darum das hinterher wieder Zugriff zur zentralen Steuerung gegeben sein musste und das ging nur noch lokal. Das ist alles was ich gesagt habe dazu und du bestreitest das die ganze Zeit und meinst dann wieder von wegen Frankfurt. Das nur Anfragen nach Kalifornien geschickt werden hast du irgendwie nicht so ganz verstanden bei dem was ich geschrieben habe. Klar werden die Daten in Europa gehostet, ich schrieb auch das die wohl hier auch RZ betreiben. Ich verstehe nicht so ganz was du für ein Problem mit Kalifornien hast, kannst doch mal selbst Medienberichte dazu lesen

gustlegga · 5. Oktober 2021

C4rp3di3m schrieb:
Jawohl!!

/msg DATAVAULT-03-ZENSIERT send #3 James.Bond.007.Keine.Zeit.zu.sterben.2021.GERMAN.1080p.WebRip.x264-VCF

[/snip]

Audio: Line (Thx PSO)

leipziger1979 · 5. Oktober 2021

Mist, an mir ist der Weltuntergang vorbeigegangen.

Aber echt mal, wie abhängig sind eigentlich die meisten mittlerweile?
Das ist das eigentlich erschreckende.

Kimble · 5. Oktober 2021

Vereinzelt sind Probleme auf FB zu verzeichnen. So braucht es mehrere Anläufe um Beiträge zu posten...

News Fehler behoben: Facebook, WhatsApp und Instagram sind wieder online

Lt. Commander

Lt. Commander

Banned

Commodore

foo_1337

Gast

Lt. Commander

Ensign

Fleet Admiral Pro

Commodore

foo_1337

Gast

Ensign

foo_1337

Gast

Lt. Commander

Ensign

foo_1337

Gast

Lieutenant

Lt. Commander

Commodore

Rear Admiral

Kimble

Gast

Ähnliche Themen