Author Topic: Solved: Webserver - broken devices (Read 3955 times)

melmarker · « **Reply #15 on:** 2015/03/02, 00:33:39 »

Das Problem lag/liegt bei Seagate - die haben unsinnigste Smartwerte - die zählen die Zugriffe teils als Fehler mit, so dass einschlägig geraten wird, diese speziellen Kenner bei speziell diesen Platten einfach zu ignorieren. Leider stimmt das nicht ganz

Die Kenner zählen schon mögliche Fehler mit, aber eigentlich unsichtbar, man sollte dann bestimmte Bits des Zählers ausmaskieren und würde die richtigen Werte erhalten (nirgendwo richtig dokumentiert) - macht aber nichts, jetzt sind da WDs drin, die zählen wieder anders.

und das war einfach Zufall - auf gut deutsch ging mir das Verhalten vom Forum auf den Sack, nachdem ich alles getauscht hatte, was man an software tauschen kann und das Verhalten mit dem Einfrieren auch die ssh-Verbindungen betraf, brachte schließlich inxi die Bestätigung - das Abfragen der Raids ging schweinelangsam, also die Platte rausgesucht, die mutmaßlich karpott war und um Wechsel gebeten.

Womit ich allerdings nicht im Traum gerechnet hätte: Eine kurze Überprüfung durch Hetzner brachte Probleme in beiden Platten. Diese Werkzeuge hätte ich dann gerne auch

-- nu gut, ich hab die Platte, die mir als unauffällig vorkam als ganz definiert und angewiesen, nur die "kaputtere" Platte zu tauschen - und nachdem der Spiegel ein neues, ganzes Mitglied hatte und in sync war, hab ich die "nicht so kaputte" Platte tauschen lassen - Ein echtes Scheissspiel.

Alles in allem war Murphy kurz davor, mal wieder zuzuschlagen - die eine Platte hatte eine Laufzeit von knapp 850 Tagen, die andere nur 430 Tage, so dass die nicht aus einer Marge stammen sollten, weiss man aber nicht wirklich. Auf jeden Fall gibts jetzt dann auch bei uns asap einen gespiegelten SQL-Server, der Scheiss sichert sich im laufenden Betrieb ansonsten echt räudig - und die reinen Dateien habe ich eh schon immer per rsync auf eine 2. Maschine gepackt. Dooferweise sind halt alle relevanten Bewegungsdaten in SQL - und ein Tag oder ein halber wäre schon ärgerlich, an den Dateien ändert sich fast nie was.

absolut · « **Reply #16 on:** 2015/03/03, 00:02:54 »

mal blöd in die runde gefragt... wäre die Wahrscheinlichkeit für einen Ausfall niedriger, wenn man die Anzahl der Platten erhöht?

melmarker · « **Reply #17 on:** 2015/03/03, 00:38:21 »

ja - jein -Raid 6 - oder eine Raid 1 aus 2 Raid 1 - oder ein Raid 1 aus 2 Raid 5 - oder oder oder - hat alles Vorteile und Nachteile. Für ein Raid 6 braucht man mindestens 4 Platten, dafür steckt es auch den Verlust von 2 Platten wech. Und da das recht rechenintensiv ist, sollte man auch einen dedizierten Raidcontroller samt Batterie im Server haben. Und da kommen wir genau zum Punkt:

DAT IS TEUER - einfach mal bei einem Hoster schauen, was 2 zusätzliche Festplatten monatlich an Kosten ausmachen, einfach mal nachfragen, womit ein extra Controller, Pufferbatterie und die Mehr-Platten monatlich zu Buche schlagen. Und schwupps ist der Plan vom Tisch

- Was helfen kann,ist eine ordentliche Fail-Over-Lösung mit mindestens einem 2. Server, genau das werde ich mit den SQL-Banken spielen. Die reinen Files kann man auch auf der 2. Maschine aktuell halten, wenn man so wenig Bewegung hat wie wir. Gitblit liefert so ein Verteilen auch mit, alles eine Frage der Zeit, des Aufwands und natürlich auch des Wissens. Und natürlich ganz wichtig: Macht es Sinn, oder reicht ein einfaches Backup.

bluelupo · « **Reply #18 on:** 2015/03/03, 09:21:27 »

Hi all,
also ein RAID-XY (Mirroring) kann nur einen Plattenausfall kompensieren, nicht aber eine Ausfallzeit kaschieren und schon gar nicht einen Backup ersetzen. Um eine wirkliche saubere Lösung zu haben, die viel Geld kostet, braucht man einen Cluster der in Falle eines Ausfalls von HW den Node auf die intakte Maschine schwenkt und dort die Anwendung (sprich DB und Applikation) wieder startet. Gibts alles schon seit zig Jahren zB. bei RedHat oder anderen Anbietern.

So a RAID XY (mirroring) can only compensate for a disk failure, but not conceal downtime and certainly not replace a backup. In order to have a real clean solution that costs a lot of money, you need a cluster of the node switch in the event of a hardware failure on the working machine, where the application (ie DB and application) starts again. There's everything been tens years, for example. RedHat and other providers.

absolut · « **Reply #19 on:** 2015/03/03, 23:06:11 »

alles klar, danke für die details!

Author Topic: Solved: Webserver - broken devices (Read 3955 times)

melmarker

Re: Solved: Webserver - broken devices

absolut

Re: Solved: Webserver - broken devices

melmarker

Re: Solved: Webserver - broken devices

bluelupo

Re: Solved: Webserver - broken devices

absolut

Re: Solved: Webserver - broken devices