Siduction Forum

Siduction Forum => Upgrade Warnings => Topic started by: melmarker on 2015/02/28, 03:47:59

Title: Solved: Webserver - broken devices
Post by: melmarker on 2015/02/28, 03:47:59
You may have noticed the hickups happend in the forum in the last days. After changing the database server (we running now mariadb), the initsystem (we are now on systemd 215) and some cleanup in the services the problems don't dissapear. Finally i broke it down to a nearly broken device in our Raid 1.

So far so god - short after managing to get a new device build in i get the not so funny news - the second device is nearly broken too. That means: After changing and syncing the the Raid we will play this again and change the second device - shit happend.

The good thing is: We lost no data and the server was only  down for three hours.



Ihr werdet es bemerkt haben - das Forum verhielt sich in den letzten Tagen ein wenig komisch mit nicht erklärbaren Aussetzern. Nachdem Datenbank und Initsystem gewechselt und auch noch verschiedene Dienste bereinigt wurden besserte sich die Lage nicht wirklich. Im Endeffekt stellte sich heraus, dass eine Platte unseres Raid 1 dabei war, den Abflug zu planen. Nachdem ich den bevorstehenden Ausfall gemeldet und um Austausch gebeten habe, fand dieser Abflug dann auch zeitnah statt.

Kurz und gut - die Platte ist getauscht, der Sync läuft. Nicht so schön ist, dass die 2. Platte ebenfalls kurz vor dem Abflug steht. Im Klartext bedeutet dass, dass wir alle die Daumen drücken, dass der Sync ordentlich über die Bühne geht. Wenn das geschehen ist, spielen wir dieses Spiel noch mal und tauschen auch die 2. Platte. Das wird dann noch mal ein Stündchen Downtime geben, das lässt sich auch nicht ändern.

Title: Re: Webserver - broken devices
Post by: devil on 2015/02/28, 07:37:34
You handled all this in the best way possible, given that the provider wanted to change both disks at the same time. So horray to you. \o/


greetz
devil
Title: Re: Webserver - broken devices
Post by: ayla on 2015/02/28, 07:42:09
Quote
...the provider wanted to change both disks at the same time...

 ??? ?
Title: Re: Webserver - broken devices
Post by: devil on 2015/02/28, 09:54:10
Yes, that is what they offered. Riduculous to hear that from one of Germany's big hosters. For them it is convinient of course.


greetz
devil
Title: Re: Webserver - broken devices
Post by: bluelupo on 2015/02/28, 11:27:47
Hi melmarker,
Thanks for the work on the system or on the disk (RAID), and we hope that no data is lost. Would be a shame to the accumulated knowledge in the forum.

---
Hi melmarker
Danke für die Arbeit am System bzw. an den Disk (RAID) und wir hoffen das keine Daten "flöten" gehen. Wäre jammerschade um das geballte Wiissen hier im Forum.
Title: Re: Webserver - broken devices
Post by: melmarker on 2015/02/28, 12:03:46
Bluelupo - die Datenbanken sind an die Seite gerissen und aktuell, alle Bewegungsdaten sind aktuell auf einem andern Server gespiegelt - wir haben nur noch kein lebendes Fail-Over - und ob sich dieser Aufwand lohnt, ist zu bezweifeln. Was ich aber unbedingt vermeiden wollte, war und ist ein Neuaufsetzen und Wiedereinspielen der Daten von Punkt 0 - dat dauert und ist nervig.
Title: Re: Webserver - broken devices
Post by: ReinerS on 2015/02/28, 12:56:11
Optimal von deiner Seite gelaufen !  ;D

Grüße


Reiner
Title: Re: Webserver - broken devices
Post by: melmarker on 2015/02/28, 13:20:37
Optimal ist ein wenig was anderes :) - Aber wir arbeiten dran, und einige technische Möglichkeiten sind in der letzten Zeit dazugekommen - und ganz ehrlich, es reicht nicht, wenn diese Möglichkeiten theoretisch da sind, man muss sie auch einsetzen. Das ist manchmal gar nicht so einfach in Produktivsystemen.

Seis drum, so wie es gelaufen ist (und immer noch läuft, das Thema ist noch nicht vom Tisch, nur entschärft) ist es fast in Ordnung. Den nächsten Schritt gibt es mit neuer Hardware, das wird dann aber ordentlich geplant. Das ist dann auch eher unkritisch und kostet halt pro Server einen Monat Mietzeit.

(Neuen Server anmieten, alten Server migriern und das so lange wiederholen, bis man glücklich ist. Eine der seltenen Gelegenheiten, die man auf Produktivmaschinen hat, um den Spieltrieb mal voll auszuleben und wirklich einige Sachen durchzuspielen, die man schon immer mal machen wollte und die auf der großen Liste als wichtig und dringlich markiert sind)
Title: Re: Webserver - broken devices
Post by: piper on 2015/02/28, 13:34:48
Quote from: devil
You handled all this in the best way possible, given that the provider wanted to change both disks at the same time. So horray to you. \o/


greetz
devil
+1

I would of had some words, been banned for life ;)
Title: Re: Webserver - broken devices
Post by: dibl on 2015/02/28, 13:37:14
+1


I would have had to double my hypertension meds ...    ;D
Title: Re: Webserver - broken devices
Post by: melmarker on 2015/02/28, 17:40:38
@dibl - it is a very effective way to save coffee, because it is ensured that remains relatively awake and blood pressure does not fall too far

I've just been to replace the 2nd plate in order

(Disclaimer - Beware of the google tranlator, but it sounds funny)

Ich hab grade den Austausch der 2. Platte in Auftrag gegeben.
Title: Re: Webserver - broken devices
Post by: devil on 2015/03/01, 08:54:56
Human translator says: I just called for the 2nd harddisk to be replaced :)


greetz
devil

Title: Re: Webserver - broken devices
Post by: melmarker on 2015/03/01, 13:49:45
Both devices are changed, Raid sync is done

Festplatten sind getauscht, wir haben wieder ein funktionierendes Raid
Title: Re: Solved: Webserver - broken devices
Post by: piper on 2015/03/01, 18:07:07
Well done ;)
Title: Re: Webserver - broken devices
Post by: cas on 2015/03/01, 23:43:02
Both devices are changed, Raid sync is done

Festplatten sind getauscht, wir haben wieder ein funktionierendes Raid
respect!

strange  that both hdd's broke at the same time.
do you think that this  been just a sad coincidence or that problems finally popped up when also the second device broke?

==========
Erst mal großen Respekt! (Ich glaube ja ohnehin, dass Du im Forum/ Chat wohnst  8) ).

Seltsam, dass zwei HDDs so zeitnah den Abflug machen.
War das jetzt blöder Zufall oder litt möglw eine HD schon länger und die Probleme liessen sich durch Probleme der zweiten nicht länger vertuschen?

(sofern es überhaupt möglich ist, so eine Frage zu beantworten)

Gruß, C
Title: Re: Solved: Webserver - broken devices
Post by: melmarker on 2015/03/02, 00:33:39
Das Problem lag/liegt bei Seagate - die haben unsinnigste Smartwerte - die zählen die Zugriffe teils als Fehler mit, so dass einschlägig geraten wird, diese speziellen Kenner bei speziell diesen Platten einfach zu ignorieren. Leider stimmt das nicht ganz :D

Die Kenner zählen schon mögliche Fehler mit, aber eigentlich unsichtbar, man sollte dann bestimmte Bits des Zählers ausmaskieren und würde die richtigen Werte erhalten (nirgendwo richtig dokumentiert) - macht aber nichts, jetzt sind da WDs drin, die zählen wieder anders.

und das war einfach Zufall - auf gut deutsch ging mir das Verhalten vom Forum auf den Sack, nachdem ich alles getauscht hatte, was man an software tauschen kann und das Verhalten mit dem Einfrieren auch die ssh-Verbindungen betraf, brachte schließlich inxi die Bestätigung - das Abfragen der Raids ging schweinelangsam, also die Platte rausgesucht, die mutmaßlich karpott war und um Wechsel gebeten.

Womit ich allerdings nicht im Traum gerechnet hätte: Eine kurze Überprüfung durch Hetzner brachte Probleme in beiden Platten. Diese Werkzeuge hätte ich dann gerne auch  >:(  -- nu gut, ich hab die Platte, die mir als unauffällig vorkam als ganz definiert und angewiesen, nur die "kaputtere" Platte zu tauschen - und nachdem der Spiegel ein neues, ganzes Mitglied hatte und in sync war, hab ich die "nicht so kaputte" Platte tauschen lassen - Ein echtes Scheissspiel.

Alles in allem war Murphy kurz davor, mal wieder zuzuschlagen - die eine Platte hatte eine Laufzeit von knapp 850 Tagen, die andere nur 430 Tage, so dass die nicht aus einer Marge stammen sollten, weiss man aber nicht wirklich. Auf jeden Fall gibts jetzt dann auch bei uns asap einen gespiegelten SQL-Server, der Scheiss sichert sich im laufenden Betrieb ansonsten echt räudig - und die reinen Dateien habe ich eh schon immer per rsync auf eine 2. Maschine gepackt. Dooferweise sind halt alle relevanten Bewegungsdaten in SQL - und ein Tag oder ein halber wäre schon ärgerlich, an den Dateien ändert sich fast nie was.
Title: Re: Solved: Webserver - broken devices
Post by: absolut on 2015/03/03, 00:02:54
mal blöd in die runde gefragt... wäre die Wahrscheinlichkeit für einen Ausfall niedriger, wenn man die Anzahl der Platten erhöht?
Title: Re: Solved: Webserver - broken devices
Post by: melmarker on 2015/03/03, 00:38:21
ja - jein -Raid 6 - oder eine Raid 1 aus 2 Raid 1 - oder ein Raid 1 aus 2 Raid 5 - oder oder oder - hat alles Vorteile und Nachteile. Für ein Raid 6 braucht man mindestens 4 Platten, dafür steckt es auch den Verlust von 2 Platten wech. Und da das recht rechenintensiv ist, sollte man auch einen dedizierten Raidcontroller samt Batterie im Server haben. Und da kommen wir genau zum Punkt:

DAT IS TEUER - einfach mal bei einem Hoster schauen, was 2 zusätzliche Festplatten monatlich an Kosten ausmachen, einfach mal nachfragen, womit ein extra Controller, Pufferbatterie und die Mehr-Platten monatlich zu Buche schlagen. Und schwupps ist der Plan vom Tisch :) - Was helfen kann,ist eine ordentliche Fail-Over-Lösung mit mindestens einem 2. Server, genau das werde ich mit den SQL-Banken spielen. Die reinen Files kann man auch auf der 2. Maschine aktuell halten, wenn man so wenig Bewegung hat wie wir. Gitblit liefert so ein Verteilen auch mit, alles eine Frage der Zeit, des Aufwands und natürlich auch des Wissens. Und natürlich ganz wichtig: Macht es Sinn, oder reicht ein einfaches Backup.
Title: Re: Solved: Webserver - broken devices
Post by: bluelupo on 2015/03/03, 09:21:27
Hi all,
also ein RAID-XY (Mirroring) kann nur einen Plattenausfall kompensieren, nicht aber eine Ausfallzeit kaschieren und schon gar nicht einen Backup ersetzen. Um eine wirkliche saubere Lösung zu haben, die viel Geld kostet, braucht man einen Cluster der in Falle eines Ausfalls von HW den Node auf die intakte Maschine schwenkt und dort die Anwendung (sprich DB und Applikation) wieder startet. Gibts alles schon seit zig Jahren zB. bei RedHat oder anderen Anbietern.


So a RAID XY (mirroring) can only compensate for a disk failure, but not conceal downtime and certainly not replace a backup. In order to have a real clean solution that costs a lot of money, you need a cluster of the node switch in the event of a hardware failure on the working machine, where the application (ie DB and application) starts again. There's everything been tens years, for example. RedHat and other providers.
Title: Re: Solved: Webserver - broken devices
Post by: absolut on 2015/03/03, 23:06:11
alles klar, danke für die details!