Liebe Nutzer:innen,
eine turbulente Woche liegt hinter uns allen. Die Schulen bleiben zu, digital gestütztes Lernen steht schlagartig im Mittelpunkt und was bis dato im direkten Miteinander geschah, muss nun aus der Ferne funktionieren.
Die rasant anwachsenden Nutzerzahlen und Zugriffe sind ein echter Härtetest für Server, Netzwerke und Codeperformance. Zahlreiche Anbieter von Lern- und Kollaborationsplattformen waren von Störungen betroffen. Leider blieben auch wir von Ausfällen nicht verschont.
Als sich in der Woche zuvor Schulschließungen als wahrscheinlich abzeichneten, begannen wir, uns dafür zu rüsten. Maßnahmen für den Wandel vom Pilotprojekt mit einigen wenigen Schulen hin zu einem Roll-Out-Projekt mit sehr vielen Schulen, die eigentlich für die kommenden Monate geplant waren, mussten nun in kürzester Zeit umgesetzt werden.
So hatten wir schon eine Kubernetes-Testumgebung aufgebaut, um die HPI Schul-Cloud nach und nach in diese skalierbare Hosting-Infrastruktur umzuziehen. Am Montag wurde klar, dass wir hier schneller handeln müssen. Wir stellten merkwürdige Erreichbarkeitsprobleme fest. Mal wurde ein Bild nicht geladen, mal ein Stylesheet und mal auch die Seite nicht. Die Anwendung selbst lief aber. Das Problem musste netzwerkseitig sein. Die HPI Schul-Cloud ist auf datenschutzkonformen Servern mit Standort in Deutschland gehostet. Große Teile der Cloud liefen am Montag noch im Netzwerk des Hasso-Plattner-Instituts, das auch OpenWHO eine Heimat bietet. Die Krisenmanagement-App der WHO auf Basis der bewährten HPI MOOC-Technologie, durch die unzählige Helfer auf der ganzen Welt mit Informationen zum Corona-Virus versorgt werden, sorgte ebenso wie die zahlreichen Zugriffe durch Schüler:innen und Lehrkräfte für eine Überlastung unseres Netzwerkes. Wir entschlossen uns, den geplanten Auszug aus dem HPI-Netz vorzuziehen. In der Nacht von Montag zu Dienstag haben wir die Cloud Stück für Stück in ein Rechenzentrum eines deutschen Anbieters transferiert.
Diese Operation am offenen Herzen blieb nicht ohne Zwischenfälle, wie sich am Dienstag zeigen sollte. Etliche Schwierigkeiten führten dazu, dass die Erreichbarkeit problematisch blieb. Zum Beispiel verhinderte eine Firewall, dass drei neu hinzugefügte Server sich zuverlässig mit der Datenbank verbinden konnten. Dieses und ähnliche Konfigurationsprobleme hielten uns die nächsten Tage auf Trab. Zusätzlich haben wir in der Nacht von Dienstag zu Mittwoch alle virtuellen Server aufgerüstet und mit mehr Leistung versehen.
Unser User Support hatte alle Hände voll zu tun. Alle Kolleg:innen sprangen ein und unterstützten bei der Abarbeitung der Anfragen, ebenso wie unsere Partner:innen vom MINT-EC. Zusammen erklärten sie die Situation, leisteten konkrete Hilfe und bogen so manchen Eltern die bei der Registrierung vertauschten E-Mail-Adressen ihrer Kinder wieder gerade. Von unschätzbarem Wert war und ist auch der heiße Draht des User Supports in die Entwicklung. Wir bekommen schnell mit, wenn mehrere Nutzer:innen auf ähnliche Schwierigkeiten stoßen und können somit gezielt reagieren.
Ein solcher Fall war die Registrierung neuer Nutzer:innen. Während des Prozesses kam es zu Schwierigkeiten mit den versandten Pin-Codes, wenn sehr viele Personen gleichzeitig Pins anfordern. Nur rund 80% der Registrierungen verliefen erfolgreich. Bis Mittwochnacht hatten wir den Prozess komplett neu geschrieben und getestet, so dass sich wieder alle Nutzer:innen in der HPI Schul-Cloud registrieren konnten. Wir haben die Software in den vergangenen Tagen mehrmals täglich aktualisiert, um die Nutzung Schritt für Schritt zu verbessern.
Der Donnerstag hielt neue Herausforderungen für uns bereit. Unser Blog, als Nebensystem nicht mit so viel Serverkapazität ausgestattet wie die Cloud selbst, war den vielen Aufrufen nicht gewachsen. Da die Blognachrichten auf unseren Homepages eingebunden waren, führte dies zu Problemen bei der Erreichbarkeit der Startseiten. Die Entfernung der Nachrichten auf der Startseite schaffte hier zunächst Abhilfe. Wer nun etwas über uns lesen will, kann den Blog über die Navigation erreichen.
Am Freitag konnten einige Nutzer:innen nur die HPI Schul-Cloud nutzen, wenn sie vor dem Login ihre Cookies löschten. Unser User Support führte die Betroffenen durch diesen Workaround, bis das Entwicklungsteam am Nachmittag für die grundsätzliche technische Behebung sorgte.
Die vergangene Woche war für unser Team ein Kraftakt. Wir haben viele Stunden hart gearbeitet, den Serverumzug als Ad-hoc-Großaktion gestemmt und versucht, auf alle auftretenden Herausforderungen schnell zu reagieren. Nicht nur für Schüler:innen und Lehrkräfte, auch für unser Team war es eine neue Erfahrung, wie es sich unter Maßnahmen physischer Distanznahme vom Homeoffice aus effektiv zusammenarbeiten lässt. Die Zusammenarbeit zwischen Betriebsteam, Entwicklung und User Support funktioniert auch aus der Ferne sehr gut, so dass wir in den kommenden Tagen und Wochen weiterhin schnell handlungsfähig sind.
Wir überwachen ständig die Erreichbarkeit der HPI Schul-Cloud und der verwandten Systeme Niedersächsische Bildungscloud, Schul-Cloud Brandenburg, Open HPI Schul-Cloud und Thüringer Schulcloud. Wir steuern nach, sobald sich hier Engpässe andeuten. Und wir schauen ganz genau, wo es langsame Stellen in der Software gibt, wenn besonders viele Daten vorliegen, und optimieren stetig Datenbanken und Programmcode.
Wir möchten uns bei all unseren Nutzer:innen für die Erreichbarkeitsprobleme der letzten Woche entschuldigen und uns gleichzeitig für die Geduld und das Verständnis bedanken.
Wir hoffen, Ihnen mit diesem Blogbeitrag die Ereignisse der Woche aus unserer Perspektive näher gebracht zu haben. Wir arbeiten weiterhin hart dafür, die Erreichbarkeit der HPI Schul-Cloud in den kommenden Tagen und Wochen zu gewährleisten, datenschutzkonforme digital gestützte Bildung zu ermöglichen und das Nutzungserlebnis unserer Open-Source-Plattform zu verbessern.
Bitte bleiben Sie gesund!
Das Team der HPI Schul-Cloud
(Bildquelle: https://commons.wikimedia.org/wiki/File:2019-nCoV-CDC-23312.png)