Die Bezeichnung Hochverfügbarkeit geht vor allem mit den beiden Begriffen Redundanz und Diversität einher. Ersteres meint die mindestens zweifache Ausführung von Netzwerk-Komponenten bzw. auf allen Netzwerkebenen mindestens einen alternativen Kommunikationsweg. Diversität bezieht sich auf den Einsatz von Software verschiedener Anbieter, da es unwahrscheinlich ist, dass beispielsweise Schwachstellen in Firewalls durch die unterschiedlichen Malware-Verzeichnisse der Hersteller in beiden Lösungen gleichzeitig auftreten.
Hochverfügbarkeit von Beginn an planen – und testen
„Oft wird aber in den Firmen nicht im Sinne der Hochverfügbarkeit gehandelt“, konstatiert Mair. „So wird etwa ein Etagenverteiler nicht doppelt verbaut – oder die zweite Firewall liegt bereit zur Installation, aber niemand hat oder nimmt sich Zeit für die Einrichtung.“ Tritt dann zum Beispiel beim Update der installierten Firewall ein Fehler auf, steht das komplette IT-System ohne die zweite Firewall plötzlich ohne Schutz da – ein gefundenes Fressen für Cyber-Kriminelle. Die häufigsten Gründe für eine Downtime sind dabei der Ausfall der Energieversorgung (75%), Hardware-Fehler (52%) und menschliches Versagen (35%), so eine Studie.[2]
„Die Redundanz wird dabei leider selten zu Ende gedacht“, so Mair. „Viel schlimmer wiegt allerdings, dass sie häufig nur in der Theorie besteht und gelegentlich bis gar nicht getestet wird, sei es aufgrund falscher Planung, mangelnden Budgets oder fehlender Zeit.“ Denn erst in sogenannten ‚Blackhouse-Tests‘ zeigt sich, inwieweit die IT-Infrastruktur einen Stromausfall verkraftet und ob die Backup-Systeme sowie Generatoren überhaupt anspringen – in der Praxis geschieht dies eben oft nicht.
Mittelstand erkennt allmählich seine IT-Abhängigkeit
Ausreden wie Kosten- oder Zeitgründe sollten in kritischen Unternehmensbereichen eigentlich keine Rolle spielen. Große Konzerne sind hier wesentlich reifer im Umgang mit hochverfügbaren IT-Infrastrukturen, da deren Bedeutung unternehmensweit klar ist.
„Im Mittelstand dagegen sieht es in Sachen Hochverfügbarkeit noch um einiges schlechter aus“, stellt Mair fest. Das erstaune ihn immer wieder, denn die Schäden einer Downtime können Existenzen bedrohen. Über zwei Drittel der in einer Studie befragten Firmen verlieren bei einer Downtime über 20.000 US-Dollar pro Tag.[3] Die KMU begreifen erst allmählich, wie essenziell ihre IT-Infrastruktur für ihr Tagesgeschäft geworden ist, um etwa Produktions- bzw. Geschäftsprozesse am Laufen zu halten. Mair: „Heute reicht eben nicht mehr ein Schrank mit Rechner in der Abstellkammer. Die meisten KMU müssen jetzt ein eigenes kleines Rechenzentrum betreiben.“
Netzwerk-Aufbau und -Monitoring – eine komplexe Aufgabe
Der Bereich Hochverfügbarkeit im Netzwerk umfasst grob vier Unterkategorien: internes Netzwerk, Anbindung der Komponenten, Verbindung ins Internet und WLAN. Ziel muss sein, eine möglichst redundant aufgebaute Netzwerk-Architektur einzurichten. Zudem sollten die eingesetzten Komponenten durchgehend hochwertig und problemlos zu managen sein – von der Ferndiagnose bis hin zum einfachen Einspielen von Updates. Mair: „Es macht keinen Sinn, hier auf billige, unflexible Lösungen zurückzugreifen. Das ist Sparen an der falschen Stelle.“
Mitentscheidend für die Hochverfügbarkeit eines Netzwerks ist vor allem ein durchgehendes Monitoring. „Es hilft nichts, wenn zunächst alle Komponenten gut verbaut werden, aber auf der anderen Seite niemand bemerkt, dass ein Modul nicht funktioniert oder falsche Werte anzeigt“, gibt Mair zu bedenken. In diesem Fall nützt auch ein redundanter Aufbau nichts mehr. Letztendlich sollten alle wichtigen Strecken im Netzwerk mindestens doppelt ausgelegt sein – von der zweifachen Steckdose und Verkabelung über eine Absicherung durch mehrere Switches bis hin zu alternativen Routing-Wegen.[4] Dies gilt natürlich ebenfalls für den Data-Warehouse- bzw. Storage-Bereich, in dem der Ausfall eines Speichers genauso schnell beispielsweise über eine virtuelle Maschine kompensiert werden muss. „Hochverfügbarkeit verlangt deshalb auch eine sehr enge Zusammenarbeit zwischen Netzwerk- und Big-Data-Experten, wie es etwa die mip GmbH seit Jahren in Projekten umsetzt“, so Mair.
Hochverfügbarkeit als Preis- und Vernunftfrage
Bei den Komponenten kommt es immer auf die Investitionsbereitschaft der Unternehmen an. Ob es jetzt ein teurer Dual-Port oder eine günstigere Einzelkarte mit zwei integrierten Ports sein soll, entscheiden meistens Geldbeutel und/oder Vernunft. Die Preise sind nach oben hin offen. Mair: „Deshalb muss im Vorfeld jeder Netzwerk-Architektur die Überlegung stehen: Wie lange darf meine IT-Infrastruktur ausfallen?“
Bei dieser Frage denken viele oft nur an ungeplante Stillstände. Doch viel häufiger kommt es zu Wartungsarbeiten, bei denen Komponenten ausgetauscht oder aktualisiert werden müssen. Jedes Unternehmen muss sich dabei fragen, ob es die Möglichkeit hat, hierfür das eigene Netzwerk an einem Wochenende herunterzufahren. Geht dies nicht, muss eine ganz andere Qualität an Hardware und Komponenten gewählt werden, die sich im Betrieb wechseln lässt. „Ich empfehle unseren Kunden deshalb, heute nur noch Netzwerkumgebungen einzurichten, die sich für einen Wartungsfall mindestens einmal pro Woche zwei Stunden und einmal pro Monat acht Stunden herunterfahren lassen“, erklärt Mair.
Redundantes Internet und hochverfügbare Cloud-Anbindung
Ein oft vergessenes Thema bei der Ausfallsicherheit ist der redundante Internetzugang. Um von Hochverfügbarkeit sprechen zu können, sind hier mindestens zwei unterschiedliche Provider und zwei getrennte Leitungen (einmal Glasfaser und einmal Kupfer) oder ein Alternativweg über die Funkstrecke notwendig. Welche Möglichkeiten Unternehmen hier zur Verfügung stehen, hängt auch stark von deren Standort ab. Die Anforderungen an Datenvolumen, Equipment, Stör- und Laufzeiten etc. und die damit verbundenen Kosten sind im Businessbereich enorm gestiegen. Trotzdem sind letztere den Firmen oft schwer vermittelbar.
„So wundert es auch nicht, dass die Netz-Carrier kein wirkliches Interesse daran haben, ihre Netze auszubauen, wenn Unternehmen für ihre Kommunikation nicht mehr bezahlen wollen“, begründet Mair. „Wenn zum Beispiel mein Notfallszenario bei einem Ausfall vorsieht, dass nicht mehr im lokalen Netzwerk, sondern in der Cloud weitergearbeitet werden soll, dann muss in diesem Moment auch genügend Bandbreite vorhanden sein.“
Cloud als kritischer Teil der Netzwerkverfügbarkeit
Die Cloud ist im Zusammenhang mit Hochverfügbarkeit sowie Ausfall- und IT-Sicherheit zudem ein zweischneidiges Schwert. Mair: „Neben ihren sicherlich vorhandenen Vorteilen ist mein Hauptargument gegen die Cloud, dass mit dem Umzug meiner Daten in die Cloud, ich diese automatisch einem erhöhten Risiko für Cyber-Angriffe aussetze. Cloud-Anbieter sind natürlich für Cyber-Kriminelle ein viel reizvolleres Angriffsziel als etwa das eigene kleine Data Warehouse im Serverraum.“
Als Alternative, wenn sich beispielsweise ein eigener Server-Standort aus Kostengründen nicht rechnet, empfehle er seinen Kunden, auf einen kleineren, regionalen Provider zurückzugreifen, der Colocation anbietet. Dort wird dann eine Private Cloud mit einem Notfall-Rechenzentrum eingerichtet – als Angriffsziel eher uninteressant. Kritisch können auch die SLAs der Provider sein, da sich auch die Anbieter Wartungsfenster offen halten, um Patches und Updates einzuspielen. Hier kommt es auch immer darauf an, wie viel Unternehmen für eine höhere Verfügbarkeit ausgeben möchten.
WLAN und adaptive Sicherheitslösungen
Beim Thema WLAN ist zu beobachten, dass Firmen meist einzelne, unabhängige Access Points (AP) eingerichtet haben. Dadurch lassen sie sich nicht zentral managen sowie kontrollieren, was sie anfällig für Hacker-Angriffe macht. Auch der saubere Zellenübergang von AP zu AP wird so erschwert, wodurch es zu einer schlechten Übertragungsqualität und im schlimmsten Fall zum Kommunikationsabbruch kommen kann. Ausfallsicherheit bietet hier ein zentraler, redundant ausgelegter WLAN-Controller, über den sämtliche APs laufen. Dieser kümmert sich sowohl um die IT Security sowie das Monitoring als auch um das reibungslose Hand Over von AP zu AP.
In den Bereichen IT-Sicherheit und Netzwerk-Management wird aktuell mit adaptiven, eigenständig arbeitenden IT-Systemen experimentiert, unter anderem auch mit der Watson-Technologie von IBM. Ziel dabei ist, Echtzeit-Analysen beispielsweise bei der Suche von Netzwerk-Schwachstellen oder Sicherheitslücken einzusetzen. Mair: „Dabei muss aber allen klar sein: Die hundertprozentige Ausfall- bzw. IT-Sicherheit gibt es nicht. Auch das sollte bei jeder Planung von Netzwerk-Architekturen berücksichtigt werden.“
[1] CIOinsight: “The Staggering Cost of System Downtime”, 2016; http://www.cioinsight.com/it-strategy/infrastructure/slideshows/the-staggering-cost-of-system-downtime.html
[2] Infografik von Zetta zur „2016 Disaster Recovery Survey“: http://www.zetta.net/resource/state-disaster-recovery-2016
[3] s.o.
[4] Kategorisierung nach dem OSI-Modell bzw. Open Systems Interconnection Model:
- Layer 1 (Physical Layer) beschäftigt sich primär mit der physischen Infrastruktur und Hardware-Redundanz
- Layer 2 (Data Link Layer) steht für die Sicherungsebene, die eine geschützte Übertragung der Daten gewährleisten soll
- Layer 3 (Network Layer) ist die Vermittlungsschicht; sie schaltet Verbindungen über Leitungen frei oder vermittelt Datenpakete an den richtigen Empfänger (eventuell als Info-Kasten)