Mit dem Systemintegrator SVA, IBM und NVIDIA wurden kompetente Unternehmen für die Konzeption, die Integration sowie den Aufbau einer Deep Learning GPU Cluster-Implementierung für verteiltes Lernen aus Verkehrsvideodaten gefunden. Die Anforderungen umfassten neben der Integration von teils vorhandenen NVIDIA-Systemen ein performantes Backend-Netzwerk sowie eine leistungsfähige Storage-Lösung für den GPU-Cluster. Dabei sollte der Aufbau des gesamten Clusters (Compute/Netzwerk/Storage) in mehreren Stufen „seamless“, also nur durch Nachrüstungen ohne nennenswerte Umbauarbeiten möglich sein.
HIGH SPEED NETWORK
„Uns war ein kosteneffizientes, hochskalierbares Netzwerk wichtig, mit hoher Bandbreite bei geringer Latenz für die Inter GPU Node-Kommunikation. Auch die Anbindung an den neuen Storage musste einbezogen werden", erklärt Viktor Pal, Senior DeepLearning Infrastructure Engineer bei Continental. Auf Basis jüngster Infiniband HDR-Technologie wurde hierfür eine Lösung konzipiert und aufbauoptimiert installiert mit klar strukturierter Architektur, die einfach zu warten und leicht modular erweiterbar ist bei vergleichsweise geringen Kosten.
In einem non-blocking Interconnect Cluster-Aufbau mit mehreren Racks wurden hierfür Infiniband Switches mit mehr als 500 optischen sowie Kupfer-Infiniband-Kabeln in einer Gesamtlänge von mehr als 2,5 km verbaut. Bisher konnte eine hohe Zahl an V100 GPGPUs in NVIDIA DGX-Systemen an der Cluster Fabric angeschlossen werden. Aktuellste Mellanox/NVIDIA Low Latency Switche ermöglichen durch parallele Inter-GPU-Direkt-Speicherzugriffe (GPUDirect RDMA) eine hohe Deep Learning Performance mit großer Bandbreite bei geringer Latenz.
FLEXIBLER UND ERPROBTER STORAGE
Continental war außerdem auf der Suche nach einer skalierbaren, hoch performanten Storage-Plattform, um die NVIDIA DGX Systeme mit Daten für Deep Learning zu versorgen. Ein Proof-of-Concept Workshop durch IBM-Experten auf Basis von Software Defined Storage (SDS) auf vorhanden Kundenservern konnte die Funktionen und Möglichkeiten der IBM Spectrum Scale Technologie aufzeigen. Sehr erfolgreich getestet wurden dabei u. a. eine anfängliche, nicht abgestimmte Leistung nahe an den physikalischen Grenzen der verfügbaren Hardware nach einer vom Kunden selbst durchgeführten, angeleiteten Installation unter Verfügbarkeit des Superior Infiniband Supports „out of the box“. Die Möglichkeiten, Kubernetes-basierte Workloads ab Tag 1 zum Laufen zu bringen und das verifizierte Cloud Tiering sowie Export to Cloud mit Conti Amazon S3-Backend wurden ebenfalls bestätigt.
Auf dieser Basis wurde mit IBM ESS3000 Storage mit schnellen NVMe Drives eine Lösung implementiert, die extreme Performance mit geringen Latenzzeiten schon bei kleinen Kapazitäten liefert und sofort funktionsfähig war. Sie ist modular erweiterbar und verfügt initial über hohe Speicherkapazitäten, die nebenläufige Lesezugriffe auf Dateien in einer hohen Bandbreite bedienen kann.
Mit dem Systemhaus SVA System Vertrieb Alexander GmbH wurde hier ein technisch exzellenter Partner ins Boot geholt, dessen Experten die Gesamtintegration der Storage-Lösung im Cluster, Installation, Deployment, Konfiguration, Inbetriebnahme sowie die Schulung für Betrieb und Administration hervorragend umsetzte. „Wir sind absolut überzeugt von unserer neuen Lösung, die die Trainingszeiten sofort von Wochen auf Tage reduzieren konnte", bestätigt David Enenkel, Head of IT Operations bei der Continental Geschäftseinheit Fahrerassistenzsysteme. „Von Ausschreibungsbeginn an haben die SVA- und IBM-Experten im Team durch Kompetenz, Unterstützungs- und Beratungsbereitschaft und Professionalität im Aufbau einen hervorragenden Eindruck hinterlassen."