Hintergrund der Erfolgsgeschichte
Anfang 2023 schloss die Universität Rey Juan Carlos die Installation des "Talos"-Clusters unter der Leitung der Forscher Sergio Muñoz und Luis Bote ab. Talos, ein Name, der sich von der ersten nicht-organischen künstlichen Intelligenz der griechischen Mythologie ableitet, stellt dem Team für seine Forschungen über zelluläre Alterungsmechanismen erhebliche Rechenleistung zur Verfügung.
Sergio Muñoz, der im Bereich des maschinellen Lernens promoviert hat und Professor für Biomedizintechnik an der Universität Rey Juan Carlos ist, arbeitet mit den BigMed+-Professoren und -Forschern bei der Entwicklung von KI- und maschinellen Lernalgorithmen zusammen.
Die Universität Rey Juan Carlos (URJC) ist eine dynamische Einrichtung, die für ihre Beiträge zu modernstem Wissen bekannt ist und sowohl auf nationaler als auch auf internationaler Ebene einen guten Ruf genießt. Mit 46.000 Studenten und fünf Forschungsgruppen, die 31 Bereiche der Künste, Wissenschaften und Literatur abdecken, verfügt die Universität über ein lebendiges akademisches Umfeld.
In ihrer Forschung sind Algorithmen von entscheidender Bedeutung, um nicht nur Lösungen zu finden, sondern auch die zugrunde liegenden Daten zu verstehen. Das Verständnis der Daten ermöglicht es den Algorithmen, effektiv auf Fragen zu reagieren. In diesem Bereich sind Black Boxes, die keine Antworten auf diese Fragen geben können, unerwünscht. Während der Mensch bei bestimmten Wahrnehmungsaufgaben überragend ist, fällt es ihm schwer, verborgene Erkenntnisse aus großen Datenmengen zu gewinnen. Daher ist es von entscheidender Bedeutung, diese Informationen zu verarbeiten und verborgene Muster zu entdecken, um die gestellten Fragen zu beantworten.
Die Gesundheit, insbesondere die Biomedizintechnik, ist ein zentraler Schwerpunkt und von großer Bedeutung für ihre Forschung. Für die Entwicklung von Algorithmen der künstlichen Intelligenz benötigen sie horizontal skalierbare Algorithmen, insbesondere im Bereich des maschinellen Lernens.
Lösung für die Forschungsherausforderung
Die Überwindung der begrenzten Speicher- und Infrastrukturkapazität für die horizontale Skalierung und die effiziente Ausführung von Algorithmen hatte oberste Priorität. Daher war die Sicherung einer beträchtlichen Anzahl von CPU-Kernen, wie sie von SIE und GIGABYTE bereitgestellt werden, von entscheidender Bedeutung.
Darüber hinaus wurden erklärbare KI-Algorithmen mit Schwerpunkt auf Deep-Learning-Techniken und generativen Modellen entwickelt, was den Einsatz modernster NVIDIA A100 Tensor Core-Grafikprozessoren mit NVIDIA Ampere-Architektur erforderte.
Da sich die Forschungsgruppe auf die Entwicklung von raum-zeitlichen Simulationen spezialisiert hat, mussten die GPUs bei Berechnungen mit doppelter Genauigkeit gut abschneiden.
Die Bedürfnisse dieser Forschungsgruppe sind drei:
- Eine beträchtliche Anzahl von CPU-Kernen, um parallele Berechnungen durchzuführen und ihre maschinellen Lernmodelle anzuwenden.
- GPUs mit doppelter Genauigkeit und die letzte Generation der erklärbaren KI und Simulation.
- Genügend Speicherplatz, insbesondere für biomedizinische Anwendungen, ermöglicht es, ein wichtiges Budget durch ein europäisches Forschungsprogramm zu erhalten, an dem Forscher aus der ganzen Welt beteiligt sind.
Diese technischen Barrieren zu überwinden. Dank des Wissens und der Erfahrung, die SIE durch HPC erworben hat, war es möglich, ein Rechenzentrum zu verwalten, das mit den GIGABYTE G492-ZD2 Plattformen.
G492-ZD2 - die GIGABYTE GPU-Server-Lösung, die Forschern die Arbeit erleichtert
Der G492-ZD2 ist ein Server, der speziell für die absolut besten GPU-zentrierten Workloads entwickelt wurde. Er verwendet ein Dual-Kammer-Design in einem 4U-Gehäuse, wobei die obere 1U für die CPU-Plattform und die untere 3U für die GPUs reserviert ist und gleichzeitig bis zu 10 Low-Profile-NICs unterstützt. Diese Lösung bietet die bestmögliche Luftkühlung, so dass das System ohne Kompromisse Spitzenleistungen erbringen kann.
In der vom URJC-Forschungsteam gewählten Konfiguration verfügt jeder GPU-Knoten über zwei AMD EPYC 7282-Prozessoren für insgesamt 32 CPU-Kerne und 128 PCIe 4.0-Lanes. Die Schwerstarbeit und parallele Verarbeitung wird von NVIDIA HGX A100 SXM4 GPUs übernommen. Jeder GPU-Server verfügt über acht NVIDIA A100-GPUs. Dieser innovative GPU-Cluster verfügt über eine beeindruckende Rechenleistung, die sich in seinen 221.184 CUDA-Kernen widerspiegelt. Und er erreicht eine theoretische FP64-Leistung von mehr als 300 TFLOPS. Die Konnektivität ist für die direkte Datenübertragung von GPU zu GPU optimiert; die NVIDIA A100 Tensor Core GPUs sind über mehrere NVIDIA® NVLink™ Interconnects miteinander verbunden, was einen Durchsatz von 600 GB/s zwischen den GPUs ermöglicht.
Die Einbeziehung und Auswahl der NVIDIA A100 SXM4 Module im G492-ZD2 System ist wichtig, da die neuen NVIDIA Magnum IO GPUDirect Technologien einen schnelleren Durchsatz begünstigen und gleichzeitig die CPU entlasten, um eine Leistungssteigerung zu erreichen. Der G492-ZD2 unterstützt NVIDIA GPUDirect RDMA für den direkten Datenaustausch zwischen GPUs und Geräten von Drittanbietern wie NICs oder Speicheradaptern. Außerdem wird GPUDirect Storage für einen direkten Datenpfad unterstützt, um Daten vom Speicher in den GPU-Speicher zu verschieben und dabei die CPU zu entlasten, was zu einer höheren Bandbreite und geringeren Latenz führt.
Der Zugriff auf die 576 TB gemeinsam genutzter Speicherkapazität des Clusters kann über natives InfiniBand erfolgen, mit einer hohen Geschwindigkeit bei der Verwaltung von Daten und Metadaten, mit GFS Access, einem hardwareunabhängigen parallelen POSIX-Dateisystem, das eine große gleichzeitige Geschwindigkeit der Knoten und der Benutzerverwaltung ermöglicht, mit einer Kapazität, die in Zukunft auf 1 PB erhöht werden kann. Es wurde für alle leistungsorientierten Umgebungen entwickelt, einschließlich HPC, KI, Deep Learning und Biowissenschaften.
Über die Zukunft
Diese Gruppe konzentriert sich nicht nur auf Wissen, sondern auch auf die Weitergabe dieses Wissens. Das Supercomputerzentrum kommt den Mitarbeitern und der Gesellschaft zugute, indem es Wissen mit Partneruniversitäten teilt. Die schnelle Datenverarbeitung hilft Unternehmen, die an maschinellem Lernen interessiert sind, und ermöglicht eine wertvolle Datenintegration. Die künftige Forschung konzentriert sich auf zwei Bereiche, zum einen auf die Untersuchung der teilweisen oder vorübergehenden Reprogrammierung von Zellen zur Verbesserung der Lebensqualität und zum anderen auf die Onkologie. Talos hat eine vielversprechende Zukunft vor sich.
Die vollständige Geschichte finden Sie auf der Website von SIE: https://www.sie.es/...