Concat-Logo
Concat-Logo
Concat-Logo
Bleiben Sie immer aktuell mit Ihrer IT!

Künstliche Intelligenz – Welche Infrastrukturen braucht es?

In unserem IT Blog finden Sie aktuelle Themen zur IT Sicherheit, Managed Services, Cloud Anwendungen u. v. m.
Header Blog KI Teil-3

Falls Sie sich fragen „Wie kann meine Universität oder Institution mit Künstlicher Intelligenz (KI) Kosten senken oder etwas besser machen?“ sind Sie hier genau richtig. Im dritten Teil dieser Blogartikel-Serie geht es um Fragen zur technischen Basis: Welche Infrastruktur benötige ich zwingend, was ist optional?

Der Aufbau einer KI-Umgebung im Unternehmen erfordert eine Hardware-Infrastruktur, die sowohl leistungsstark als auch skalierbar ist. Die Größe einer solchen Umgebung hängt erheblich von der Art der Anwendung und der Menge an zur Verfügung stehenden Daten ab sowie von der Frage, wie isoliert diese innerhalb einer Infrastruktur betrieben werden. Lösung A kann z. B. mit einem feststehenden und unveränderlichen Datenpool an einer gezielten Fragestellung arbeiten (geringe Anforderung). Lösung B könnte dagegen aus einem täglich oder minütlich aktualisierten Datenpool dynamisch verändernde Anforderungen bearbeiten, deren konkrete Fragestellung noch dazu variabel ist (sehr hohe Anforderung).

Grundsätzlich wird zunächst optimierte Rechenleistung benötigt:

1. Rechenleistung: GPUs/TPUs

  • Grafikprozessoren (GPUs): Hochleistungs-GPUs wie die NVIDIA A100, H100 oder ähnliche Modelle sind essenziell für KI-Workloads. Sie bieten massive Parallelisierung, ideal für Deep Learning.
  • Tensor Processing Units (TPUs): Wenn Google-basierte Cloud-Dienste genutzt werden, können TPUs eine effiziente Alternative sein, insbesondere für TensorFlow-basierte Anwendungen.
  • Skalierbarkeit: Mehrere GPUs oder GPU-Cluster können je nach Workload erforderlich sein.

2. Speicherlösungen

  • High-Speed-Speicher: NVMe-SSDs sind ideal, um große Datenmengen schnell zu verarbeiten.
  • Massenspeicher: NAS- oder SAN-Systeme für die langfristige Speicherung und Verwaltung großer Datenmengen, die dann die Grundlage für Mustererkennungen und maschinelles Lernen bieten.
  • In-Memory-Speicher: Bei Echtzeitanalysen kann zusätzlicher RAM (z. B. HBM oder DDR5) die Leistung steigern.

3. Netzwerk

  • Hochgeschwindigkeitsnetzwerk: Für reibungslose Kommunikation in einem GPU-Cluster werden Netzwerkgeschwindigkeiten ab100 Gbps empfohlen. Technologien wie InfiniBand bieten besonders geringe Latenzen.
  • Edge-Computing: Falls KI auch auf IoT-Geräten oder in Filialen zum Einsatz kommt, sollte eine Infrastruktur für Edge-Computing bereitgestellt werden.

4. Server-Architektur

  • Dedicated KI-Server: Systeme wie die NVIDIA DGX-Reihe oder ähnliche von anderen Anbietern sind speziell für KI entwickelt. 
  • Cloud-Integration: Ein hybrider Ansatz, der lokale Server mit Cloud-Diensten (AWS, Azure, Google Cloud) kombiniert, bietet Flexibilität und Skalierbarkeit, insbesondere dann, wenn die Workloads sehr unregelmäßig und / oder mit unkalkulierbaren Anforderungen anfallen.
  • Containerisierung: Plattformen wie Kubernetes in Kombination mit Docker für die Verwaltung von KI-Workloads.

5. Energieversorgung und Kühlung

  • GPUs und Hochleistungsserver haben einen hohen Energiebedarf. Eine stabile Stromversorgung ist essenziell. Ebenso eine effiziente Kühlung durch z. B. Wasserkühlung oder Geltanks.

Anbieter und wie sie sich unterscheiden

Größter, bekanntester und aufgrund eines umfassenden Software- und Dienstleistungsportfolios bei vielen gesetzter Anbieter für GPUs ist NVIDIA. Wir bieten unseren Kunden sowohl die nativen H100-Systeme (und ähnliche) an, aber auch Server der Hersteller Dell und HPE mit entsprechenden NVIDIA-GPUs. Die GPU-Server verschiedener Hersteller zu vergleichen, ist eine sehr sinnvolle Form der Marktbetrachtung. Preis, Ausstattung und Verfügbarkeit können sehr unterschiedlich sein.

Wenn Sie zu denjenigen gehören, die noch nie NVIDIA-Aktien gekauft haben und vielleicht einem der aufstrebenden Underdogs im Bereich KI-Hardware eine Chance geben wollen, lohnt es sich, einen Blick auf die Firma Cerebras zu werfen. Die seit Sommer 2024 verfügbare dritte Prozessorgeneration wurde mit vollmundigen Worten angekündigt. Hier ein Zitat: „Heute stellt Cerebras den CS-3 vor, unseren dritten Wafer-Scale-AI-Beschleuniger, der speziell für das Training der fortschrittlichsten KI-Modelle entwickelt wurde. Mit über 4 Billionen Transistoren – 57-mal mehr als die größte GPU – ist der CS-3 doppelt so schnell wie sein Vorgänger und setzt neue Maßstäbe beim Training großer Sprach- und multimodaler Modelle. Der CS-3 ist für Skalierbarkeit ausgelegt: Mit unserer nächsten Generation des SwarmX-Interconnects können bis zu 2048 CS-3-Systeme miteinander verbunden werden, um KI-Supercomputer im Hyperskalierungsbereich mit bis zu einem Viertel eines Zettaflops (10^21) zu bauen. Der CS-3 kann mit bis zu 1.200 Terabyte externem Speicher konfiguriert werden – was es einem einzelnen System ermöglicht, Modelle mit bis zu 24 Billionen Parametern zu trainieren. Damit ebnet er den Weg für ML-Forscher, Modelle zu entwickeln, die 10-mal größer sind als GPT-4 und Claude.“

Ein weiterer, spannender Anbieter ist die Firma Graphcore, ebenfalls aus dem Silicon Valley. Auch Graphcore stellt modernste, für KI optimierte Serverarchitekturen her, die es von kleinen handlichen Einsteigermodellen bis hin zu maximal optimierten Supercomputern gibt. Das Unternehmen gehört mittlerweile zur renommierten Softbank-Gruppe und ist damit auch finanziell zukunftssicher aufgestellt.

Aus Deutschland kommt z. B. der Anbieter Artificial Intelligence Machines, ebenfalls mit einem breiten Angebot an GPU- und CPU-Servern, Workstations, Cloud-Lösungen und dazugehörigen Infrastrukturen.

Selbstverständlich können alle diese Produkte über die Concat AG bezogen werden.

Optimierte Speicherlösungen und Speicherarchitekturen

Grundsätzlich ist es Ihnen überlassen, welche Speichersysteme oder Speicherarchitekturen Sie verwenden. Funktionieren werden alle Lösungen, die per NFS angesprochen und mit leistungsfähigen NVMe-Platten ausgestattet wurden. Ein hoher Durchsatz (100 bis 400GBps) der Netzwerk-Infrastruktur (alternativ per Infiniband) ist wünschenswert.

Achten Sie bitte darauf, dass das primäre Hochleistungssystem ausreichend dimensioniert und angeschlossen ist. Dahinter sollte ein Archivspeicher liegen, auf dem die aktuell nicht bearbeiteten Daten vorhanden sind. Dieser Speicherbereich wird stetig weiter wachsen.

Folgendes sollte aus unserer Sicht beachtet werden:

  • Das System muss Hochleistungsspeicher und Archivspeicher in einem Filesystem abbilden können.
  • Der Datentransfer zwischen diesen beiden Ebenen muss schnell und automatisiert erfolgen (transparentes HSM).
  • Die Speicherebenen sollten schnell und unterbrechungsfrei erweitert werden können, um hier ggf. kostspielige Betriebsunterbrechungen zu vermeiden.
  • Idealerweise ist der Hochleistungsspeicher per GPUDirect ansprechbar (sofern Sie NVIDIA-GPUs verwenden).

GPUDirect ist ein zentraler Baustein für Hochleistungssysteme, da es die Effizienz von GPU-gestützten Workflows erheblich steigert. Besonders in Kombination mit Speichersystemen wie Dell PowerScale und NVIDIA DGX-Servern ermöglicht es schnellere, skalierbarere und ressourcenschonendere KI- und HPC-Lösungen. Mit der Kombination dieser beiden Hardwareprodukte erreichen Sie aktuell die minimalste Latenz und die maximalste CPU-Auslastung.

Dell PowerScale ist auch generell das von uns empfohlene Speichersystem für die Datenhaltung der KI-Rechenknechte. Alle notwendigen und zahlreiche weitere Features sind hier enthalten. Sie nutzen den Vorteil einer schnellen und flexiblen NVMe-Architektur (True Scale-out) und preisgünstigen Archivspeicher. Auf Wunsch stellen wir gern den Kontakt zu einem unserer zahlreichen Referenzkunden her. Ebenfalls gut geeignet sind die Lösungen von PureStorage (Flash-Blade) und Huawei (OceanStore Pacific). Hier ist allerdings die Integration von maximal schnellem Produktionsspeicher mit dem Archivspeicher nicht bzw. nicht so nahtlos vorhanden wie bei der Dell PowerScale.

Weitere Artikel der KI-Serie

Weitere Links

Michael Gosch
Vertrieb Forschung und Lehre

Das könnte Sie auch interessieren

Lassen Sie uns über Ihr Projekt sprechen

Sie haben Fragen oder wünschen eine Beratung? Unser Serviceteam ist für Sie da. Gerne helfen wir Ihnen telefonisch oder per E-Mail persönlich weiter. Wir freuen uns auf Ihre Anfrage.
Hinweise zur Kontaktaufnahme
Ich stimme zu, dass Concat die von mir übermittelten personenbezogenen Daten erhebt, speichert und verarbeitet.

Concat wird die Daten ohne gesonderte Einwilligung nicht an Dritte weitergeben.

Ich gebe diese Einwilligung freiwillig ab und mir ist bekannt, dass ich sie jederzeit gegenüber Concat (postalisch, per Fax oder per E-Mail an [email protected]) ohne Angaben von Gründen widerrufen oder die Berichtigung, Löschung oder Sperrung der Daten für eine zukünftige Verwendung verlangen kann.




    © 2025 Concat AG – IT Solutions | All Rights Reserved | A Meridian Group International Company