
Proxmox VE als Basis für virtuelle LLMs mit NVIDIA GPUs
Da wir für unsere Konzernmutter, die otris software AG seit langer Zeit schon die Plattform bieten, damit sie ihren Kunden die eigenen Softwareprodukte auch als Managed Service anbieten können, ist man im Herbst letzten Jahre auf uns zugekommen als es um das Thema KI Integration ging.
Die otris software AG ist ein führender Anbieter von Softwarelösungen zur Digitalisierung in Unternehmen. Mit Ihrer vielseitigen Plattform bieten Sie maßgeschneiderte Fachlösungen für Legal & Administration, Compliance und Datenschutz die durch hohe Benutzerfreundlichkeit und moderne Technologien überzeugen. Seit mehr als 25 Jahren betreut die otris software AG mittelständische Unternehmen und Konzerne in ganz Europa und sichert durch partnerschaftliche Projektumsetzung und reibungslosen Cloud-Betrieb den maximalen Nutzen für ihre Kunden.
Die Anfrage
Die otris software AG plante, KI-Funktionen in ihre Produkte zu integrieren, um die Dokumentenverwaltung zu optimieren und das volle Potenzial der verfügbaren Daten zu nutzen. Eine der größten Herausforderungen bestand darin, Large Language Models (LLMs) sicher in einer Private Cloud zu betreiben, die von der otris systems GmbH in drei deutschen Rechenzentren verwaltet wird.
Die Anforderungen
Um eine leistungsfähige und datenschutzfreundliche Lösung zu realisieren, mussten zentrale Anforderungen erfüllt werden: Die Replikation zwischen zwei Rechenzentren zur Lastverteilung und Ausfallsicherheit, die Nutzung virtueller Maschinen als flexible Umgebung für die LLMs sowie die direkte GPU-Zuweisung, bei der NVIDIA H100 GPUs per PCIe-Passthrough an virtuelle Maschinen durchgereicht werden, um eine dynamische GPU-Nutzung zu ermöglichen.
Unsere Lösung – Proxmox VE
Da wir inzwischen viel Erfahrung mit Proxmox Virtual Environment (VE) gesammelt haben, war es für uns nur logisch es auch für dieses Szenario einmal mit Proxmox zu versuchen, auch wenn eine offizielle Unterstützung für Nvidia GPUs noch nirgends zu sehen war. Aber es ermöglicht eine zuverlässige und effiziente Verwaltung von virtuellen Instanzen. Aus unserer Sicht ist hervorzuheben, dass die einfache Bedienbarkeit und die robuste Architektur von Proxmox VE, die eine flexible Nutzung und Skalierung erlaubt. Ein weiterer Vorteil schien uns die ZFS-Snapshot-Replikation, die eine schnelle und effiziente Datensicherung und Wiederherstellung ermöglicht.
Der Weg der Implementierung
Für die Implementierung wurden zwei identisch konfigurierte Supermicro 4125GS-TNRT Systeme eingesetzt, die jeweils mit zwei AMD EPYC 9654 Prozessoren mit 96 Kernen, 1,5 TB DDR5 RAM und einer Kapazität von bis zu acht GPUs pro Server ausgestattet sind. Die Netzwerkstruktur basiert auf einer 10GbE-Anbindung für externe Verbindungen sowie einem eigenen 100GbE-Netzwerk für die interne Kommunikation. Die Virtualisierungslösung Proxmox VE 8.3 wurde auf diesen Servern installiert, wobei die GPUs mittels PCIe-Passthrough direkt an die virtuellen Maschinen weitergereicht wurden.
Während der Implementierung ergab sich jedoch eine unerwartete Herausforderung: Die GPUs wurden zwar innerhalb der virtuellen Maschinen erkannt, allerdings konnten die NVIDIA-Treiber sie nicht initialisieren. Nach einer intensiven Analyse und enger Zusammenarbeit mit Proxmox und dem Hardwarelieferanten stellte sich heraus, dass die ausgelieferte BIOS-Version der NVIDIA H100 GPUs nicht für Virtualisierung optimiert war. Ein von NVIDIA bereitgestelltes BIOS-Update löste das Problem, sodass die GPUs wie vorgesehen genutzt werden konnten.
Ein konkretes Beispiel für die Leistungsfähigkeit der Lösung zeigte sich bei einem unerwarteten Defekt des Mainboards eines Servers. Dank der flexiblen Infrastruktur konnte die virtuelle Maschine schnell auf den zweiten Server transferiert werden, die dort vorhandene GPU eingebunden und der Betrieb innerhalb kürzester Zeit wieder aufgenommen werden.
In der praktischen Anwendung zeigte sich die Lösung äußerst stabil und zuverlässig. Die Installation und der Betrieb von Proxmox VE auf Hardware von Supermicro verlief problemlos.

1. Ausbaustufe: 3 NVIDIA H100 GPUs
Fazit
Die langfristigen Vorteile der Implementierung sind vielfältig. Die Lösung bietet maximale Skalierbarkeit, da das bestehende Serverdesign jederzeit durch zusätzliche GPUs erweitert werden kann. Zudem ermöglicht Proxmox VE eine optimale Ressourcennutzung durch dynamische Verteilung von CPU-Kernen, RAM und GPUs, wodurch eine präzisere Kontrolle und effizientere Nutzung der Hardware gewährleistet wird.
Durch die geplante Umstellung von ZFS-Replikation auf Ceph wird die Echtzeitreplikation zwischen Rechenzentren verbessert, was die Redundanz und Betriebssicherheit erheblich steigert. Zudem bietet die Open-Source-Technologie von Proxmox erhebliche Kosteneinsparungen, da hohe Lizenzkosten entfallen und Investitionen gezielter in leistungsfähige Hardware fließen können. Die Umgebung bleibt zudem flexibel und zukunftssicher, da sie sich leicht erweitern und an neue Anforderungen anpassen lässt. Ein weiterer Vorteil ist die hohe Stabilität: Die regelmäßig bereitgestellten Updates sorgen für einen sicheren Betrieb mit minimalen Ausfallzeiten.
Schließlich wird mit der zukünftigen Einführung des Proxmox DataCenter Managers angestrebt die zentrale Verwaltung und Automatisierung der gesamten Infrastruktur weiter zu optimieren.
Zusammenfassend bietet die Kombination aus Proxmox VE und leistungsstarker Hardware der otris software AG eine zuverlässige, kosteneffiziente und zukunftssichere Plattform für KI-gestützte Prozesse. Durch die hohe Skalierbarkeit, Flexibilität und Stabilität der Lösung ist das Unternehmen bestens gerüstet, um auch in Zukunft innovative Technologien effizient einzusetzen.
…. und unser Kunde war auch sehr zufrieden:
„Für uns war es wichtig, dass die Kunden der otris legal suite die Wahl haben: Nutzung der gängigen KI-Modelle bei den bekannten Hostern oder Verwendung einer lokalen KI, so dass die Kundendaten die otris-Systeme nicht verlassen“, so Dr. Christoph Niemann, Mitgründer und Vorstand der otris software AG. „Für Letzteres nutzen wir die Vorteile eines eigenen LLM auf Proxmox VE mit den NVIDIA GPU-Karten in einer eigenen Umgebung, die unsere Kollegen von der otris systems GmbH komplett betreuen.“