Auf einen Blick
- Aufgaben: Entwickle und optimiere KI-Workloads auf großen GPU-Clustern.
- Arbeitgeber: Innovatives Unternehmen im Bereich Hochleistungsrechnen und KI.
- Mitarbeitervorteile: Attraktives Gehalt, Gesundheitsleistungen und flexible Arbeitsmöglichkeiten.
- Warum dieser Job: Löse komplexe Herausforderungen und arbeite mit modernster Technologie.
- Gewünschte Qualifikationen: Erfahrung in beschleunigten Computing-Technologien und Programmierkenntnisse in C, C++ oder Python.
- Andere Informationen: Dynamisches Umfeld mit hervorragenden Karrieremöglichkeiten.
Das voraussichtliche Gehalt liegt zwischen 60000 - 84000 € pro Jahr.
Wir suchen einen Senior Solutions Architect mit umfangreicher praktischer Erfahrung in der Bereitstellung, Fehlersuche und Optimierung von Trainings- und Inferenz-Workloads auf großflächigen GPU-Clustern. Da wir Kunden und Partner in ganz Europa bei der Schulung von Modellen auf bahnbrechender GPU-Infrastruktur unterstützen, suchen wir jemanden, der gerne komplexe Herausforderungen an der Schnittstelle von Hochleistungsrechnen und KI löst. Ebenso nimmt die Komplexität der Inferenz mit der Explosion von MOE-Modellen und der disaggregierten Ausführung zu, was die Inferenz zu einer echten HPC-Arbeitslast macht. Sie müssen nicht in jedem genannten Bereich Expertise haben, aber wir sind besonders an Kandidaten interessiert, die tiefes Wissen in mindestens einigen Schlüsselbereichen mitbringen, um groß angelegte KI-Workloads zu ermöglichen. Wenn Sie praktische Erfahrung nachweisen können, würden wir uns freuen, von Ihnen zu hören.
Was Sie tun werden:
- Zusammenarbeit mit den Entwicklern des Trainingsrahmenwerks von NVIDIA und den Produktteams, um über die neuesten Funktionen informiert zu bleiben und Partner bei deren effektiver Annahme zu unterstützen.
- Unterstützung bei der Bereitstellung, Fehlersuche und Verbesserung der Effizienz von KI-Workloads auf umfangreichen NVIDIA-Plattformen.
- Benchmarking neuer Rahmenfunktionen, Analyse der Leistung und Weitergabe umsetzbarer Erkenntnisse an Kunden und interne Teams.
- Direkte Zusammenarbeit mit externen Kunden zur Lösung von Leistungs- und Stabilitätsproblemen von Clustern, Identifizierung von Engpässen und Implementierung effektiver Lösungen.
- Aufbau von Fachwissen und Anleitung der Kunden beim effizienten und zuverlässigen Skalieren von Workloads auf der neuesten Generation von NVIDIA-GPUs.
- Beitrag zur europäischen Sovereign AI-Initiative, indem Kunden bei der Implementierung fortschrittlicher Resilienzfunktionen innerhalb von KI-Trainingspipelines unterstützt werden.
Was wir sehen müssen:
- BS, MS, PhD oder gleichwertige Erfahrung in Informatik, Elektrotechnik/Informatik, Physik, Mathematik oder einem verwandten Ingenieurfeld – oder gleichwertige praktische Erfahrung.
- Über 8 Jahre Erfahrung in beschleunigten Computing-Technologien auf Clustergröße, idealerweise einschließlich Arbeit mit NVIDIA-Plattformen.
- Starke Programmierkenntnisse in mindestens einer der folgenden Sprachen: C, C++ oder Python.
- Praktische Erfahrung in der Identifizierung und Behebung von Engpässen in großflächigen Trainings-Workloads oder parallelen Anwendungen.
- Praktische Erfahrung in der Profilerstellung und Fehlersuche großer paralleler Anwendungen.
- Solides Verständnis von CPU- und GPU-Architekturen, CUDA, parallelen Dateisystemen und Hochgeschwindigkeitsverbindungen.
- Erfahrung in der Arbeit mit großen Rechenclustern mit Verständnis ihrer internen Planungs- und Ressourcenmanagementmechanismen (z.B. SLURM oder cloudbasierte Cluster).
- Fundierte Kenntnisse von Trainingspipelines und -rahmenwerken, einschließlich ihrer internen Abläufe und Leistungsmerkmale.
Wie Sie sich von der Masse abheben können:
- Erfahrung in der Fehlersuche von Trainingspipelines, die in Produktionsumgebungen auf Tausenden von GPUs laufen.
- Praktische Erfahrung mit Leistungsprofilierung und Optimierungen unter Verwendung von Tools wie Nsight Systems, Nsight Compute und gutes Verständnis von NCCL, MPI und Low-Level-Kommunikationsbibliotheken.
- Fähigkeit, Stabilitätsprobleme über den gesamten Stack hinweg zu debuggen: parallele Anwendung, Trainingsrahmenwerke, Laufzeitbibliotheken, Scheduler und Hardware.
- Solides Verständnis der internen Funktionsweise von LLM-Rahmenwerken wie PyTorch, Megatron-LM oder NeMo und wie sie die Compute-Schichten wie CPUs, GPUs, Netzwerk und Speicher beeinflussen oder Verständnis von Inferenztools wie vLLM, Dynamo, TensorRT-LLM, RedHat Inference Server oder SGLang.
Senior Solutions Architect, HPC and AI Arbeitgeber: NVIDIA Corporation
Kontaktperson:
NVIDIA Corporation HR Team
StudySmarter Bewerbungstipps 🤫
So bekommst du den Job: Senior Solutions Architect, HPC and AI
✨Netzwerken ist der Schlüssel
Nutze Plattformen wie LinkedIn, um mit Fachleuten aus der HPC- und KI-Branche in Kontakt zu treten. Teile deine Erfahrungen und zeige dein Interesse an den neuesten Technologien – das kann Türen öffnen!
✨Präsentiere deine Projekte
Hast du an spannenden Projekten gearbeitet? Zeig sie! Erstelle ein Portfolio oder eine Präsentation, die deine Fähigkeiten im Umgang mit GPU-Clustern und KI-Workloads demonstriert. Das macht Eindruck!
✨Bereite dich auf technische Interviews vor
Sei bereit, deine technischen Fähigkeiten unter Beweis zu stellen. Übe typische Fragen zu CUDA, Parallelverarbeitung und Performance-Optimierung. Wir wissen, dass du das kannst!
✨Bewirb dich direkt über unsere Website
Wir empfehlen dir, dich direkt über unsere Website zu bewerben. So hast du die besten Chancen, gesehen zu werden und wir können deine Bewerbung schneller bearbeiten!
Diese Fähigkeiten machen dich zur top Bewerber*in für die Stelle: Senior Solutions Architect, HPC and AI
Tipps für deine Bewerbung 🫡
Mach deine Hausaufgaben!: Bevor du mit deiner Bewerbung anfängst, schau dir unsere Website genau an. Verstehe, was wir bei StudySmarter machen und wie du in die Rolle des Senior Solutions Architect passt. Das zeigt uns, dass du wirklich interessiert bist!
Sei konkret!: Wenn du deine Erfahrungen und Fähigkeiten aufschreibst, sei so konkret wie möglich. Nenne Beispiele aus deiner bisherigen Arbeit, die zeigen, wie du komplexe Herausforderungen im HPC und AI gemeistert hast. Das macht deine Bewerbung viel überzeugender!
Zeig deine Leidenschaft!: Wir suchen nach Leuten, die nicht nur die nötigen Fähigkeiten haben, sondern auch eine echte Leidenschaft für HPC und AI mitbringen. Lass in deinem Anschreiben durchscheinen, warum du dich für diese Technologien begeisterst und wie du dazu beitragen möchtest, unsere Kunden zu unterstützen.
Bewirb dich über unsere Website!: Um sicherzustellen, dass deine Bewerbung direkt bei uns landet, bewirb dich bitte über unsere Website. So können wir deine Unterlagen schnell und unkompliziert bearbeiten und du bist einen Schritt näher dran, Teil unseres Teams zu werden!
Wie du dich auf ein Vorstellungsgespräch bei NVIDIA Corporation vorbereitest
✨Verstehe die Technologien
Mach dich mit den neuesten Entwicklungen in HPC und AI vertraut, insbesondere mit NVIDIA-Plattformen. Zeige im Interview, dass du die Herausforderungen und Lösungen in der Branche verstehst und bereit bist, diese aktiv anzugehen.
✨Praktische Beispiele parat haben
Bereite konkrete Beispiele aus deiner bisherigen Erfahrung vor, die deine Fähigkeiten im Umgang mit großen GPU-Clustern und der Optimierung von Workloads demonstrieren. Das zeigt, dass du nicht nur theoretisches Wissen hast, sondern auch praktische Lösungen anbieten kannst.
✨Fragen stellen
Zeige Interesse an der Rolle und dem Unternehmen, indem du gezielte Fragen stellst. Frage nach den spezifischen Herausforderungen, die das Team aktuell hat, oder wie sie neue Technologien implementieren. Das zeigt dein Engagement und deine Neugier.
✨Teamarbeit betonen
Da die Rolle viel Zusammenarbeit erfordert, solltest du Beispiele für erfolgreiche Teamprojekte und deine Rolle darin bereit haben. Betone, wie du mit anderen zusammengearbeitet hast, um komplexe Probleme zu lösen und Ergebnisse zu erzielen.