Auf einen Blick
- Aufgaben: Gestalte und optimiere unsere GPU-Cluster-Infrastruktur für innovative ML-Projekte.
- Unternehmen: NEURA, ein führendes Unternehmen im Bereich KI und Cloud-Technologie.
- Vorteile: Attraktives Gehalt, flexible Arbeitszeiten und Weiterbildungsmöglichkeiten.
- Weitere Informationen: Arbeiten in einem kreativen Umfeld mit großartigen Entwicklungschancen.
- Warum dieser Job: Sei Teil eines dynamischen Teams und forme die Zukunft der KI-Infrastruktur.
- Qualifikationen: Mindestens 5 Jahre Erfahrung im Infrastructure Engineering, idealerweise mit GPU-Clustern.
Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.
Deine Mission & Herausforderungen
Du bist die zentrale Ansprechperson für NEURAs GPU‑Cluster-Infrastruktur – ein großskaliges AWS‑HyperPod‑Setup mit topmodernen GPU‑Instanzen für Foundation‑Model‑Training und kundenspezifische Fine‑Tuning‑Workloads. Du entwickelst das Betriebsframework, baust Self‑Service‑Tools für die ML‑Teams und arbeitest direkt mit AWS zusammen, um die Plattform auf Hyperscaler‑Ebene mitzugestalten. Dein Fokus liegt voll auf Cluster Engineering & Operations — nicht auf ML‑Forschung selbst, sondern darauf, dass die Leute, die forschen, eine extrem stabile, effiziente und leicht zugängliche Infrastruktur haben.
- Aufsetzen, Konfigurieren und kontinuierliches Weiterentwickeln der HyperPod‑Cluster von NEURA, inkl. HyperPod/Slurm und HyperPod/EKS‑Orchestrierungsmodellen.
- Design und Umsetzung von Strategien für Cluster-Stabilität: Node‑Failure‑Detection, automatische Job‑Recovery, Checkpoint‑Koordination und fehlertolerante Multi‑Node‑Training‑Workflows.
- Aufbau eines Workload‑Priority‑Frameworks, das mehreren Teams und Use Cases – Pretraining, Fine‑Tuning, Kundenjobs – erlaubt, Clusterkapazität fair und effizient zu teilen.
- Optimierung der End‑to‑End‑GPU‑Auslastung: Erkennen und Lösen von Bottlenecks in Compute, GPU‑Speicher, EFA‑Netzwerk und Storage‑Durchsatz.
- Enge Zusammenarbeit mit den AWS HyperPod‑Produkt‑ und Engineering‑Teams: Issues eskalieren, Learnings aus einer der größten Deployments teilen und Anforderungen für die Roadmap platzieren.
- Bereitstellung von Self‑Service‑Tools, damit ML‑Researchers und Engineers Trainingsjobs eigenständig starten, monitoren und managen können – ohne ständige Infrastrukturunterstützung.
- Erstellung von Onboarding‑Dokus, Trainingsmaterial und internen Workshops, damit User effizient arbeiten, Best Practices einhalten und Kosten ihrer Workloads verstehen.
- Infrastructure as Code ist für dich Standard. Jede Cluster‑Konfiguration, jede Änderung, jede Umgebung ist Code‑first.
- Verantwortung für Kosten- und Kapazitätsstrategie: Spot‑Management, Reserved‑Instance‑Planung, Savings Plans und laufende AWS‑Commitment‑Verhandlungen.
Auf was können wir uns freuen
- 5+ Jahre Erfahrung im Infrastructure‑ oder Systems‑Engineering, idealerweise mit Fokus auf GPU‑Cluster oder HPC‑Umgebungen.
- Tiefe praktische Erfahrung mit AWS HyperPod und AWS‑Instanzen; direkte Erfahrung mit HyperPod ist ein starker Vorteil.
- Solides Verständnis von Slurm und Kubernetes als Orchestrierungsschichten – und die Fähigkeit, ihre Trade‑offs für große GPU‑Workloads zu bewerten.
- Praktisches Wissen über Distributed Training – du weißt, was Durchsatz beeinflusst und wie man Probleme debuggt.
- Erfahrung in der Entwicklung von Self‑Service‑Tools und technischer Dokumentation für anspruchsvolle Endnutzer: Du machst komplexe Infrastruktur zugänglich, nicht nur funktionsfähig.
- Starkes Verständnis für Cloud‑Kostenmanagement im großen Maßstab: Spot‑Interruptions, Kapazitätsreservierungen, Kostenverteilung über Teams und Workloads.
- Wohlfühlen in der Zusammenarbeit über Teamgrenzen hinweg – deine Hauptpartner sind ML‑Forschende, aber auch Product, Finance und Cloud‑Vendors.
- Sehr gute Englischkenntnisse; Deutsch ist ein Plus.
GPU Cluster Engineer (Mensch) Arbeitgeber: NEURA Robotics
NEURA bietet eine dynamische und innovative Arbeitsumgebung, in der du als GPU Cluster Engineer die Möglichkeit hast, an modernsten Technologien zu arbeiten und direkt mit AWS zusammenzuarbeiten. Unsere Unternehmenskultur fördert Zusammenarbeit und kontinuierliches Lernen, während wir dir durch gezielte Schulungen und Workshops helfen, deine Fähigkeiten weiterzuentwickeln. Zudem bieten wir flexible Arbeitszeiten und ein unterstützendes Team, das sich für deinen Erfolg einsetzt.
StudySmarter Expertenrat🤫
Wir sind der Meinung, dass Sie so GPU Cluster Engineer (Mensch) erhalten könnten
✨Netzwerken ist der Schlüssel
Sprich mit Leuten aus der Branche! Nutze Plattformen wie LinkedIn, um Kontakte zu knüpfen und dich über die neuesten Trends im GPU-Cluster Engineering auszutauschen. Oft erfährst du so von offenen Stellen, bevor sie offiziell ausgeschrieben werden.
✨Zeige deine Expertise
Erstelle ein Portfolio oder eine persönliche Website, auf der du deine Projekte und Erfahrungen präsentierst. Zeige, was du kannst, besonders wenn es um AWS HyperPod und Cluster-Management geht. Das macht einen starken Eindruck!
✨Bereite dich auf technische Interviews vor
Mach dich mit typischen Fragen und Szenarien vertraut, die in technischen Interviews für GPU-Cluster-Engineering gestellt werden. Übe das Lösen von Problemen und erkläre deine Denkweise – das zeigt dein tiefes Verständnis für die Materie.
✨Bewirb dich direkt über unsere Website
Wenn du eine Stelle bei uns im Auge hast, bewirb dich direkt über die StudySmarter-Website. So stellst du sicher, dass deine Bewerbung schnell gesehen wird und du die besten Chancen hast, Teil unseres Teams zu werden!
Wir glauben, dass du diese Fähigkeiten brauchst, um GPU Cluster Engineer (Mensch) mit Bravour zu bestehen
Einige Tipps für deine Bewerbung 🫡
Mach es persönlich!:Zeig uns, wer du bist! Verwende in deinem Anschreiben eine persönliche Ansprache und erzähle uns, warum du dich für die Position als GPU Cluster Engineer interessierst. Lass deine Leidenschaft für Technologie und Infrastruktur durchscheinen!
Sei konkret!:Gib uns konkrete Beispiele aus deiner bisherigen Erfahrung, die zeigen, wie du mit GPU-Clustern oder ähnlichen Technologien gearbeitet hast. Wir lieben es, wenn du uns zeigst, was du kannst und wie du Probleme gelöst hast!
Pass auf die Details auf!:Achte darauf, dass deine Bewerbung fehlerfrei ist. Rechtschreibfehler oder unklare Formulierungen können einen schlechten Eindruck hinterlassen. Lass jemanden drüberlesen, bevor du es abschickst – wir wollen das Beste von dir sehen!
Bewirb dich über unsere Website!:Der einfachste Weg, um Teil unseres Teams zu werden, ist, dich direkt über unsere Website zu bewerben. So stellst du sicher, dass deine Bewerbung schnell bei uns landet und wir sie zügig bearbeiten können!
Wie man sich auf ein Vorstellungsgespräch bei NEURA Robotics vorbereitet
✨Verstehe die Technologie
Mach dich mit den spezifischen Technologien vertraut, die in der Stellenbeschreibung erwähnt werden, wie AWS HyperPod, Slurm und Kubernetes. Zeige im Interview, dass du nicht nur die Theorie kennst, sondern auch praktische Erfahrungen hast und bereit bist, diese anzuwenden.
✨Bereite konkrete Beispiele vor
Denke an konkrete Situationen aus deiner bisherigen Berufserfahrung, in denen du Probleme gelöst oder Projekte erfolgreich umgesetzt hast. Sei bereit, diese Beispiele zu teilen, um deine Fähigkeiten im Cluster Engineering und Operations zu demonstrieren.
✨Zeige Teamgeist
Da die Zusammenarbeit mit verschiedenen Teams wichtig ist, solltest du im Interview betonen, wie du in der Vergangenheit effektiv mit anderen Abteilungen, wie ML-Forschern oder Produktteams, zusammengearbeitet hast. Das zeigt, dass du ein Teamplayer bist und die Bedürfnisse anderer verstehst.
✨Fragen stellen
Bereite einige durchdachte Fragen vor, die du dem Interviewer stellen kannst. Das zeigt dein Interesse an der Position und dem Unternehmen. Frage zum Beispiel nach den aktuellen Herausforderungen des GPU-Clusters oder wie das Team die Zusammenarbeit mit AWS gestaltet.