Auf einen Blick
- Aufgaben: Werde der Experte für unsere GPU-Cluster-Infrastruktur und unterstütze ML-Teams mit innovativen Tools.
- Unternehmen: NEURA, ein führendes Unternehmen im Bereich KI und Cloud-Technologie.
- Vorteile: Attraktives Gehalt, flexible Arbeitszeiten und Weiterbildungsmöglichkeiten.
- Weitere Informationen: Arbeiten in einem kreativen Umfeld mit großartigen Entwicklungschancen.
- Warum dieser Job: Gestalte die Zukunft der KI mit modernster Technologie und einem dynamischen Team.
- Qualifikationen: Mindestens 5 Jahre Erfahrung in Infrastruktur oder Systemengineering, insbesondere mit GPU-Clustern.
Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.
Ihre Mission & Herausforderungen
Sie sind der Ansprechpartner für die GPU-Cluster-Infrastruktur von NEURA - eine großangelegte AWS HyperPod-Umgebung, die modernste GPU-Instanzen für das Training von Grundmodellen und die Feinabstimmung von Kundenarbeitslasten nutzt. Sie entwerfen den operativen Rahmen, erstellen Self-Service-Tools für ML-Teams und arbeiten direkt mit AWS zusammen, um die Plattform auf Hyperscaler-Ebene zu beeinflussen.
Ihr Fokus liegt auf Cluster-Engineering und -Betrieb - nicht auf ML-Forschung selbst, sondern darauf, sicherzustellen, dass die Personen, die diese Forschung betreiben, über eine solide, effiziente und zugängliche Infrastruktur verfügen.
- Einrichten, Konfigurieren und kontinuierliche Weiterentwicklung der HyperPod-Cluster von NEURA, einschließlich HyperPod/Slurm und HyperPod/EKS-Orchestrierungsmodellen.
- Entwicklung und Implementierung von Strategien für die Cluster-Stabilität: Erkennung von Knotenfehlern, automatisierte Job-Wiederherstellung, Koordination von Checkpoints und fehlertolerante Multi-Knoten-Trainings-Workflows.
- Bereitstellung eines Workload-Prioritätsmanagementrahmens, der es mehreren Teams und Anwendungsfällen wie dem Pretraining von Grundmodellen, Feinabstimmung und Kundenarbeitslasten ermöglicht, die Clusterkapazität effizient und fair zu teilen.
- Optimierung der End-to-End-GPU-Nutzung: Identifizierung und Behebung von Engpässen in Bezug auf Rechenleistung, GPU-Speicher, EFA-Netzwerk und Speicher-Durchsatz.
- Enge Zusammenarbeit mit den Produkt- und Lösungsteams von AWS HyperPod, Eskalation von Betriebsproblemen, Teilen von Erkenntnissen aus einem der größten Bereitstellungen der Plattform und Festlegung konkreter Anforderungen auf der Roadmap.
- Bereitstellung von Self-Service-Tools, die es ML-Forschern und Ingenieuren ermöglichen, Trainingsjobs unabhängig zu starten, zu überwachen und zu verwalten, ohne dass eine Infrastrukturintervention für routinemäßige Operationen erforderlich ist.
- Entwicklung von Onboarding-Dokumentationen, Schulungsmaterialien und internen Workshops, die es den Benutzern ermöglichen, effizient zu arbeiten, bewährte Verfahren zu befolgen und die Kostenimplikationen ihrer Arbeitslasten zu verstehen.
- Infrastructure as Code ist für Sie selbstverständlich. Jede Clusterkonfiguration, jede betriebliche Änderung, jede neue Umgebung wird zuerst als Code behandelt.
- Verantwortung für die Kosten- und Kapazitätsstrategie: Verwaltung von Spot-Instanzen, Planung von reservierten Instanzen, Sparpläne und laufende Verhandlungen mit AWS.
Was wir erwarten können
- Über 5 Jahre Erfahrung in der Infrastruktur- oder Systemtechnik, mit starkem Fokus auf GPU-Cluster- oder HPC-Betrieb.
- Tiefgehende praktische Erfahrung mit AWS HyperPod und AWS-Instanzen; direkte vorherige Erfahrung mit HyperPod ist ein starkes Unterscheidungsmerkmal.
- Solides Verständnis sowohl von Slurm als auch von Kubernetes als Cluster-Orchestrierungsebenen und die Fähigkeit, deren Vor- und Nachteile für großangelegte GPU-Arbeitslasten zu bewerten.
- Praktisches Wissen über verteiltes Training - Sie verstehen, was den Durchsatz beeinflusst und wie man ihn debuggt.
- Erfahrung im Aufbau von Self-Service-Tools und operativen Dokumentationen für technische Endbenutzer.
- Sie machen komplexe Infrastruktur zugänglich, nicht nur funktional.
- Starkes Verständnis des Cloud-Kostenmanagements im großen Maßstab: Umgang mit Spot-Unterbrechungen, Kapazitätsreservierungen, Kostenattribution über Teams und Arbeitslasten.
- Komfortables Arbeiten über organisatorische Grenzen hinweg - Ihre Hauptpartner sind ML-Forscher, aber Sie werden auch eng mit Produkt-, Finanz- und Cloud-Anbieterteams zusammenarbeiten.
- Starke Englischkenntnisse. Deutsch ist von Vorteil.
GPU Cluster Engineer (human) Arbeitgeber: NEURA Robotics
NEURA ist ein hervorragender Arbeitgeber, der seinen Mitarbeitern die Möglichkeit bietet, in einem innovativen und dynamischen Umfeld zu arbeiten. Mit einem starken Fokus auf Mitarbeiterentwicklung und einer offenen Unternehmenskultur fördern wir Kreativität und Zusammenarbeit, während wir gleichzeitig eine wettbewerbsfähige Vergütung und umfassende Vorteile bieten. Unsere Lage in einem technologisch fortschrittlichen Zentrum ermöglicht es unseren Mitarbeitern, an der Spitze der GPU-Cluster-Technologie zu arbeiten und sich kontinuierlich weiterzuentwickeln.
StudySmarter Expertenrat🤫
Wir sind der Meinung, dass Sie so GPU Cluster Engineer (human) erhalten könnten
✨Tipp Nummer 1
Netzwerken ist der Schlüssel! Nutze Plattformen wie LinkedIn, um mit Leuten aus der Branche in Kontakt zu treten. Lass uns gemeinsam nach Verbindungen suchen, die dir helfen können, einen Fuß in die Tür zu bekommen.
✨Tipp Nummer 2
Bereite dich auf technische Interviews vor! Übe typische Fragen und Szenarien, die für die Rolle eines GPU Cluster Engineers relevant sind. Wir können dir helfen, die besten Ressourcen zu finden, um deine Fähigkeiten aufzufrischen.
✨Tipp Nummer 3
Zeige deine Leidenschaft für die Technologie! Sprich über Projekte, an denen du gearbeitet hast, und wie du Herausforderungen gemeistert hast. Lass uns deine Erfolge in den Vordergrund stellen, damit du dich von anderen Bewerbern abhebst.
✨Tipp Nummer 4
Bewirb dich direkt über unsere Website! Das zeigt dein Interesse und gibt uns die Möglichkeit, dich besser kennenzulernen. Lass uns gemeinsam an deiner Bewerbung arbeiten, damit du die beste Chance hast, den Job zu bekommen.
Wir glauben, dass du diese Fähigkeiten brauchst, um GPU Cluster Engineer (human) mit Bravour zu bestehen
Einige Tipps für deine Bewerbung 🫡
Mach es persönlich!:Zeig uns, wer du bist! Verwende in deinem Anschreiben eine persönliche Ansprache und erzähle uns von deinen Erfahrungen und deiner Leidenschaft für GPU-Cluster und Infrastruktur. Das macht deine Bewerbung einzigartig und unvergesslich.
Sei konkret!:Gib uns konkrete Beispiele aus deiner bisherigen Arbeit, die zeigen, wie du mit AWS HyperPod oder ähnlichen Technologien umgegangen bist. Wir lieben es, wenn du uns zeigst, wie du Probleme gelöst und Erfolge erzielt hast!
Sprich unsere Sprache!:Nutze die Begriffe und den Jargon aus der Stellenbeschreibung. Wenn wir sehen, dass du die Herausforderungen und Anforderungen verstehst, wird das deine Chancen erhöhen, bei uns ins Gespräch zu kommen.
Bewirb dich über unsere Website!:Wir empfehlen dir, deine Bewerbung direkt über unsere Website einzureichen. So stellst du sicher, dass sie schnell und effizient bei uns ankommt. Und vergiss nicht, deine Unterlagen gut zu formatieren und auf Rechtschreibung zu achten!
Wie man sich auf ein Vorstellungsgespräch bei NEURA Robotics vorbereitet
✨Verstehe die Infrastruktur
Mach dich mit der GPU-Cluster-Infrastruktur vertraut, insbesondere mit AWS HyperPod. Zeige im Interview, dass du die Herausforderungen und Möglichkeiten dieser Umgebung verstehst und wie du zur Optimierung beitragen kannst.
✨Bereite konkrete Beispiele vor
Denke an spezifische Situationen aus deiner bisherigen Erfahrung, in denen du Cluster-Stabilität oder Effizienz verbessert hast. Konkrete Beispiele helfen, deine Fähigkeiten zu untermauern und zeigen, dass du die Anforderungen der Rolle verstehst.
✨Sprich über Selbstbedienungstools
Bereite dich darauf vor, darüber zu sprechen, wie du selbstbedienbare Tools für ML-Teams entwickelt hast. Erkläre, wie diese Tools die Effizienz steigern und den Nutzern helfen, ihre Aufgaben ohne ständige Infrastrukturintervention zu erledigen.
✨Kosteneffizienz im Blick
Sei bereit, über deine Erfahrungen im Cloud-Kostenmanagement zu sprechen. Zeige, dass du die Bedeutung von Spot-Instanzen, Reservierungen und Kostenattribution verstehst und wie du diese Strategien in der Vergangenheit erfolgreich umgesetzt hast.