GPU Cluster Engineer (human)

GPU Cluster Engineer (human)

Riederich Vollzeit 60000 - 80000 € / Jahr (geschätzt) Homeoffice (teilweise)
N

Auf einen Blick

  • Aufgaben: Design and manage NEURA's GPU cluster infrastructure, focusing on stability and self-service tooling.
  • Unternehmen: NEURA specializes in large-scale AWS HyperPod environments for advanced machine learning workloads.
  • Vorteile: Enjoy a collaborative environment with opportunities to influence AWS platform development directly.
  • Weitere Informationen: Strong English skills are essential; German is a plus.
  • Warum dieser Job: Join a cutting-edge team optimizing GPU utilization for foundation model training.
  • Qualifikationen: 5+ years in infrastructure engineering with hands-on AWS HyperPod experience required.

Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.

Ihre Mission & Herausforderungen

Sie sind der Ansprechpartner für die GPU-Cluster-Infrastruktur von NEURA - eine großangelegte AWS HyperPod-Umgebung, die modernste GPU-Instanzen für das Training von Grundmodellen und die Feinabstimmung von Kundenarbeitslasten nutzt. Sie entwerfen den operativen Rahmen, erstellen Self-Service-Tools für ML-Teams und arbeiten direkt mit AWS zusammen, um die Plattform auf Hyperscaler-Ebene zu beeinflussen.

Ihr Fokus liegt auf Cluster-Engineering und -Betrieb – nicht auf ML-Forschung selbst, sondern darauf, sicherzustellen, dass die Personen, die diese Forschung betreiben, über eine solide, effiziente und zugängliche Infrastruktur verfügen.

  • Einrichten, Konfigurieren und kontinuierliches Weiterentwickeln der HyperPod-Cluster von NEURA, einschließlich HyperPod/Slurm und HyperPod/EKS-Orchestrierungsmodellen.
  • Entwerfen und Implementieren von Strategien für die Cluster-Stabilität: Erkennung von Knotenfehlern, automatisierte Job-Wiederherstellung, Koordination von Checkpoints und fehlertolerante Multi-Knoten-Trainings-Workflows.
  • Bereitstellung eines Workload-Prioritätsmanagementrahmens, der es mehreren Teams und Anwendungsfällen wie dem Pretraining von Grundmodellen, Feinabstimmung und Kundenarbeitslasten ermöglicht, die Clusterkapazität effizient und fair zu teilen.
  • Optimierung der End-to-End-GPU-Nutzung: Identifizierung und Behebung von Engpässen in Bezug auf Rechenleistung, GPU-Speicher, EFA-Netzwerk und Speicher-Durchsatz.
  • Direkte und enge Zusammenarbeit mit den Produkt- und Lösungsteams von AWS HyperPod, Eskalation von Betriebsproblemen, Teilen von Erkenntnissen aus einem der größten Bereitstellungen der Plattform und Festlegung konkreter Anforderungen an die Roadmap.
  • Bereitstellung von Self-Service-Tools, die es ML-Forschern und Ingenieuren ermöglichen, Trainingsjobs unabhängig zu starten, zu überwachen und zu verwalten, ohne dass eine Infrastrukturintervention für routinemäßige Operationen erforderlich ist.
  • Entwicklung von Onboarding-Dokumentationen, Schulungsmaterialien und internen Workshops, die es den Benutzern ermöglichen, effizient zu arbeiten, bewährte Verfahren zu befolgen und die Kostenimplikationen ihrer Arbeitslasten zu verstehen.
  • Infrastructure as Code ist für Sie selbstverständlich. Jede Clusterkonfiguration, jede betriebliche Änderung, jede neue Umgebung wird zuerst in Code umgesetzt.
  • Verantwortung für die Kosten- und Kapazitätsstrategie: Verwaltung von Spot-Instanzen, Planung von reservierten Instanzen, Sparpläne und laufende Verhandlungen mit AWS.

Was wir erwarten können

  • Über 5 Jahre Erfahrung in der Infrastruktur- oder Systemtechnik, mit starkem Fokus auf GPU-Cluster- oder HPC-Betrieb.
  • Tiefgehende praktische Erfahrung mit AWS HyperPod und AWS-Instanzen; direkte vorherige Erfahrung mit HyperPod ist ein starkes Unterscheidungsmerkmal.
  • Solides Verständnis sowohl von Slurm als auch von Kubernetes als Cluster-Orchestrierungsebenen und die Fähigkeit, deren Vor- und Nachteile für großangelegte GPU-Arbeitslasten zu bewerten.
  • Praktisches Wissen über verteiltes Training - Sie verstehen, was den Durchsatz beeinflusst und wie man ihn debuggt.
  • Erfahrung im Aufbau von Self-Service-Tools und operativen Dokumentationen für technische Endbenutzer.
  • Sie machen komplexe Infrastruktur zugänglich, nicht nur funktional.
  • Starkes Verständnis des Cloud-Kostenmanagements im großen Maßstab: Umgang mit Spot-Unterbrechungen, Kapazitätsreservierungen, Kostenattribution über Teams und Arbeitslasten.
  • Komfortables Arbeiten über organisatorische Grenzen hinweg – Ihre Hauptpartner sind ML-Forscher, aber Sie werden auch eng mit Produkt-, Finanz- und Cloud-Anbieterteams zusammenarbeiten.
  • Starke Englischkenntnisse. Deutsch ist von Vorteil.

GPU Cluster Engineer (human) Arbeitgeber: NEURA Robotics

NEURA offers a dynamic work environment focused on GPU cluster operations in a large-scale AWS setting. Employees benefit from direct collaboration with AWS teams and opportunities for professional growth. Located in a tech-driven area, NEURA emphasizes innovation in machine learning infrastructure.

N

Kontaktdaten:

NEURA Robotics Recruiting-Team

StudySmarter Expertenrat🤫

Wir sind der Meinung, dass Sie so GPU Cluster Engineer (human) erhalten könnten

Engagier dich in Entwickler-Communities!

Lass uns mal ehrlich sein: In der Software-Entwicklung sind Netzwerke Gold wert! Tummel dich in GitHub-Projekten, nehme an lokalen Meetups oder Hackathons teil und vernetze dich mit anderen Entwicklern. So steigerst du nicht nur deine Sichtbarkeit, sondern lernst auch die neuesten Trends und Technologien kennen.

Zeig deine Fähigkeiten!

Erstelle ein Portfolio, das deine besten Projekte und Code-Examples zeigt. Nichts überzeugt mehr als ein praktischer Beweis deiner Skills. Das kann auch helfen, bei NEURA Robotics anzuklopfen, wenn du dich auf die Stelle als GPU Cluster Engineer (human) bewirbst – so wissen sie gleich, was sie von dir erwarten können!

Nutze Jobplattformen speziell für Tech-Jobs!

Plattformen wie Stack Overflow Jobs oder AngelsList sind perfekte Orte, um Vollzeitstellen in der Software-Entwicklung zu finden. Hier sind viele tolle Unternehmen auf der Suche nach Talenten wie uns, also schau regelmäßig vorbei und bewirb dich direkt über die Website.

Such dir Mentoren und Feedback!

Hol dir Feedback von erfahrenen Entwicklern, die dir Tipps geben können, was Recruiter wirklich suchen. Ob über LinkedIn oder persönliche Kontakte: Menschen, die sich in der Branche auskennen, können enorm wertvoll sein, um dir zu helfen, dich optimal auf deine Bewerbung bei NEURA Robotics vorzubereiten!

Wir glauben, dass du diese Fähigkeiten brauchst, um GPU Cluster Engineer (human) mit Bravour zu bestehen

GPU Cluster Engineering
AWS HyperPod
Slurm
Kubernetes
Distributed Training
Self-Service Tooling
Operational Documentation

Einige Tipps für deine Bewerbung 🫡

Highlights deiner Coding-Skills:In der Software-Entwicklung kommt es auf konkrete Fähigkeiten an. Vergiss nicht, relevante Programmiersprachen und Frameworks in deinen Lebenslauf aufzunehmen. Zeig uns, was du kannst – vielleicht mit einem Link zu deinem GitHub-Profil oder einer Übersicht deiner Side Projects, die deine Programmierkenntnisse illustrieren.

Dokumentation deiner Erfolge:Gerade bei einer Vollzeitstelle in der Software-Entwicklung sind konkrete Ergebnisse Gold wert. Nenn uns Zahlen und Ergebnisse aus deinen vorherigen Projekten. Hast du den Code optimiert oder Systemfehler behoben? Solche Erfolge zeigen, dass du die Sprache der Entwickler sprichst und einen echten Mehrwert bringst.

Attraktive Projektbeschreibungen:Wenn du an Projekten gearbeitet hast, die hervorstechen, beschreibe sie ausführlich in deinem Lebenslauf. Was war das Problem, das du gelöst hast? Welche Technologien hast du eingesetzt? Das gibt uns einen klaren Einblick in deine Herangehensweise und Problemlösungsfähigkeiten.

Motivation zeigen:In deinem Anschreiben solltest du deine Motivation für die Stelle im Bereich Software-Entwicklung bei NEURA Robotics klar herausstellen. Warum sprichst gerade du die Anforderungen für diese Vollzeitrolle an? Mach deutlich, was dich an der Arbeit bei uns reizt und wie du über das rein Technische hinaus wachsen möchtest.

Wie man sich auf ein Vorstellungsgespräch bei NEURA Robotics vorbereitet

Technische Vorbereitung auf die Coding-Challenges

In der Software-Entwicklung sind technische Fragen oft ein zentraler Teil des Interviews. Macht euch mit Plattformen wie LeetCode oder HackerRank vertraut, um eure Problemlösungsfähigkeiten zu trainieren. Zeigt im Interview viel Selbstbewusstsein beim Erklären eurer Ansätze!

Das eigene Portfolio im besten Licht präsentieren

Stellt sicher, dass ihr ein aussagekräftiges Portfolio habt, das einige eurer besten Projekte zeigt. Seid bereit, darüber zu sprechen, was eure Rolle war, welche Technologien ihr verwendet habt und welche Herausforderungen es gab. Das gibt den Interviewern einen Einblick in eure praktische Erfahrung.

Teamfähigkeit und Kommunikation betonen

In einer Vollzeit-Position wird Kommunikation im Team sehr wichtig sein. Seid bereit, Beispiele aus der Vergangenheit zu teilen, in denen ihr effektiv im Team gearbeitet habt. Dies zeigt, dass ihr nicht nur technische Fähigkeiten habt, sondern auch gut ins Team passt.

Vorbereitung auf Fragen zur Software-Architektur

Bereitet euch darauf vor, Fragen zur Software-Architektur zu beantworten. Themen wie RESTful APIs, Microservices und Cloud-Architekturen können Teil eures Interviews sein. Zeigt euer Verständnis durch Diskussionen und Beispiele aus eurer bisherigen Arbeit oder Projekte.