GPU Cluster Engineer (Mensch)

GPU Cluster Engineer (Mensch)

Vollzeit 60000 - 80000 € / Jahr (geschätzt) Homeoffice (teilweise)
N

Auf einen Blick

  • Aufgaben: Verantwortung für NEURAs GPU-Cluster-Infrastruktur und Entwicklung von Self-Service-Tools für ML-Teams.
  • Unternehmen: NEURA bietet ein großskaliges AWS-HyperPod-Setup mit modernen GPU-Instanzen für Foundation-Model-Training.
  • Vorteile: Mitarbeiter profitieren von einem innovativen Arbeitsumfeld und der Möglichkeit, direkt mit AWS zusammenzuarbeiten.
  • Weitere Informationen: Gute Englischkenntnisse sind erforderlich; Deutschkenntnisse sind von Vorteil.
  • Warum dieser Job: Gestalte eine extrem stabile und effiziente Infrastruktur für ML-Forschung in einem dynamischen Team.
  • Qualifikationen: Mindestens 5 Jahre Erfahrung im Infrastructure- oder Systems-Engineering, idealerweise mit GPU-Clustern.

Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.

Deine Mission & Herausforderungen

Du bist die zentrale Ansprechperson für NEURAs GPU‑Cluster-Infrastruktur – ein großskaliges AWS‑HyperPod‑Setup mit topmodernen GPU‑Instanzen für Foundation‑Model‑Training und kundenspezifische Fine‑Tuning‑Workloads. Du entwickelst das Betriebsframework, baust Self‑Service‑Tools für die ML‑Teams und arbeitest direkt mit AWS zusammen, um die Plattform auf Hyperscaler‑Ebene mitzugestalten. Dein Fokus liegt voll auf Cluster Engineering & Operations — nicht auf ML‑Forschung selbst, sondern darauf, dass die Leute, die forschen, eine extrem stabile, effiziente und leicht zugängliche Infrastruktur haben.

  • Aufsetzen, Konfigurieren und kontinuierliches Weiterentwickeln der HyperPod‑Cluster von NEURA, inkl. HyperPod/Slurm und HyperPod/EKS‑Orchestrierungsmodellen.
  • Design und Umsetzung von Strategien für Cluster‑Stabilität: Node‑Failure‑Detection, automatische Job‑Recovery, Checkpoint‑Koordination und fehlertolerante Multi‑Node‑Training‑Workflows.
  • Aufbau eines Workload‑Priority‑Frameworks, das mehreren Teams und Use Cases – Pretraining, Fine‑Tuning, Kundenjobs – erlaubt, Clusterkapazität fair und effizient zu teilen.
  • Optimierung der End‑to‑End‑GPU‑Auslastung: Erkennen und Lösen von Bottlenecks in Compute, GPU‑Speicher, EFA‑Netzwerk und Storage‑Durchsatz.
  • Enge Zusammenarbeit mit den AWS HyperPod‑Produkt‑ und Engineering‑Teams: Issues eskalieren, Learnings aus einer der größten Deployments teilen und Anforderungen für die Roadmap platzieren.
  • Bereitstellung von Self‑Service‑Tools, damit ML‑Researchers und Engineers Trainingsjobs eigenständig starten, monitoren und managen können – ohne ständige Infrastrukturunterstützung.
  • Erstellung von Onboarding‑Dokus, Trainingsmaterial und internen Workshops, damit User effizient arbeiten, Best Practices einhalten und Kosten ihrer Workloads verstehen.
  • Infrastructure as Code ist für dich Standard. Jede Cluster‑Konfiguration, jede Änderung, jede Umgebung ist Code‑first.
  • Verantwortung für Kosten- und Kapazitätsstrategie: Spot‑Management, Reserved‑Instance‑Planung, Savings Plans und laufende AWS‑Commitment‑Verhandlungen.

Auf was können wir uns freuen

  • 5+ Jahre Erfahrung im Infrastructure‑ oder Systems‑Engineering, idealerweise mit Fokus auf GPU‑Cluster oder HPC‑Umgebungen.
  • Tiefe praktische Erfahrung mit AWS HyperPod und AWS‑Instanzen; direkte Erfahrung mit HyperPod ist ein starker Vorteil.
  • Solides Verständnis von Slurm und Kubernetes als Orchestrierungsschichten – und die Fähigkeit, ihre Trade‑offs für große GPU‑Workloads zu bewerten.
  • Praktisches Wissen über Distributed Training – du weißt, was Durchsatz beeinflusst und wie man Probleme debuggt.
  • Erfahrung in der Entwicklung von Self‑Service‑Tools und technischer Dokumentation für anspruchsvolle Endnutzer: Du machst komplexe Infrastruktur zugänglich, nicht nur funktionsfähig.
  • Starkes Verständnis für Cloud‑Kostenmanagement im großen Maßstab: Spot‑Interruptions, Kapazitätsreservierungen, Kostenverteilung über Teams und Workloads.
  • Wohlfühlen in der Zusammenarbeit über Teamgrenzen hinweg – deine Hauptpartner sind ML‑Forschende, aber auch Product, Finance und Cloud‑Vendors.
  • Sehr gute Englischkenntnisse; Deutsch ist ein Plus.

GPU Cluster Engineer (Mensch) Arbeitgeber: NEURA Robotics

NEURA ist führend in der Entwicklung von GPU-Cluster-Infrastrukturen und bietet ein modernes Arbeitsumfeld in einer innovativen Branche. Mitarbeiter genießen die Zusammenarbeit mit AWS und die Möglichkeit, an großen Deployments zu arbeiten. Das Team fördert den Austausch über Teamgrenzen hinweg, um optimale Lösungen zu entwickeln.

N

Kontaktdaten:

NEURA Robotics Recruiting-Team

StudySmarter Expertenrat🤫

Wir sind der Meinung, dass Sie so GPU Cluster Engineer (Mensch) erhalten könnten

Engagier dich in Entwickler-Communities!

Lass uns mal ehrlich sein: In der Software-Entwicklung sind Netzwerke Gold wert! Tummel dich in GitHub-Projekten, nehme an lokalen Meetups oder Hackathons teil und vernetze dich mit anderen Entwicklern. So steigerst du nicht nur deine Sichtbarkeit, sondern lernst auch die neuesten Trends und Technologien kennen.

Zeig deine Fähigkeiten!

Erstelle ein Portfolio, das deine besten Projekte und Code-Examples zeigt. Nichts überzeugt mehr als ein praktischer Beweis deiner Skills. Das kann auch helfen, bei NEURA Robotics anzuklopfen, wenn du dich auf die Stelle als GPU Cluster Engineer (Mensch) bewirbst – so wissen sie gleich, was sie von dir erwarten können!

Nutze Jobplattformen speziell für Tech-Jobs!

Plattformen wie Stack Overflow Jobs oder AngelsList sind perfekte Orte, um Vollzeitstellen in der Software-Entwicklung zu finden. Hier sind viele tolle Unternehmen auf der Suche nach Talenten wie uns, also schau regelmäßig vorbei und bewirb dich direkt über die Website.

Such dir Mentoren und Feedback!

Hol dir Feedback von erfahrenen Entwicklern, die dir Tipps geben können, was Recruiter wirklich suchen. Ob über LinkedIn oder persönliche Kontakte: Menschen, die sich in der Branche auskennen, können enorm wertvoll sein, um dir zu helfen, dich optimal auf deine Bewerbung bei NEURA Robotics vorzubereiten!

Wir glauben, dass du diese Fähigkeiten brauchst, um GPU Cluster Engineer (Mensch) mit Bravour zu bestehen

GPU-Cluster-Infrastruktur
AWS HyperPod
Slurm
Kubernetes
Distributed Training
Self-Service-Tools
Technische Dokumentation

Einige Tipps für deine Bewerbung 🫡

Highlights deiner Coding-Skills:In der Software-Entwicklung kommt es auf konkrete Fähigkeiten an. Vergiss nicht, relevante Programmiersprachen und Frameworks in deinen Lebenslauf aufzunehmen. Zeig uns, was du kannst – vielleicht mit einem Link zu deinem GitHub-Profil oder einer Übersicht deiner Side Projects, die deine Programmierkenntnisse illustrieren.

Dokumentation deiner Erfolge:Gerade bei einer Vollzeitstelle in der Software-Entwicklung sind konkrete Ergebnisse Gold wert. Nenn uns Zahlen und Ergebnisse aus deinen vorherigen Projekten. Hast du den Code optimiert oder Systemfehler behoben? Solche Erfolge zeigen, dass du die Sprache der Entwickler sprichst und einen echten Mehrwert bringst.

Attraktive Projektbeschreibungen:Wenn du an Projekten gearbeitet hast, die hervorstechen, beschreibe sie ausführlich in deinem Lebenslauf. Was war das Problem, das du gelöst hast? Welche Technologien hast du eingesetzt? Das gibt uns einen klaren Einblick in deine Herangehensweise und Problemlösungsfähigkeiten.

Motivation zeigen:In deinem Anschreiben solltest du deine Motivation für die Stelle im Bereich Software-Entwicklung bei NEURA Robotics klar herausstellen. Warum sprichst gerade du die Anforderungen für diese Vollzeitrolle an? Mach deutlich, was dich an der Arbeit bei uns reizt und wie du über das rein Technische hinaus wachsen möchtest.

Wie man sich auf ein Vorstellungsgespräch bei NEURA Robotics vorbereitet

Technische Vorbereitung auf die Coding-Challenges

In der Software-Entwicklung sind technische Fragen oft ein zentraler Teil des Interviews. Macht euch mit Plattformen wie LeetCode oder HackerRank vertraut, um eure Problemlösungsfähigkeiten zu trainieren. Zeigt im Interview viel Selbstbewusstsein beim Erklären eurer Ansätze!

Das eigene Portfolio im besten Licht präsentieren

Stellt sicher, dass ihr ein aussagekräftiges Portfolio habt, das einige eurer besten Projekte zeigt. Seid bereit, darüber zu sprechen, was eure Rolle war, welche Technologien ihr verwendet habt und welche Herausforderungen es gab. Das gibt den Interviewern einen Einblick in eure praktische Erfahrung.

Teamfähigkeit und Kommunikation betonen

In einer Vollzeit-Position wird Kommunikation im Team sehr wichtig sein. Seid bereit, Beispiele aus der Vergangenheit zu teilen, in denen ihr effektiv im Team gearbeitet habt. Dies zeigt, dass ihr nicht nur technische Fähigkeiten habt, sondern auch gut ins Team passt.

Vorbereitung auf Fragen zur Software-Architektur

Bereitet euch darauf vor, Fragen zur Software-Architektur zu beantworten. Themen wie RESTful APIs, Microservices und Cloud-Architekturen können Teil eures Interviews sein. Zeigt euer Verständnis durch Diskussionen und Beispiele aus eurer bisherigen Arbeit oder Projekte.