GPU Cluster Engineer - Large-Scale AI Training Infrastructure (Human)
GPU Cluster Engineer - Large-Scale AI Training Infrastructure (Human)

GPU Cluster Engineer - Large-Scale AI Training Infrastructure (Human)

Vollzeit 60000 - 80000 € / Jahr (geschätzt) Home Office möglich (teilweise)
Go Premium
N

Auf einen Blick

  • Aufgaben: Werde der Experte für unsere GPU-Cluster-Infrastruktur und unterstütze ML-Teams mit innovativen Tools.
  • Arbeitgeber: Agiles Unternehmen mit flachen Hierarchien und motiviertem Team.
  • Mitarbeitervorteile: Attraktives Gehalt, flexible Arbeitszeiten und 30 Tage Urlaub.
  • Andere Informationen: Feiere Erfolge gemeinsam bei Unternehmensveranstaltungen und profitiere von unserem Corporate Benefits Programm.
  • Warum dieser Job: Gestalte die Zukunft der KI mit modernster Technologie und einem dynamischen Team.
  • Gewünschte Qualifikationen: 5+ Jahre Erfahrung in Infrastruktur oder Systemengineering, insbesondere mit GPU-Clustern.

Das voraussichtliche Gehalt liegt zwischen 60000 - 80000 € pro Jahr.

Verantwortlichkeiten

  • Sie sind der Ansprechpartner für die GPU-Cluster-Infrastruktur von NEURA - eine großangelegte AWS HyperPod-Umgebung, die modernste GPU-Instanzen für das Training von Grundmodellen und Kundenanpassungsarbeiten betreibt.
  • Sie entwerfen den operativen Rahmen, erstellen Self-Service-Tools für ML-Teams und arbeiten direkt mit AWS zusammen, um die Plattform auf Hyperscaler-Ebene zu beeinflussen.
  • Ihr Fokus liegt auf Clusterengineering und -betrieb - nicht auf ML-Forschung selbst, sondern darauf, sicherzustellen, dass die Personen, die diese Forschung durchführen, über eine solide, effiziente und zugängliche Infrastruktur verfügen.
  • Einrichten, Konfigurieren und kontinuierliches Weiterentwickeln der HyperPod-Cluster von NEURA, einschließlich HyperPod/Slurm- und HyperPod/EKS-Orchestrierungsmodellen.
  • Entwerfen und Implementieren von Strategien für die Clusterstabilität: Erkennung von Knotenfehlern, automatisierte Jobwiederherstellung, Koordination von Checkpoints und fehlertolerante Multi-Knoten-Trainings-Workflows.
  • Bereitstellung eines Workload-Prioritätsmanagementrahmens, der es mehreren Teams und Anwendungsfällen ermöglicht, die Clusterkapazität effizient und fair zu teilen.
  • Optimierung der End-to-End-GPU-Nutzung: Identifizierung und Behebung von Engpässen in Bezug auf Rechenleistung, GPU-Speicher, EFA-Netzwerk und Speicher-Durchsatz.
  • Enge Zusammenarbeit mit den Produkt- und Lösungsteams von AWS HyperPod, Eskalation von Betriebsproblemen, Teilen von Erkenntnissen aus einem der größten Bereitstellungen der Plattform und Festlegung konkreter Anforderungen auf der Roadmap.
  • Bereitstellung von Self-Service-Tools, die es ML-Forschern und Ingenieuren ermöglichen, Trainingsjobs unabhängig zu starten, zu überwachen und zu verwalten, ohne dass eine Infrastrukturintervention für Routineoperationen erforderlich ist.
  • Entwicklung von Onboarding-Dokumentationen, Schulungsmaterialien und internen Workshops, die es den Nutzern ermöglichen, effizient zu arbeiten, bewährte Verfahren zu befolgen und die Kostenimplikationen ihrer Workloads zu verstehen.
  • Infrastructure as Code ist für Sie selbstverständlich. Jede Clusterkonfiguration, jede betriebliche Änderung, jede neue Umgebung wird zuerst in Code umgesetzt.
  • Verantwortung für die Kosten- und Kapazitätsstrategie: Verwaltung von Spot-Instanzen, Planung von reservierten Instanzen, Sparpläne und laufende Verhandlungen mit AWS.

Qualifikationen

  • Über 5 Jahre Erfahrung in der Infrastruktur- oder Systemtechnik, mit starkem Fokus auf GPU-Cluster- oder HPC-Betrieb.
  • Tiefgehende praktische Erfahrung mit AWS HyperPod und AWS-Instanzen; direkte vorherige Erfahrung mit HyperPod ist ein starkes Unterscheidungsmerkmal.
  • Solides Verständnis sowohl von Slurm als auch von Kubernetes als Cluster-Orchestrierungsebenen und die Fähigkeit, deren Vor- und Nachteile für großangelegte GPU-Workloads zu bewerten.
  • Praktisches Wissen über verteiltes Training - Sie verstehen, was den Durchsatz beeinflusst und wie man ihn debuggt.
  • Erfahrung im Aufbau von Self-Service-Tools und Betriebshandbüchern für technische Endbenutzer.
  • Sie machen komplexe Infrastruktur zugänglich, nicht nur funktional.
  • Starkes Verständnis des Cloud-Kostenmanagements im großen Maßstab: Umgang mit Spot-Unterbrechungen, Kapazitätsreservierungen, Kostenattribution über Teams und Workloads.
  • Komfortables Arbeiten über organisatorische Grenzen hinweg - Ihre Hauptpartner sind ML-Forscher, aber Sie werden auch eng mit Produkt-, Finanz- und Cloud-Anbieterteams zusammenarbeiten.
  • Starke Englischkenntnisse. Deutsch ist von Vorteil.

Vorteile

  • Werden Sie Teil eines agilen Unternehmens, gestalten Sie aktiv Themen mit und profitieren Sie von flachen Hierarchien in einem hochmotivierten Team.
  • Genießen Sie ein attraktives Gehalt, flexible Arbeitszeiten und 30 Tage Urlaub.
  • Die Freiheit, eigene Ideen einzubringen und voranzutreiben.
  • Gemeinsame Erfolge bei Unternehmensveranstaltungen feiern.
  • Profitieren Sie von unserem Corporate Benefits-Programm.

GPU Cluster Engineer - Large-Scale AI Training Infrastructure (Human) Arbeitgeber: NEURA Robotics

NEURA ist ein hervorragender Arbeitgeber, der Ihnen die Möglichkeit bietet, in einem agilen und dynamischen Umfeld zu arbeiten, während Sie an der Spitze der GPU-Cluster-Infrastruktur für KI-Trainings arbeiten. Mit flachen Hierarchien, flexiblen Arbeitszeiten und 30 Tagen Urlaub fördern wir eine Kultur der Zusammenarbeit und Innovation, in der Ihre Ideen geschätzt werden. Darüber hinaus profitieren Sie von einem attraktiven Gehalt und einem umfassenden Corporate-Benefits-Programm, das Ihre berufliche Entwicklung unterstützt und Ihre Erfolge feiert.
N

Kontaktperson:

NEURA Robotics HR Team

StudySmarter Bewerbungstipps 🤫

So bekommst du den Job: GPU Cluster Engineer - Large-Scale AI Training Infrastructure (Human)

Netzwerken, Netzwerken, Netzwerken!

Nutze LinkedIn und andere Plattformen, um mit Leuten aus der Branche in Kontakt zu treten. Frag nach Informationen über die Unternehmenskultur oder aktuelle Projekte – das zeigt dein Interesse und kann dir wertvolle Einblicke geben.

Sei proaktiv bei der Kontaktaufnahme

Wenn du eine interessante Stelle siehst, zögere nicht, direkt mit dem Team oder dem Hiring Manager in Kontakt zu treten. Ein kurzes, freundliches Anschreiben kann Wunder wirken und dich von anderen Bewerbern abheben.

Bereite dich auf technische Gespräche vor

Mach dich mit den neuesten Technologien und Trends im Bereich GPU-Cluster und AWS vertraut. Sei bereit, deine praktischen Erfahrungen und Lösungen für typische Probleme zu teilen – das zeigt, dass du wirklich Ahnung hast!

Bewirb dich über unsere Website

Wir empfehlen dir, dich direkt über unsere Website zu bewerben. So kannst du sicherstellen, dass deine Bewerbung die richtigen Leute erreicht und du alle aktuellen Informationen über die Stelle erhältst.

Diese Fähigkeiten machen dich zur top Bewerber*in für die Stelle: GPU Cluster Engineer - Large-Scale AI Training Infrastructure (Human)

GPU Cluster Engineering
AWS HyperPod
Slurm
Kubernetes
Distributed Training
Self-Service Tooling
Operational Documentation
Cloud Cost Management
Infrastructure as Code
Node Failure Detection
Automated Job Recovery
Fault-Tolerant Workflows
Capacity Management
Communication Skills in English
Collaboration across Organizational Boundaries

Tipps für deine Bewerbung 🫡

Sei du selbst!: Wir wollen dich kennenlernen, also zeig uns, wer du wirklich bist! Lass deine Persönlichkeit in deiner Bewerbung durchscheinen und erzähl uns, warum du die perfekte Ergänzung für unser Team bist.

Pass auf die Details auf!: Achte darauf, dass deine Bewerbung fehlerfrei ist. Rechtschreibfehler oder unklare Formulierungen können einen schlechten Eindruck hinterlassen. Nimm dir die Zeit, alles gründlich zu überprüfen!

Zeig deine Erfahrung!: Erzähle uns von deinen bisherigen Erfahrungen im Bereich GPU-Cluster und Infrastruktur. Konkrete Beispiele helfen uns, deine Fähigkeiten besser zu verstehen und wie du unser Team unterstützen kannst.

Bewirb dich über unsere Website!: Der einfachste Weg, um Teil unseres Teams zu werden, ist die Bewerbung über unsere Website. So stellst du sicher, dass deine Unterlagen direkt bei uns landen und wir sie schnellstmöglich prüfen können.

Wie du dich auf ein Vorstellungsgespräch bei NEURA Robotics vorbereitest

Verstehe die Technologie

Mach dich mit den spezifischen Technologien vertraut, die NEURA verwendet, insbesondere AWS HyperPod, Slurm und Kubernetes. Zeige im Interview, dass du nicht nur die Grundlagen verstehst, sondern auch, wie diese Technologien in der Praxis eingesetzt werden, um GPU-Cluster effizient zu betreiben.

Bereite konkrete Beispiele vor

Denke an konkrete Situationen aus deiner bisherigen Berufserfahrung, in denen du erfolgreich Cluster konfiguriert oder Probleme gelöst hast. Diese Beispiele helfen dir, deine Fähigkeiten zu demonstrieren und zeigen, dass du die Herausforderungen, die auf dich zukommen könnten, bereits gemeistert hast.

Kommunikation ist der Schlüssel

Da du mit verschiedenen Teams zusammenarbeiten wirst, ist es wichtig, deine Kommunikationsfähigkeiten zu betonen. Übe, technische Konzepte einfach und klar zu erklären, damit auch Nicht-Techniker verstehen, was du tust. Das wird dir helfen, im Interview einen positiven Eindruck zu hinterlassen.

Fragen stellen

Bereite einige Fragen vor, die du dem Interviewer stellen kannst. Das zeigt dein Interesse an der Position und hilft dir, mehr über die Unternehmenskultur und die Erwartungen an die Rolle zu erfahren. Fragen zu den aktuellen Herausforderungen des Teams oder zur zukünftigen Entwicklung der Infrastruktur sind immer gut.

GPU Cluster Engineer - Large-Scale AI Training Infrastructure (Human)
NEURA Robotics
Premium gehen

Schneller zum Traumjob mit Premium

Deine Bewerbung wird als „Top Bewerbung“ bei unseren Partnern gekennzeichnet
Individuelles Feedback zu Lebenslauf und Anschreiben, einschließlich der Anpassung an spezifische Stellenanforderungen
Gehöre zu den ersten Bewerbern für neue Stellen mit unserem AI Bewerbungsassistenten
1:1 Unterstützung und Karriereberatung durch unsere Career Coaches
Premium gehen

Geld-zurück-Garantie, wenn du innerhalb von 6 Monaten keinen Job findest

>