GPU Cluster Engineer (human)

Jobbörse

Unternehmen

Atlas Metrics

GPU Cluster Engineer (human)

Vollzeit 60000 - 80000 € / Jahr (geschätzt) Kein Homeoffice möglich

Auf einen Blick

Aufgaben: Gestalte die Zukunft der Mensch-Roboter-Kollaboration mit modernster GPU-Cluster-Technologie.
Unternehmen: Neura Robotics, ein innovatives Unternehmen mit flachen Hierarchien.
Vorteile: Flexibles Arbeiten, 30 Urlaubstage und ein wettbewerbsfähiges Gehalt.
Weitere Informationen: Dynamisches Umfeld mit großartigen Entwicklungsmöglichkeiten und einem leidenschaftlichen Team.
Warum dieser Job: Arbeite an spannenden Projekten und setze neue Standards in der Robotik.
Qualifikationen: 5+ Jahre Erfahrung in Infrastruktur oder Systemengineering, insbesondere mit GPU-Clustern.

Das prognostizierte Gehalt liegt zwischen 60000 - 80000 € pro Jahr.

Gestalten Sie die Zukunft der Mensch-Roboter-Kollaboration. In der Softwareabteilung entwickeln Sie robotergestützte Lösungen, die die Zusammenarbeit zwischen Mensch und Maschine neu definieren. Sie arbeiten mit modernster Technologie und setzen branchenverändernde Standards. Sie helfen nicht nur bei der Entwicklung unserer Lösungen, sondern setzen auch neue Trends und treiben Innovationen voran. In einem agilen und interdisziplinären Team engagieren Sie sich in spannenden Projekten. Mit klaren Scrum-Prozessen wie täglichen Stand-ups, Sprint-Planung und Reviews bleiben Sie flexibel und effizient. Die enge Zusammenarbeit mit anderen Abteilungen ermöglicht es Ihnen, Softwarelösungen zu schaffen, die sowohl technisch fortschrittlich als auch praktisch effektiv sind.

Ihre Mission & Herausforderungen:

Sie sind der Ansprechpartner für die GPU-Cluster-Infrastruktur von NEURA – eine großangelegte AWS HyperPod-Umgebung, die modernste GPU-Instanzen für das Training von Grundmodellen und Kundenanpassungsarbeiten betreibt.
Sie entwerfen den operativen Rahmen, bauen Self-Service-Tools für ML-Teams und arbeiten direkt mit AWS zusammen, um die Plattform auf Hyperscaler-Ebene zu beeinflussen.
Ihr Fokus liegt auf Clusterengineering und -betrieb – nicht auf ML-Forschung selbst, sondern darauf, sicherzustellen, dass die Forscher über eine solide, effiziente und zugängliche Infrastruktur verfügen.
Einrichten, Konfigurieren und kontinuierliches Weiterentwickeln der HyperPod-Cluster von NEURA, einschließlich HyperPod/Slurm und HyperPod/EKS-Orchestrierungsmodellen.
Entwicklung und Implementierung von Strategien zur Clusterstabilität: Erkennung von Knotenfehlern, automatisierte Jobwiederherstellung, Koordination von Checkpoints und fehlertolerante Multi-Knoten-Trainings-Workflows.
Bereitstellung eines Workload-Prioritätsmanagementrahmens, der es mehreren Teams und Anwendungsfällen ermöglicht, die Clusterkapazität effizient und fair zu teilen.
Optimierung der End-to-End-GPU-Nutzung: Identifizierung und Behebung von Engpässen in Bezug auf Rechenleistung, GPU-Speicher, EFA-Netzwerk und Speicher-Durchsatz.
Enge Zusammenarbeit mit den Produkt- und Lösungsteams von AWS HyperPod, Eskalation von Betriebsproblemen, Teilen von Erkenntnissen aus einer der größten Bereitstellungen der Plattform und Festlegung konkreter Anforderungen an die Roadmap.
Bereitstellung von Self-Service-Tools, die es ML-Forschern und Ingenieuren ermöglichen, Trainingsjobs unabhängig zu starten, zu überwachen und zu verwalten, ohne dass eine Infrastrukturintervention für Routineoperationen erforderlich ist.
Entwicklung von Onboarding-Dokumentationen, Schulungsmaterialien und internen Workshops, die es den Nutzern ermöglichen, effizient zu arbeiten, bewährte Verfahren zu befolgen und die Kostenimplikationen ihrer Workloads zu verstehen.
Infrastructure as Code ist für Sie selbstverständlich. Jede Clusterkonfiguration, jede betriebliche Änderung, jede neue Umgebung wird zuerst in Code umgesetzt.
Verantwortung für die Kosten- und Kapazitätsstrategie: Verwaltung von Spot-Instanzen, Planung von reservierten Instanzen, Sparpläne und laufende Verhandlungen mit AWS.

Was wir erwarten:

5+ Jahre Erfahrung in der Infrastruktur- oder Systemtechnik mit starkem Fokus auf GPU-Cluster- oder HPC-Betrieb.
Tiefe praktische Erfahrung mit AWS HyperPod und AWS-Instanzen; direkte vorherige Erfahrung mit HyperPod ist ein starkes Unterscheidungsmerkmal.
Solides Verständnis von Slurm und Kubernetes als Cluster-Orchestrierungsebenen und die Fähigkeit, deren Vor- und Nachteile für großangelegte GPU-Workloads zu bewerten.
Praktisches Wissen über verteiltes Training – Sie verstehen, was den Durchsatz beeinflusst und wie man ihn debuggt.
Erfahrung in der Erstellung von Self-Service-Tools und Betriebshandbüchern für technische Endbenutzer.
Sie machen komplexe Infrastruktur zugänglich, nicht nur funktional.
Starkes Verständnis des Cloud-Kostenmanagements im großen Maßstab: Umgang mit Spot-Unterbrechungen, Kapazitätsreservierungen, Kostenattribution über Teams und Workloads.
Komfortable Zusammenarbeit über organisatorische Grenzen hinweg – Ihre Hauptpartner sind ML-Forscher, aber Sie arbeiten auch eng mit Produkt-, Finanz- und Cloud-Anbieterteams zusammen.
Starke Englischkenntnisse. Deutsch ist von Vorteil.

Was Sie erwarten können:

Kreative Freiheit und Agilität: Genießen Sie eine dynamische, selbstständige Arbeitskultur mit flachen Hierarchien, flexiblen Arbeitszeiten und 30 Urlaubstagen.
Leidenschaft für den Erfolg: Ein leidenschaftliches und hochqualifiziertes Team internationaler Experten, das darauf abzielt, Roboterassistenten neu zu definieren.
Attraktive Vergütung: Genießen Sie ein wettbewerbsfähiges Gehaltspaket sowie exklusive Mitarbeiterrabatte.
Ein Team: Ob Sommerfest oder Unternehmensversammlungen, wir feiern unsere Erfolge gemeinsam.
Berufliches Wachstum: Unterstützung für Ihre persönliche und berufliche Entwicklung.

GPU Cluster Engineer (human) Arbeitgeber: Atlas Metrics

Neura Robotics ist ein hervorragender Arbeitgeber, der seinen Mitarbeitern kreative Freiheit und Agilität in einem dynamischen Arbeitsumfeld bietet. Mit flachen Hierarchien, flexiblen Arbeitszeiten und 30 Urlaubstagen fördert das Unternehmen eine inspirierende Kultur, die sowohl für Berufseinsteiger als auch für erfahrene Fachkräfte ideal ist. Zudem profitieren die Mitarbeiter von attraktiven Vergütungen, exklusiven Mitarbeiterrabatten und umfangreichen Möglichkeiten zur persönlichen und beruflichen Weiterentwicklung.

Kontaktdaten:

Atlas Metrics Recruiting-Team

Profil von Atlas Metrics anzeigen

StudySmarter Expertenrat🤫

Wir sind der Meinung, dass Sie so GPU Cluster Engineer (human) erhalten könnten

✨Engagier dich in Entwickler-Communities!

Lass uns mal ehrlich sein: In der Software-Entwicklung sind Netzwerke Gold wert! Tummel dich in GitHub-Projekten, nehme an lokalen Meetups oder Hackathons teil und vernetze dich mit anderen Entwicklern. So steigerst du nicht nur deine Sichtbarkeit, sondern lernst auch die neuesten Trends und Technologien kennen.

✨Zeig deine Fähigkeiten!

Erstelle ein Portfolio, das deine besten Projekte und Code-Examples zeigt. Nichts überzeugt mehr als ein praktischer Beweis deiner Skills. Das kann auch helfen, bei Atlas Metrics anzuklopfen, wenn du dich auf die Stelle als GPU Cluster Engineer (human) bewirbst – so wissen sie gleich, was sie von dir erwarten können!

✨Nutze Jobplattformen speziell für Tech-Jobs!

Plattformen wie Stack Overflow Jobs oder AngelsList sind perfekte Orte, um Vollzeitstellen in der Software-Entwicklung zu finden. Hier sind viele tolle Unternehmen auf der Suche nach Talenten wie uns, also schau regelmäßig vorbei und bewirb dich direkt über die Website.

✨Such dir Mentoren und Feedback!

Hol dir Feedback von erfahrenen Entwicklern, die dir Tipps geben können, was Recruiter wirklich suchen. Ob über LinkedIn oder persönliche Kontakte: Menschen, die sich in der Branche auskennen, können enorm wertvoll sein, um dir zu helfen, dich optimal auf deine Bewerbung bei Atlas Metrics vorzubereiten!

Wir glauben, dass du diese Fähigkeiten brauchst, um GPU Cluster Engineer (human) mit Bravour zu bestehen

GPU Cluster Engineering

AWS HyperPod

Slurm

Kubernetes

Infrastructure as Code

Distributed Training

Self-Service Tooling

Cloud Cost Management

Node Failure Detection

Automated Job Recovery

Checkpoint Coordination

Fault-Tolerant Workflows

Workload Priority Management

Communication Skills in English

Documentation Development

Einige Tipps für deine Bewerbung 🫡

Highlights deiner Coding-Skills:In der Software-Entwicklung kommt es auf konkrete Fähigkeiten an. Vergiss nicht, relevante Programmiersprachen und Frameworks in deinen Lebenslauf aufzunehmen. Zeig uns, was du kannst – vielleicht mit einem Link zu deinem GitHub-Profil oder einer Übersicht deiner Side Projects, die deine Programmierkenntnisse illustrieren.

Dokumentation deiner Erfolge:Gerade bei einer Vollzeitstelle in der Software-Entwicklung sind konkrete Ergebnisse Gold wert. Nenn uns Zahlen und Ergebnisse aus deinen vorherigen Projekten. Hast du den Code optimiert oder Systemfehler behoben? Solche Erfolge zeigen, dass du die Sprache der Entwickler sprichst und einen echten Mehrwert bringst.

Attraktive Projektbeschreibungen:Wenn du an Projekten gearbeitet hast, die hervorstechen, beschreibe sie ausführlich in deinem Lebenslauf. Was war das Problem, das du gelöst hast? Welche Technologien hast du eingesetzt? Das gibt uns einen klaren Einblick in deine Herangehensweise und Problemlösungsfähigkeiten.

Motivation zeigen:In deinem Anschreiben solltest du deine Motivation für die Stelle im Bereich Software-Entwicklung bei Atlas Metrics klar herausstellen. Warum sprichst gerade du die Anforderungen für diese Vollzeitrolle an? Mach deutlich, was dich an der Arbeit bei uns reizt und wie du über das rein Technische hinaus wachsen möchtest.

Wie man sich auf ein Vorstellungsgespräch bei Atlas Metrics vorbereitet

✨Technische Vorbereitung auf die Coding-Challenges

In der Software-Entwicklung sind technische Fragen oft ein zentraler Teil des Interviews. Macht euch mit Plattformen wie LeetCode oder HackerRank vertraut, um eure Problemlösungsfähigkeiten zu trainieren. Zeigt im Interview viel Selbstbewusstsein beim Erklären eurer Ansätze!

✨Das eigene Portfolio im besten Licht präsentieren

Stellt sicher, dass ihr ein aussagekräftiges Portfolio habt, das einige eurer besten Projekte zeigt. Seid bereit, darüber zu sprechen, was eure Rolle war, welche Technologien ihr verwendet habt und welche Herausforderungen es gab. Das gibt den Interviewern einen Einblick in eure praktische Erfahrung.

✨Teamfähigkeit und Kommunikation betonen

In einer Vollzeit-Position wird Kommunikation im Team sehr wichtig sein. Seid bereit, Beispiele aus der Vergangenheit zu teilen, in denen ihr effektiv im Team gearbeitet habt. Dies zeigt, dass ihr nicht nur technische Fähigkeiten habt, sondern auch gut ins Team passt.

✨Vorbereitung auf Fragen zur Software-Architektur

Bereitet euch darauf vor, Fragen zur Software-Architektur zu beantworten. Themen wie RESTful APIs, Microservices und Cloud-Architekturen können Teil eures Interviews sein. Zeigt euer Verständnis durch Diskussionen und Beispiele aus eurer bisherigen Arbeit oder Projekte.

GPU Cluster Engineer (human)

Atlas Metrics

GPU Cluster Engineer (human)

Auf einen Blick

GPU Cluster Engineer (human) Arbeitgeber: Atlas Metrics

StudySmarter Expertenrat🤫

Wir glauben, dass du diese Fähigkeiten brauchst, um GPU Cluster Engineer (human) mit Bravour zu bestehen

Einige Tipps für deine Bewerbung 🫡

Wie man sich auf ein Vorstellungsgespräch bei Atlas Metrics vorbereitet

Unternehmen

Produkt

Help